学习笔记·语言学导论

发表于 2025/09/28, 周日分类于语言学笔记阅读次数： Disqus：本文字数： 12k 阅读时长 ≈ 43 分钟

语言学

语言学（linguistics），顾名思义，是研究语言的科学。
中国、印度和希腊与罗马在古代就出现了语文学（filology），这是对语言系统研究的开始。例如，中国的语文学研究围绕汉字进行，称为「小学」，包括文字学、音韵学、训诂学。语文学和语言学的区别在于，语文学研究的直接目的是解读古典文献，而非探究语言本身的规律，其关注的重点是古典文献所反映的古代思想和文化。

语言学研究具有形式和功能的双重视角。形式主义（formalism）将语言作为一个符号系统，关注语言的内部结构；功能主义（funcionalism）则将语言作为交流工具，关注语言在交流中的功能。

生成语言学（generative linguistics）是如今形式语言学中的主流，由诺姆·乔姆斯基（Noam Chomsky，1928—）提出，其核心观点为：

人类习得与发展语言的能力是先天的。
存在一套由一系列原则构成的普遍语法（Universal Grammar, UG），所有人类语言都共享这一套语法原则。
特定参数的不同导致了各种语言的具体语法不同。例如，英语的语序为SVO，日语的语序为SOV，这就是语序参数的不同；西班牙语可以省略主语，英语不能省略主语，这就是主语显现参数的不同。儿童习得语言的过程，就是在普遍语法的基础上设定参数的过程。

功能语言学的代表人物有韩礼德（Michael Halliday，1925—2018）、Simon Dik（1940—1995）等，其主张：

语言的根本目的是交流，交流功能先于形式结构。
语言是语用驱动的，词汇和语法的选择都依赖于语境和交流的功能。
语义受到语用制约，语言的意义取决于语境。
语言的普遍性源于功能而非形式。

理论语言学（theoretical linguistics），也称普通语言学（general linguistics），研究的是语言的一般规律，主要从语法、语音、音系、语义四个层次来研究。其中，语法指狭义上的形态（即词法）和句法，而广义上音系和语义也可以算作语法的范畴。
语法（grammar）是语言单位的结构和意义的规律：音系是不同区别特征的音位组合成词的规则，形态是语素组合成词的规则，句法是词组合成短语、短语组合成句子的规则，语义是指派意义的规则。能说某种语言的人必然掌握了这种语言的语法。对一种语言的说话者的语法规则的描写就是描写语法（descriptive grammar），描写语法并不要求说话者应该怎么说话，而是解释为什么说话者能够说话并理解别人说的话，将说话者对自己语言的规则描写下来。与之相对，许多语法学家通过编撰规范语法（prescriptive grammar），试图规范而不是描写语法规则，规范语法的目的不是描写说话者所知道的规则，而是要求说话者应该遵循什么规则。教学语法也是规范语法的一种。从语言学角度来说，任何语法都同等复杂、同等具有逻辑性，没有一种语言比其它语言更加优越。
索绪尔（Ferdinand de Saussure，1857—1913）在《普通语言学教程》（Course in General Linguistics）中提出了共时和历时两个视角：共时（syncronic）语言学研究语言在某一特定时期的特点，而历时（diacronic）语言学研究语言在历史不同时期的演变。Moreno Cabrera（1956—）区分了语言学研究的理论和实践两个视角：理论视角关注语法这种抽象的理论工具，研究为了描述和解释语言而构建的理论系统，属于元理论层面；实践视角则关注具体的语言，通过比较不同的语言研究其共性和差异，属于理论层面。
语言学除了关注语言本身的结构性质和发展规律，同时也要探究语言与其环境的关系，关注其在社会、心理、地理、政治等环境中的表现。由此，我们还可以将语言学分为内部语言学和外部语言学。

作为语言学研究的对象，索绪尔在《普通语言学教程》中将语言现象二分为语言和言语，并区分了语言能力（「言语机能」）：

语言能力（langage）是人类与生俱来的一种能力，是一种抽象的、普遍的能力。动物是否具有语言能力尚有争议，但由于动物缺乏发出复杂语音的能力，人类语言的复杂性显著区别于动物。
语言（langue）是一种社会产物，是使得语言能力得以实现的社会规范。例如，英语、西班牙语等具体的语言都属于不同的社会产物。语言能力是人类先天所具有的，而语言是在社会中习得的。语言能力不能独立运行，而必须在社会中通过语言实现，语言为语言能力提供了一定的一致性。因此，语言学研究应当优先关注语言。
言语（parole）是一种个体行为，是语言的具体实现。说话者将语言中不同的元素组合起来用于表达思想，并通过心理-物理机制将这些组合外化。乔姆斯基进一步指出，语言学研究应当关注理想说话者-听话者，也就是从所有的个体言语中抽象出所有说话者的共性，由此获得所有说话者共有的语法知识。

Eugenio Coșeriu（1921—2002）在索绪尔的基础上，进一步提出了规范（norm）的概念。规范介于社会的语言和个体的言语之间，是社会中一部分说话者语言特征的集合。一种语言可以有多种规范，同时规范会随时间（diacronic）、空间（diatopic）、社会因素（diastratic）、语境（diaphasic）以及个体差异而改变，从而形成不同的语言变体。此外，Coseriu从不同的语言中提取出共性，提出了类型（type）的概念。例如，印欧语言因为具有许多共同特点被归纳为印欧类型，其下又有日耳曼等子类型（subtype）。

根据George Yule（1947—），口语出现于约5万年前，书面语出现于约5000年前。在《圣经》中，亚当（Adam）被神赋予了命名万物的权力，从此有了语言；在印度神话中，则是辩才天女（Saraswati）创造了语言。然而，抛开神话，语言的起源至今尚无定论。历史上有过多次语言剥夺实验，统治者为了寻找语言的起源而将婴儿与外界的语言隔离，实验结果是这些婴儿都没有学会说话，说明语言的产生离不开社会接触。19世纪，人们认为语言是通过对自然声音的模仿而产生的。如今，适应假说认为，语言随着声道和耳朵等人类生理特征的进化而产生；遗传假说认为，语言能力存在于基因中，乔姆斯基便支持这一假说，认为语言能力的产生来自于人类的一次基因突变。

语言

我们可以从形式和功能两大视角来看待语言（language）。

作为形式的语言

作为形式的语言，就是符号系统。William D. Whitney（1827—1894）将语言定义为由任意的、约定俗成的符号组成的系统，索绪尔则在《普通语言学教程》中进一步指出，语言是一种社会规范，同时语言符号又在能指和所指的关系中体现出了任意性。
索绪尔定义的语言符号包括两部分：能指（signifier），即语音形式；所指（signified），即概念。能指和所指不可分离，二者结合才构成符号（sign）。符号具有两大性质：

任意性：能指和所指之间的关系是任意的，它们没有必然联系，而仅仅是在社会中约定俗成的。也就是说，词的形式和意义之间的关系是任意的。不过，也存在一些例外，有一些词的发音与其意义之间存在关联，例如拟声词和感叹词。但是即便如此，不同语言对同一声音的拟声词以及感叹词也有差异。
线性：语言符号是一维序列，是按时间顺序排列的。

André Martinet（1908—1999）提出，语言只能是人类的，所谓「动物语言」仅仅是一种比喻。「动物语言」总是相似不变的，而人类语言区别于动物的复杂性源于其可分解性。由此，Martinet提出了语言的二重结构（double articulation）：

第一结构：语言可以分解为有意义的最小单位，即语素。语素同时具有语音形式和意义。
第二结构：语素可以进一步分解为没有意义的最小单位，即音素。
第二结构确保了语言的稳定性：如果第一结构不能进一步分解为更小的单位，那么一个词与其发音之间的对应关系就难以保持一致，进而导致语言不稳定。例如，假设「猫」这个词只有一个整体发音，不能分解为更小的语音单位，如果发音稍有差异，就无法保证所有人理解同一个词。第二结构也确保了语言符号的任意性：因为音素没有任何意义，所以可以自由地出现在任意词中。

作为功能的语言

作为功能的语言，为了用于交流，需要遵循三条功能性原则：

象征性：语言可以用于指称与说话者所处现实不同的事物和概念，例如谈论过去、未来乃至虚构的事物
经济性：通过二重结构，语言可以通过有限的单位和有限的规则组合出无限的表达，从而克服了人类在生理和心理上的限制
创造性：语言使用者能够创造和理解从未出现过的新表达

Charles F. Hockett（1916—2000）在区分人类语言和动物语言时，提出了语言的13个设计特征（design feature）：

声-听通道（vocal–auditory channel）：语言通过声音的发出和听觉的接受进行传递
扩散传播与定向接收（broadcast transmission and directional reception）：语言通过声音向各个方向传播，但听话者能够判断声音来源的方向
短暂性（transitorness）：语言的声音非常短暂
互换性（interchangeability）：说话者和听话者的角色可以互换，即说话者可以说出任何听到的信息
反馈性（feedback）：说话者可以听到并实时调整自己说的话
专门性（specialization）：说话具有交流的目的，而非单纯的生理现象
语义性（semanticity）：语言具有意义，即特定的语音形式与意义相对应
任意性（arbitrariness）：语音形式与意义之间的关系是任意的
离散性（discreteness）：语言由可分解的离散单位组成
移位性（displacement）：象征性的体现，语言使用者可以谈论过去、未来乃至虚构的事物
能产性（productivity）：创造性的体现，语言使用者能够创造和理解从未出现过的新表达
文化传递性（cultural transmission）：语言不是先天的，而是通过社会学习获得的
二重性（duality）：即语言的二重结构

Karl Bühler（1879—1963）从交流的视角出发，提出了语言的三大功能：

指称（referential）功能：传递客观信息
情感（emotive）功能：表达说话者的情感或态度
意动（conative）功能：影响听话者的行为或态度

Roman Jakobson（1896—1982）则在Bühler的基础上又添加了三大功能：

诗性（poetic）功能：关注语言本身的美
寒暄（phatic）功能：建立、维持或结束交流
元语言（metalingual）功能：谈论语言自身

语言习得

母语习得

人类的语言习得具有普遍性，无论成长环境如何，儿童总能以极快的速度掌握复杂的词汇与语法系统，这支持了乔姆斯基的理论。不过，尽管儿童具有语言习得的先天能力，仍然需要满足两项基本条件：

儿童必须在最初几年接触语言。关键期假说（critical period hypothesis）认为，人类的语言习得存在一个关键期，即生命的最初几年。在关键期内，语言习得的能力将随着语言输入得到发展；如果在关键期后才进行语言输入，绝大多数人将再也无法习得语言。
在这一阶段，成人通常会对儿童使用一种特殊的说话方式，称为儿童导向语（儿向语；child-directed speech, CDS）。这种说话方式一般语速更慢，语调夸张，经常重复，频繁使用拟声词、指小词等。儿向语可能有助于吸引儿童的注意力，但对其语言习得并无重要影响。即使成人不对儿童使用儿向语，儿童依然能以同样的方式习得语言。
儿童必须生理健康，大脑的语言相关区域没有受损。

儿童的语言习得通常经历以下阶段：

儿童先天具有区分语言刺激的能力，对语音信息高度敏感。从出生起，儿童就能对语言中的语音对立作出反应，即使这种对立在其母语中并不构成音位对立。
大约6个月时，儿童开始牙牙学语，进入咿呀语（babbling）阶段。在这一阶段，儿童开始发展语音。前期，咿呀语主要是重复的辅音-元音串，例如baba、mama等，后期则会变化更多。儿童会不断调节咿呀语，逐渐接近其母语。初期，儿童会发出一些母语中没有的音，但逐渐会只发出其母语中存在的语音，咿呀语也开始听上去像词。
大约1岁时，儿童开始说出词语，进入独词句（one-word）阶段。在这一阶段，儿童能够说出仅由一个词组成的句子。
大约2岁时，儿童开始将两个词语组合成句，进入双词句（two-word）阶段。儿童开始发展句法。随后，儿童能够将多个实词组合成句，进入电报式言语（telegraphic speech）阶段。电报式言语反驳了儿童通过模仿习得语言的观点，因为成人在对儿童说话时并不会省略虚词，即使使用的是儿向语。大约3岁时，儿童能够使用虚词，开始说出结构复杂的句子。
对于以英语为母语的儿童，句法能力的发展尤其体现在疑问句和否定句的生成上。在电报式言语阶段，他们并不会使用助动词和移位，但已经能够通过上升语调和在句首使用wh-疑问词来构造疑问句，使用no来构造否定句；在习得助动词的过程中，儿童同时也会习得移位规则，构造出正确的疑问句，并使用don’t、can’t等构造出正确的否定句。
大约2岁半时，儿童也开始发展形态。儿童能够习得屈折形态变化，并保持语法一致和区分格标记。在形态的习得中，儿童往往会发生过度概括的现象，将正常的形态规则应用到不规则的形态变化上，例如儿童可能会说bringed、goed、runned或foots、mouses、sheeps等。
从说出词语开始，儿童也开始发展语义。而进入双词句阶段后，这些句子不仅表达句法关系，同时也在表达语义关系。在语义的习得中，儿童往往会发生过度扩展的现象，将一个词的词义扩展到其它相似的对象上，因为一个词所指称的对象是难以界定的。例如，儿童在看到一只狗时听到了dog这个词，于是将dog与这只狗联系起来，但是儿童并没有办法确定dog能否指称与这只狗差别很大的其它种类的狗，也无法确定dog能否指称牛、羊等其它有四只脚的动物，那么，儿童就可能将dog的词义扩展到所有有四只脚的动物。此外，儿童在上义词和下义词之间，倾向于选择中等程度的词语。例如，儿童在「动物」「鸟」「金丝雀」这三个词之间，往往会使用「鸟」这个词。大约5岁时，儿童能够掌握反义词的使用。

二语习得

在习得母语后，我们往往还能习得另一种语言。已经习得母语（L1）的成人或儿童习得第二语言（L2）或更多语言的过程称为二语习得（second-language acquisition, SLA）。有些儿童会同时习得两种母语，这个过程称为双语习得（bilingual first language acquisition, BFLA），双语习得的过程与单语习得并没有太大差别，只是双语儿童会同时发展两套词汇与语法系统。
首先应区分L2的习得与学习：语言习得（language acquisition）是自然地发展非母语交流能力的过程，侧重于语言的功能；语言学习（language learning）则是有意识地积累词汇与语法等语言知识的过程，侧重于语言的形式。传统教学更强调学习的方法，教授学生语言知识，但因此在交流上存在不足。二语习得实际上是习得和学习两种方法的结合。

像L1一样掌握L2是十分困难的。L2者在学习时，学习时间有限，往往也缺乏与L1者持续的直接接触；即使采用习得的方法，依然难以达到L1者的水平，不过书面语似乎比口语更容易达到较高水平。
L2的习得能力随着年龄增长而逐渐下降，年龄越小越容易习得L2。因此，二语习得也存在关键期假说。青春期前可能是二语习得的关键期，语言习得的先天能力会在青春期后趋于饱和。不过，与母语习得的关键期不同，成人仍然能够习得L2，而且相对来说成人拥有更好的对语法规则的分析能力。
此外，二语习得还会受到其它非语言因素的影响，例如害羞、缺乏对外语文化的认同、教材枯燥、教学方法单调以及时间和环境的限制都不利于二语习得。

L2教学存在多种方法：

语法-翻译法（grammar–translation method）：教授学生语法，并要求学生在L2和L1之间翻译句子和文章，教师通常以母语授课，学生需要完成大量语法与词汇练习，这是传统教学中最常见的方法
听说法（audio–lingual method）：重视听力和口语，以对话和大量的模仿练习来教学
交际法（communicative language teaching, CLT）：重视语言的交际功能，以意义为中心，鼓励学生使用L2交流

二语习得与母语习得的一个重要区别是，L2习得的过程会受到L1的影响，这种影响称为语言迁移（language transfer）。
语言迁移在音系上表现显著。L2者通常会有口音，这就是因为他们可能将L1的音系规则迁移到了L2上。例如，日语母语者在学习英语时往往不区分[r]和[l]，因为这两者在日语中不构成音位对立；西班牙语母语者在学习英语时则会在词首的辅音丛前添加元音，如将school发成[əskuːl]、将snob发成[əsnɒb]。
语言迁移也存在于形态和句法中。例如，学习英语的西班牙语母语者可能会将英语的形容词置于名词之后，因为西班牙语的语法如此。
语言迁移在语义上的体现则是假朋友（false friend），即写法或发音相近但含义截然不同的词语。例如，英语的actually意为「其实」，但西班牙语的actualmente意为「现在」。
语言迁移往往是负迁移，导致L2者使用语言时容易犯错。但语言迁移同样可以是正迁移，音系、形态、句法、语义的相似都有利于L2者通过L1更容易地学习L2。例如，同源词可以经常让L2者猜出词语的含义。

心理语言学提供了多种关于语言习得的心理机制的理论。20世纪20年代，联想主义（associationism）认为学习是刺激与反应的联结，强调重复和记忆的重要性，因此试图以听说法来取代传统教学。40年代，行为主义（behaviorism）兴起后，听说法进一步得到了推广。行为主义将语言视作一种行为，即对刺激产生的反应，认为儿童是通过模仿、强化、类推等过程习得语言的。50年代，双语能力被区分为复合型双语（compound bilingualism）和协调型双语（coordinate bilingualism）：前者的两种语言共享同一个心理概念系统，对应双语习得；后者的两种语言则各自拥有独立的心理概念系统，对应二语习得。60年代，乔姆斯基批判了行为主义和听说法之后，提出了一套颠覆性的理论。乔姆斯基在理论中提出了语言能力与语言表现的对立：

能力（competence）是说话者对于语法规则的内在知识，这种知识是一种先天能力。
Dell Hymes（1927—2009）进一步将语言能力扩展到语用等领域，称为交际能力（communicative competence）。除语法能力外，交际能力还包括社会语言能力和策略能力，分别指掌握语言结构和规则的能力、在不同语境中选择合适的语言形式的能力、在交际中解决问题和维持交流的能力。交际能力解释了二语习得的三个动机：社会动机、工具动机、融入动机。同时，交际能力成为教学中交际法的基础理论之一。
表现（performance）是说话者使用语言的外在行为，也就是将深层结构转换为表层结构的过程。
此后，语言能力被视为认知能力的一部分，研究重心也转向了语言在真实情景下的使用，即语言表现。

80年代后，联结主义（connectionism）的计算模型被提出。联结主义与行为主义一样强调类推和强化的作用，但联结主义模型中不存在语法规则。语言知识——例如英语的过去时——是由不同音系形式（如play—played、dance—danced、drink—drank）之间类似神经元的一组连接来表征的。反复输入言语中特定的一组动词，模拟类似规则的行为，就会强化两者之间的连接。根据动词之间的相似性，模型就能输出没有输入过的过去时形式，例如从dance—danced类推出prance—pranced，从drink—drank类推出sink—sank。联结主义成功催生了大语言模型，但对于现实中儿童的语言习得仍然缺乏解释力。

语言的分类

根据民族语（Ethonologue）的数据，世界上现存的语言共有7159种。语言可以根据亲缘关系、结构特征和地理分布进行分类。

谱系分类

18世纪，生物学家林奈（Carl Linnaeus，1707—1778）提出了将生物划分为界、纲、目、属、种等层级的分类法，被誉为「现代生物分类学之父」。林奈的生物分类法启发了语言学家在共时层面上将语言也按照类似的层级分类。19世纪初，地质学家查尔斯·莱尔（Charles Lyell，1797—1895）提出了均变论（uniformitarianism），认为地质变化是缓慢、连续的自然过程。均变论使语言学家认同语言也是渐变而非突变的结果，同时启发了达尔文（Charles Darwin，1809—1882）提出生物进化论。由此，奥古斯特·施莱谢尔（August Schleicher，1821—1868）于19世纪50年代建立了树状模型（tree model），在历时层面上，用语言谱系树来描述语言的进化。

树状模型认为，与生物一样，每种语言都从其父语言演化而来，拥有共同祖先的语言属于同一语系（language family），这个共同祖先称为原始语（proto-language）或祖语。同一语系的语言具有亲缘关系，或者说具有谱系关系（genealogical relationship）。由于地理隔离等因素，原始语的不同地域方言会经历不同的演变，从而随着时间各自演化为独立的语言，形成由多种语言组成的语系。语系还可以进一步划分为语族、语支等，同一语族、语支的最近共同祖先就比整个语系的最近共同祖先关系更近。

语言谱系关系的确定来自于历史比较语言学（comparative linguistics）。历史比较语言学通过比较法（comparative method），比较多种语言之间音系和语义的系统性对应关系，从而证明这些语言之间的谱系关系，乃至于重建这些语言的祖语。
对同源词的比较是比较法的核心。同源词（cognate）是不同语言中由同一个祖语词根演变而来的词，往往具有相近的意义。如果同源词数量多、规律性强、系统性强，那么就很有可能具有谱系关系。将更多语言纳入比较，并尝试用音变规律来解释它们之间语音的对应关系，我们就能构拟出它们的祖语。例如，我们发现，梵语、拉丁语、古希腊语和英语的同源词的词首辅音之间存在以下关系：

梵语	拉丁语	古希腊语	英语
p pitṛ́	p pater	p pătḗr	f father
p pád	p pēs	p poús	f foot
p paśú	p pecū		f fee
p pūrṇá	p plēnus		f full
p purā́	p prae	p părắ	f fore

四种语言的同源词之间有着规则的[p]—[p]—[p]—[f]的对应关系，那么他们可能就具有谱系关系。对于这种对应关系，我们可以推测其祖语对应的最可能的语音，这样就能逐步构拟出其祖语的音系，并解释从祖语演化为这些语言的音变。这里，由于[p]出现较多，且[p]变为[f]比[f]变为[p]更常见，我们可以将其祖语对应的语音构拟为*p（其中*在历史语言学中表示构拟形式），并得出一条规律：*p在英语中变为f，在梵语、拉丁语、古希腊语中则保持不变。通过更多的同源词比较，可以进一步构拟其祖语（原始印欧语）的辅音：

原始印欧语	梵语	拉丁语	古希腊语	英语
*p	p pitṛ́	p pater	p pătḗr	f father
*t	t trí	t trēs	t treîs	θ three
*k	ɕ śván	k canis	k kŭ́ōn	h hound
*b		b labium	b lobós	p lip
*d	d dvá	d duo	d dúo	t two
*g	dʑ jalá	g gelū		k cold
*bʰ	bʰ bhrā́tṛ	f frāter	pʰ phrā́tēr	b brother
*dʰ	dʰ dhā	f faciō	tʰ theós	d do
*gʰ	ɦ haṃsá	∅ ānser	kʰ khḗn	g goose

1786年，威廉·琼斯（William Jones，1746—1794）在一次演讲中发表了著名的论断，指出梵语、希腊语和拉丁语之间存在惊人的相似性，因此它们必然存在共同祖先；甚至日耳曼语、凯尔特语以及波斯语也与之同源。1816年，弗朗茨·博普（Franz Bopp，1791—1867）指出了梵语、希腊语、拉丁语、波斯语和日耳曼语之间的联系。两年后，拉斯穆斯·拉斯克（Rasmus Rask，1787—1832）首次通过在形式上描写语言之间音系差异的规律性，证明了这种联系，并将立陶宛语和斯拉夫语纳入其中。
拉斯克的研究启发了以《格林童话》而闻名的雅各布·格林（Jacob Grimm，1785—1863）。格林比较了梵语、希腊语、拉丁语和日耳曼语的语音，详细说明了其差异的系统性，从而提出了格林定律（Grimm’s law）。这是第一个被发现的系统性音变规律。格林定律指出，日耳曼语的早期历史（即原始印欧语）中一定发生了某些音系变化，而这些变化没有发生在梵语、希腊语、拉丁语中：

浊送气音变为浊不送气音：bʰ > b, dʰ > d, gʰ > g
浊塞音变为清塞音：b > p, d > t, g > k
清塞音变为清擦音：p > ɸ, t > θ, k > x

英语也是一种日耳曼语，其中清擦音[ɸ]和[x]分别对应现代英语的[f]和[h]。格林定律就可以解释上表中英语发生的辅音变化，这与我们最初得到的规律是一致的。不过，格林定律也有一些例外，有时清塞音并不对应清擦音，例如英语father和brother两个词中的th [ð]。1877年，卡尔·维尔纳（Karl Verner，1846—1896）提出了维尔纳定律（Verner’s law），首次用条件音变解释了这一现象：

前面的元音为非重音时，清擦音变为浊塞音：ɸ > b, θ > d, x > g

维尔纳定律的补充使得德国的新语法学派（Neogrammarian）提出了著名的论断：「语音规律没有例外」。他们将可证伪的科学方法引入语言学研究，从而为现代比较语言学奠定基础。
这一系列研究促成了印欧语系（Indo-European languages）的发现，梵语、希腊语、拉丁语、日耳曼语、斯拉夫语等等都被划入这个庞大的语系。琼斯所提出的各印欧语的祖语则称为原始印欧语（Proto-Indo-European, PIE），这是一种使用于约6000年前的语言。印欧语系

运用比较语言学的方法，语言学家确定了世界上各种语言之间的谱系关系，并按语系分类。不同语系之间没有谱系关系。不过，由于历史证据的缺乏，某些语系之间可能存在未被发现的联系。最极端的观点认为，世界上所有语言都源于同一个祖语，称为原始人类语（Proto-Human language）。这种观点建立在人类语言都有同一起源的基础上，因此未获普遍认可。
以下是最常见的几种语系：

印欧语系是世界上使用人数最多、分布最广泛的语系，分布于欧洲大部分地区、伊朗高原和南亚次大陆北部并因此得名，可以分为罗曼语族、日耳曼语族、斯拉夫语族、凯尔特语族、印度-伊朗语族等，其中一些语族如安纳托利亚语族、吐火罗语族等已经灭绝。随着殖民扩张，印欧语系也已经遍布美洲、大洋洲。
乌拉尔语系（Uralic languages）是除印欧语系外欧洲使用人数最多的语系，分布于欧洲和北亚，包括匈牙利语、芬兰语、爱沙尼亚语等。
汉藏语系（Sino-Tibetan languages）是世界上使用人数第二多的语系，分布于中国、印度支那和青藏高原边缘，可以分为汉语族和藏缅语族，包括汉语、藏语、缅甸语等。其中汉语有许多变体，常被视作汉语族下的独立语言，包括官话、晋语、吴语、徽语、闽语、湘语、赣语、客家话、粤语、平话等。
亚非语系（Afroasiatic languages）分布于西亚、北非、非洲之角以及撒哈拉和萨赫勒的部分地区，闪米特语族为最大语族，包括阿拉伯语、希伯来语、豪萨语等。
尼日尔-刚果语系（Niger–Congo languages）是语言数量最多的语系，也是非洲分布最广泛的语系，分布于撒哈拉以南非洲的大部分地区，大西洋-刚果语族为最大语族，包括斯瓦希里语、祖鲁语、约鲁巴语等。
南岛语系（Austronesian languages）是语言数量第二多的语系，广泛分布于东南亚大部分地区、马达加斯加、太平洋岛屿和台湾，包括马来语、他加禄语、毛利语等。其中，台湾南岛语极为丰富，说明台湾很有可能是南岛语民族的发源地。
仡台语系（Kra–Dai languages）又称侗台语系、壮侗语系，在中国长期被视为汉藏语系的一部分，分布于华南、印度支那和印度东北部，侗台语族（壮侗语族）为最大语族，包括壮语、泰语、老挝语等。
苗瑶语系（Hmong–Mien languages）在中国长期被视为汉藏语系的一部分，分布于华南和印度支那北部，包括苗语、布努语、瑶语等。

有的语言与其它任何语言都没有谱系关系，称为孤立语言（language isolate）。孤立语言无法被划分到任何一种已知语系中，可以认为它们各自自成一个语系。一般认为，孤立语言在历史上曾有过亲缘语言，但都已灭绝，且由于历史证据的缺乏，这些亲缘语言已经无法还原。典型的孤立语言有巴斯克语等；日语和朝鲜语也常被视作孤立语言，或是各自与琉球语和济州语组成小型语系。

一种语言的内部也可以进行分类，不同地域社群或社会社群所使用的语言变体（variety）就是不同的方言（dialect）。方言的产生来自于地理上或社会上的隔离，语言的演变在社群内部会传播开来并被儿童习得，但隔离的存在使得这种演变难以传播到其它社群，语言社群之间的差异因此强化，成为方言。如果隔离继续存在，方言之间的差异会扩大，最终演变为不同的语言。这种差异与隔离程度成正比。地理隔离产生的方言称为地域方言，性别、年龄、阶级、种族等社会因素的隔离产生的方言称为社会方言。日常所说的「方言」通常就指地域方言。方言还可以进一步划分为次方言，例如《中国语言地图集》将汉语方言划分为大区、区、片、小片、点五级。方言的分类也可以用谱系树来表示。
区分两种不同的语言和同一语言的两种方言往往是十分困难的，因为从方言之间的差异到语言之间的差异并没有明确的界限。一般来说，区分语言和方言的标准取决于相互理解性（mutual intelligibility）：如果两种语言变体的使用者能够相互理解，那么可以认为是同一语言的两种方言，否则就是两种语言。但由于社会和政治等因素，语言和方言的区分并不总是遵循这一标准。此外，一些语言或语族、语系呈现出方言连续体（dialect continuum）的特征，在连续体内，地域相邻的语言变体之间可以相互理解，但随着地理距离的增加，差异逐渐变大，导致距离较远的语言变体之间难以相互理解。汉语、阿拉伯语和突厥语系就是典型的方言连续体。方言连续体内没有明确的界限，难以划分为多种语言，但将其视作单一的一种语言也并不合适。树状模型的一大局限性就在于其无法描述方言连续体。
方言之间最显著的差异在于语音或音系，这种差异就体现为口音（accent）的区别。不仅方言使用者有口音，非母语者也会有口音，此时口音反映的就是这种语言与其母语之间的音系差异而非方言之间的音系差异。此外，方言之间在词汇上和语法上也有差异。为了描述地域方言之间的差异，根据特定的语言特征，可以在地理上用一条线将两地区分开，这条线就是同言线（isogloss）。由一系列同言线组成的同言线束可以确定一个方言区。

方言和语言的差异迫使人们为了交流需要使用一种通用语（lingua franca）。中世纪后期，为了便利商业和外交，地中海地区普遍使用一种混合多种语言而形成的语言，称为「法兰克语」，lingua franca一名由此而来。今天，英语常被称为全世界的通用语，西班牙语成为拉丁美洲和美国南部的通用语，中国则以现代标准汉语（普通话）为通用语。一个国家或地区的通用语是占优势地位的方言，这种方言经过规范化，称为标准方言或标准语。但是，标准方言仅仅是由于政治、经济、文化等原因而成为标准方言的，标准方言并不比其它方言更加优越。标准方言有时是一种理想化的方言，例如，美国英语的标准语是通用美式英语（General American English, GA），但GA并没有一个精确的定义，而只是对大多数美国人所说方言的概括。
在许多国家和地区，少数人口会使用不同于通用语的语言，称为少数语言（minority language）。除标准语外，一些国家和地区还会将少数语言设立为官方语言。而没有得到官方承认、被边缘化甚至禁止的少数语言则称为边缘语言（minoritized language）。例如，在殖民时期的美洲，许多原住民语言都被视为边缘语言；佛朗哥时期（1939—1975）的西班牙则将除西班牙语外的所有语言都视作边缘语言。
有的语言社群同时使用两种方言或语言，这种现象称为双语现象（diglossia）。这两种语言变体中，其中一种地位较低（L），主要用于日常交流；另一种地位较高（H），作为通用语用于正式场合。H变体的词汇、语法常常会进入L变体，甚至逐渐替换L变体。这种现象常见于方言与通用语差异较大的地区。例如，在中国，大部分人同时使用普通话（H）和各种汉语变体（L）；在阿拉伯国家则同时使用现代标准阿拉伯语（H）和不同的阿拉伯语变体（L）。双语现象常作为语言替换的过渡阶段而存在：双语社群会逐渐放弃L变体，转而全面使用H变体，最终双语现象消亡。不过，L变体的一些词汇和音系特征仍会存在于H变体中，称为底层（substratum），H变体则成为上层（superstratum）。
当两个或多个没有通用语的社群接触时，有时其中一种语言会成为通用语，有时则是发展出一种词汇较少、语法简单的新语言。这种语言的词汇来自于各自语言中现有的词汇，形态较为原始，称为洋泾浜或皮钦语（pidgin）。「洋泾浜」是上海外滩附近一条已经消失的河流的名字，这个称呼便来自于19世纪当地中外商人在交流中由英语和汉语混合所产生的洋泾浜英语（Chinese Pidgin English），pidgin一词也来源于中国人对business一词的发音。皮钦语通常也有一种上层语言，大部分词汇来自于这种上层语言，其余语言则贡献较少。皮钦语不是任何群体的母语，存在时间往往不长，通常会因为通用语的推广而消亡。但是，如果儿童将皮钦语作为母语习得，就会发展为一种成熟的语言——克里奥尔语（creole）。相较于皮钦语，克里奥尔语经过儿童在语言习得中的重新分析和构建，词汇丰富、语法完善。典型的克里奥尔语有海地克里奥尔语、托克皮辛语（新几内亚皮钦语）、尼日利亚皮钦语等。

由于皮钦语和克里奥尔语并非由单一的语言演化而来，而是语言接触的结果，树状模型自然难以描述这一类情况。树状模型只能描述语言线性演化的过程，但水平传播在语言的演化中也发挥着重要作用。为了解释这些情况，施莱谢尔的学生Johannes Schmidt（1843—1901）于1872年提出了波浪模型（wave model），并与Hugo Schuchardt（1842—1927）共同推广。
波浪模型认为，各种语言并不孤立发展，而是相互影响的。与波浪一样，各种语言变体的特征从一个地方开始向四周扩散，并逐渐衰减。不同波浪相互交叉，从而使得后来的不同语言呈现出许多相似的特征。这解释了没有谱系关系的语言之间相似的原因。一些语言与相邻的语言之间始终具有相似的特征，于是构成了方言连续体。波浪模型如今已经成为树状模型的重要补充。

类型学分类

19世纪初，威廉·冯·洪堡（Wilhelm von Humboldt，1767—1835）提出从「语言的内部形式」来对语言进行分类，即类型学（typology）的分类方法。类型学只关注不同语言在形式上的异同，而不关注它们之间的亲缘关系，尽管两者往往呈现出相关关系。
1818年，August Wilhelm Schlegel（1767—1845）从形态学的角度出发，将语言分为孤立语、黏着语、屈折语三类，而后又提出将语言分为分析语和综合语的分类方法。洪堡在观察美洲原住民语言后，增加了多式综合语这一分类。

分析语（analytic language）：又称孤立语（isolating language）。在分析语中，一个语素往往就构成一个词，语素与词之比几乎是一比一。分析语的词缀较少，几乎没有屈折变化。分析语通过语序来表达句法关系。典型的分析语有汉语、越南语、泰语等；英语在传统上被认为是屈折语，但也具有分析语的性质。
综合语（synthetic language）：综合语通过将词缀附加到词根上来构词，一个词往往含有多个语素，语素与词之比较高。综合语通过屈折变化和黏着构词来表达句法关系。
- 屈折语（fusional language/inflected language）：屈折语的词缀与词根或词缀之间往往会相互融合，难以分离，因此一个词缀通常可以表达多个语法意义。屈折语素也可以通过词根内部的音系变化来表达，例如辅音变化、元音变化、重音、声调等。典型的屈折语有西班牙语、俄语、阿拉伯语等，印欧语系和亚非语系多为屈折语。
- 黏着语（agglutinative language）：黏着语通过将词缀黏着到词根上来构词，且通常不改变词根，每个词缀只表达一个语法意义，这些词缀之间的界限通常易于区分。黏着语的词汇往往比屈折语含有更多的语素，形态也往往更加规则。典型的黏着语有土耳其语、蒙古语、日语等。
- 多式综合语（polysynthetic languages）：又称并合语（incorporating language）。多式综合语的语素与词之比非常高，一个词含有大量语素，往往可以表达其它语言中一个短语甚至一个句子的语义。典型的多式综合语有因纽特语、克丘亚语、嘉绒语等。

此外，类型学上，也可以按照形态句法、语序、音系、词汇等标准对语言进行分类。例如，每种语言都有包含主语（S）、宾语（O）、谓语动词（V）的句子，根据句子中这三种成分的基本顺序来分类，就有六种基本语序（word order）：SOV、SVO、VSO、VOS、OVS、OSV。SOV类型的语言最多，根据Matthew S. Dryer的统计，约占语言总数的40%，包括土耳其语、蒙古语、日语等语言；SVO类型的语言其次，约占35%，包括英语、西班牙语、汉语等语言；剩下四种类型的语言则数量较少。不过，一种语序类型的语言并不代表这种语言只有这种语序，许多语言的语序都相当灵活，例如俄语、阿拉伯语、日语等。但是即便如此，这些语言也存在一种比其他语序更常见的优先语序。

语音和音系

形态

句法

语义

参考书目

Victoria Fromkin, Robert Rodman, Nina Hyams. An Introduction to Language, 11th Edition. Cengage Learning
- 《语言引论》，第八版，王大惟、朱晓农、周晓康、陈敏哲译．北京大学出版社
Adrian Akmajian, Ann K. Farmer, Lee Bickmore, Richard A. Demers, Robert M. Harnish. Linguistics: An Introduction to Language and Communication, 7th Edition. MIT Press
- 《语言学：语言与交流导论》，第五版．外语教学与研究出版社
M. Victoria Escandell Vidal (coord.). Invitación a La Lingüística, 1ª Edición. Editorial Universitaria Ramón Areces
叶蜚声、徐通锵．《语言学纲要》，修订版．北京大学出版社