学习笔记·语言学导论

语言学

语言学(linguistics),顾名思义,是研究语言的科学。
语言学是一门社会科学,兼具人文的目标和科学的方法。语言学的人文主义特征赋予了语言学家一种独特的优势:语言学家既是语言的研究者,也是语言的使用者。因此,语言学家可以将自己的直觉——尤其是作为母语者的直觉——用作数据。但这并非一直都是优势:语言学家使用语言研究语言,语言既是研究对象,也是研究工具,这也是语言学与其它科学相比的独特之处。作为研究对象的语言可称为对象语言(object-language),而作为研究工具的语言可称为元语言(metalanguage)。对象语言和元语言的重合,使得语言学家必须进行一种陌生化的练习,像研究外部现象一样研究语言现象——尤其是自己母语的现象。

现代语言学具有以下4个特征:

  1. 实证性:语言学研究基于可观察的事实。语言学描述语言,而不规范语言。因此,现代语言学关注语言变体和规范的概念。
  2. 解释性:语言学不仅描述语言,而且需要解释语言,寻找语言的系统性规律。
  3. 客观性:语言学研究应当可证伪、可重复,基于科学假设而非主观观点。
  4. 准确性:通过元语言的描述,语言学研究应当清晰、精确,不遗漏任何隐藏的步骤,也不将任何内容视为理所当然。

理论语言学(theoretical linguistics),也称普通语言学(general linguistics),研究的是语言的一般规律,主要从音系、形态、句法、语义四个层次来研究。其中,形态(即词法)和句法即为狭义上所说的语法,而广义上音系和语义也可以算作语法的范畴。此外,语音(phonetics)研究声音的物理属性,包括其产生、传输、解码的过程,是理论语言学的辅助学科;语用(pragmatics)研究语言在外部语境中的意义,也是理论语言学的一大分支。
语法(grammar)是语言单位的结构和意义的规律:音系(phonology)是不同区别特征的音位组合成词的规则,形态(morphology)是语素组合成词的规则,句法(sintaxis)是词组合成短语、短语组合成句子的规则,语义(semantics)是指派意义的规则。
能说某种语言的人必然掌握了这种语言的语法。对一种语言的说话者的语法规则的描写就是描写语法(descriptive grammar),描写语法并不要求说话者应该怎么说话,而是解释为什么说话者能够说话并理解别人说的话,将说话者对自己语言的规则描写下来。与之相对,许多语法学家通过编撰规范语法(prescriptive grammar),试图规范而不是描写语法规则,规范语法的目的不是描写说话者所知道的规则,而是要求说话者应该遵循什么规则。教学语法也是规范语法的一种。从语言学角度来说,任何语法都同等复杂、同等具有逻辑性,没有一种语言比其它语言更加优越。因此,现代语言学关注描写语法,而非规范语法。
瑞士语言学家索绪尔在《普通语言学教程》中提出了共时和历时两个视角:共时(syncronic)语言学研究语言在某一特定时期的特点,而历时(diacronic)语言学研究语言在历史不同时期的演变。西班牙语言学家Moreno Cabrera(1956—)区分了语言学研究的理论和实践两个视角:理论视角关注语法这种抽象的理论工具,研究为了描述和解释语言而构建的理论系统,属于元理论层面;实践视角则关注具体的语言,通过比较不同的语言研究其共性和差异,属于理论层面。
语言学除了关注语言的内部结构,同时也要探究语言与外部的关系,关注其在社会、心理、地理、政治等环境中的表现。由此,我们还可以将语言学分为内部语言学和外部语言学。外部语言学尤其关注认知和社会两大领域:前者研究语言能力的生物学基础,包括心理语言学(psycholinguistics)、神经语言学(neurolinguistics)、生物语言学(biolinguistics)等;后者则研究语言在社会中的角色,包括社会语言学(sociolinguistics)、民族语言学(ethnolinguistics)等。

语言学理论

希腊、罗马、中国、印度等各个古代文明都发展出了书面语言和文学,因此出现了语文学(filology)。语文学不是语言学:语文学研究的直接目的是解读古典文献,而非探究语言本身的规律,其关注的重点是古典文献所反映的古代思想和文化。例如,中国的语文学研究围绕汉字进行,称为「小学」,包括文字学、音韵学、训诂学。
但是,与此同时,各个文明——尤其是古希腊——也开始从哲学的角度探讨语言,成为语言学研究的开始。希腊人首先关注的是语言起源的问题:语言是自然产生的还是社会约定俗成的?这一问题引发了自然论(physis)约定论(thesis)的争论。柏拉图(Plato,约前428—约前347)在《克拉底鲁篇》(Cratylus)中支持前者,并尝试通过追溯词源来证明词语与理念之间的联系。但他发现,随着时间的推移,由于人类在语言使用中的「疏忽」,词语发生了剧烈的变化,最终也不得不承认约定俗成的一部分作用。亚里士多德(Aristotle,前384—前322)支持后者,认为语言是约定俗成的,并具有一定的任意性。
此外,古希腊还爆发了规则论(analogism)任意论(anomalism)的争论:语言是规则的还是混沌的?规则论最终胜出,并为西方传统语法奠定基础。
希腊人也着手研究语法。狄俄尼索斯·特拉克斯(Dionysius Thrax,前170—前90)编写的《语法艺术》(Téchnē grammatikḗ)是西方第一部语法著作,他将词语划分为八大词类,这一分法沿用至今:名词、动词、分词、冠词、代词、前置词(介词)、副词、连词。4世纪,罗马语法学家埃利乌斯·多纳图斯(Aelius Donatus)编写了拉丁语语法著作《语法艺术》(Ars grammatica),成为中世纪的基础教材,为语法作为中世纪「三学」(trivium)之一的地位奠定基础。6世纪,普里西安(Priscian)编写了《语法典范》(Institutiones grammaticae),在解释语法时引用了大量经典文学作品,成为中世纪拉丁语语法的权威著作。

12世纪,一位匿名冰岛学者编写了《第一语法论著》(First Grammatical Treatise),为冰岛语设计了一套正字法。这部论著在历史上首次运用最小对立体的方法,描述了古冰岛语的音系。
13至14世纪,一群语法学家活跃于欧洲北部,因其核心论文《论意义的方式或思辨语法》(De modis significandi seu grammatica speculativa)而被称为思辨语法学派(Modistae)。他们结合亚里士多德的逻辑学与传统语法,将语言的意义分为三种「方式」:存在方式(modi essendi)、理解方式(modi intelligendi)、表达方式(modi significandi)。他们认为,语言的表达方式客观反映了现实,因而所有语言都建立在一套共同的语法原则之上,这一观点成为普遍语法的雏形。
意大利诗人但丁(Dante Alighieri,1265—1321)写下《论白话的修辞》(De vulgari eloquentia),认为地方语言应当拥有与拉丁语同等的地位。同时,他试图在意大利寻找一种「光辉」的语言变体,并得到一种不逊于拉丁语的意大利语。

文艺复兴以后,学者们一边继续发展语法,一边深入对语言的哲学思考。
1449年,意大利学者洛伦佐·瓦拉(Lorenzo Valla,约1407—1457)编写了《论优雅》(De elegantiis),批判性地考察了拉丁语语法,建立了人文主义的拉丁语。与此同时,民族语言的语法逐渐诞生。学者们模仿拉丁语语法,为地方语言编写语法著作,结构通常包括正字法、韵律、形态、句法以及「错误」的用法。例如,1492年,西班牙学者安东尼奥·德内夫里哈(Antonio de Nebrija,1444—1522)出版了《卡斯蒂利亚语语法》(Gramática castellana),成为欧洲第一部地方语言的语法著作。
17世纪,受到大陆理性主义哲学的影响,学者们不满足于仅仅描述语法,而是试图解释语法。1660年,法国学者安托万·阿尔诺(Antoine Arnauld,1612—1694)与克洛德·朗塞洛(Claude Lancelot,约1615—1695)出版了《普遍理性语法》(Grammaire générale et raisonnée),因其工作于波尔-鲁瓦亚尔修道院又称《波尔-鲁瓦亚尔语法》(Port-Royal Grammar。这部著作提出,语言就是逻辑判断的表达,既然人类的逻辑是相同的,那么所有语言就都基于一种普遍和理性的语法。例如,对于这样一句例句:

  • 不可见的神创造了可见的世界。

阿尔诺和朗塞洛将其分析为三个原子命题:

  1. 神是不可见的。
  2. 神创造了世界。
  3. 世界是可见的。

据此,他们认为,语义是由逻辑命题组成的。而在后世,乔姆斯基从《波尔-鲁瓦亚尔语法》中发掘出了深层结构和表层结构的概念,并发展出生成语法。

启蒙运动时期,学者们不再仅仅关注语法,而是重新回到了语言的终极问题:语言的起源是什么?这一时期的讨论充满随笔式的推测,主要围绕着两大问题展开:语言是神赋予人类的还是人类自己发明的?人类是先学会使用手势交流还是先学会发声口头交流?
1689年,英国哲学家约翰·洛克(John Locke,1632—1704)在《人类理解论》(An Essay Concerning Human Understanding)中提出了经验主义的观点,认为语言的意义是人们为了交流而任意赋予的。法国哲学家孔狄亚克(Étienne Bonnot de Condillac,1714—1780)继承了洛克的观点,并于1746年在《人类知识起源论》(Essai sur l’origine des connaissances humaines)中提出,语言由人类本能的手势和叫声发展而来。1751年,法国哲学家狄德罗(Denis Diderot,1713—1784)在《论聋哑人》(Lettre sur les sourds et muets)中,通过对聋哑人的研究,探讨了语言的自然语序。法国哲学家卢梭(Jean-Jacques Rousseau,1712—1778)则带有浪漫主义色彩,在1754年的《论语言的起源》(Essai sur l’origine des langues)中提出,语言起源于激情,是人类为了表达情感而发明的;南方温暖的气候催生了语言,而北方寒冷的气候扼杀了语言的激情。
随着浪漫主义的兴起,民族国家越来越重视语言。然而,关于语言起源的争论持续不断。由于这些讨论大多缺乏证据,巴黎语言学会直接于1866年禁止了所有关于语言起源的讨论。
此时,学者们大规模搜集世界各地的语言样本,试图理清人类语言的谱系,成果有西班牙语言学家Lorenzo Hervás(1735—1809)的《已知民族语言目录》(Catálogo de las lenguas de las naciones conocidas)、德国语言学家Johann Christoph Adelung(1732—1806)的《米特里达梯》(Mithridates)、德国生物学家Peter Simon Pallas(1741—1811)的《全球语言比较词典》(Linguarum totius orbis vocabularia comparativa)等。这些资料为比较语言学的诞生奠定了基础。
不过,受限于时代,当时的学者仍然有一些错误观点。例如,当时人们认为气候决定语言的音系,并且存在一种地理优越论,认为温带地区的语言更加优越。人们还将语言分为「完善」的语言和「原始」的语言,认为原住民语言都是不成熟的。

进入19世纪,现代语言学逐渐建立。历史语言学最先得到发展:通过对同源词的比较,语言学家们发现了印欧语系,建立了比较语言学。1786年,英国语言学家威廉·琼斯发现梵语、希腊语和拉丁语之间存在亲缘关系。随后,德国语言学家弗朗茨·博普、丹麦语言学家拉斯穆斯·拉斯克进一步证明了琼斯的观点。最终,德国作家雅各布·格林于1822年发表了格林定律,提出了第一个系统性音变规律。丹麦语言学家卡尔·维尔纳沿着这一方向,于1877年又提出了维尔纳定律。
在哲学上,德国学者威廉·冯·洪堡(Wilhelm von Humboldt,1767—1835)的观点颇具影响力。他最早提出了语言相对论的观点,认为语言即世界观(Weltansicht),每一门语言都包含了一种观察世界的视角。同时,语言具有民族性,是民族精神的体现。因此,他强调语言多样性的价值,语言多样性就代表了文化多样性。

结构主义

20世纪初,瑞士语言学家索绪尔(Ferdinand de Saussure,1857—1913)最终确立了语言学作为一门现代学科的基础。在索绪尔死后三年的1916年,他的学生将他的讲稿整理成《普通语言学教程》(Cours de linguistique générale)出版。索绪尔将语言视作一个系统,即一个由相互关联的语言单位组成的结构;用Louis Hjelmslev的话来说,即「一个内部依存关系自足的实体」。因此,索绪尔开创的语言学方法称为结构主义(structuralism)。语言结构具有以下3个特征:

  1. 语言单位之间存在界限,可以被分解和孤立分析,并重新组合成不同的话语。
  2. 语言单位之间存在通过区别特征建立的对立关系
  3. 语言单位的价值由其在结构中的相对位置决定。

由此,索绪尔将语言定义为由能指所指构成的符号系统。

索绪尔还区分了语言学研究的共时历时两个视角,并将重点放在了共时语言学,认为应当先抛弃历史背景,独立研究当下的语言系统。

作为语言学研究的对象,索绪尔将语言现象二分为语言和言语,并区分了语言能力(「言语机能」):

  • 语言能力(langage是人类与生俱来的一种能力,是一种抽象的、普遍的能力。动物是否具有语言能力尚有争议,但是由于动物缺乏发出复杂语音的能力,人类语言的复杂性显著区别于动物。
  • 语言(langue是一种社会产物,是使得语言能力得以实现的社会规范。例如,英语、西班牙语等具体的语言都属于不同的社会产物。语言能力是人类先天所具有的,而语言是在社会中习得的。语言能力不能独立运行,而必须在社会中通过语言实现,语言为语言能力提供了一定的一致性。因此,语言学研究应当优先关注语言。
  • 言语(parole是一种个体行为,是语言的具体实现。说话者将语言中不同的元素组合起来用于表达思想,并通过心理—物理机制将这些组合外化。乔姆斯基进一步指出,语言学研究应当关注理想说话者—听话者,也就是从所有的个体言语中抽象出所有说话者的共性,由此获得所有说话者共有的语法知识。

罗马尼亚语言学家Eugenio Coșeriu(1921—2002)在索绪尔的基础上,进一步提出了规范(norm)的概念。规范介于社会的语言和个体的言语之间,是社会中一部分说话者语言特征的集合。一种语言可以有多种规范,同时规范会随时间(diacronic)、空间(diatopic)、社会因素(diastratic)、语境(diaphasic)以及个体差异而改变,从而形成不同的语言变体。由此,Coșeriu将语言现象三分为系统(即语言)、规范和言语。此外,Coșeriu从不同的语言中提取出共性,提出了类型(type)的概念。例如,印欧语言因为具有许多共同特点被归纳为印欧类型,其下又有日耳曼等子类型(subtype)。

结构主义的基本方法就是采取二元对立的方式进行分析,包括语言单位的存在—缺失和肯定—否定两种对立。语言—言语、能指—所指、共时—历时同样是三组二元对立。索绪尔提出,语言单位之间最基本的两种关系是组合关系(「句段关系」)和聚合关系(「联想关系」),两种关系同样构成一组二元对立:

  • 组合关系(syntagmatic relation)是存在的关系,是同一话语中不同单位之间的关系。组合关系是单位之间组合的结果。例如,在句子「我吃了一个苹果」中,「我」「吃了」「一个」「苹果」这4个词之间是组合关系;而在「我」(/wo˨˩˦/)内部,辅音/w/和元音/o/之间也是组合关系。
  • 聚合关系(paradigmatic relation)是缺失的关系,是可以出现于同一位置但相互排斥的单位之间的关系。聚合关系是单位之间选择的结果。例如,在句子「我吃了一个苹果」中,「我」可以替换为「你」「他」「她」等,这几个词之间就是聚合关系。

布拉格语言学派(Prague linguistic circle)继续发展了结构语言学,代表人物有俄罗斯语言学家Roman Jakobson(1896—1982)和Nikolai Trubetzkoy(1890—1938)等。他们提出了有标记无标记的对立,并应用于许多语言学领域。尤其在音系学中,有标记的音位具有特定的区别特征,而无标记的音位缺少对应特征,这种对立奠定了现代音系学的基础。此外,结构语言学的重要人物还有丹麦语言学家Louis Hjelmslev(1899—1965)、法国语言学家Émile Benveniste(1902—1976)等。
结构主义的方法也深刻影响了其它社会科学,成为了席卷整个欧洲的思想运动。例如,法国人类学家克洛德·列维-斯特劳斯(Claude Lévi-Strauss,1908—2009)建立了结构人类学,认为社会文化同样基于二元对立的结构;法国哲学家雅克·拉康(Jacques Lacan,1901—1981)将结构主义运用于精神分析,重新解读了弗洛伊德;法国哲学家路易·阿尔都塞(Louis Althusser,1918—1990)建立了结构马克思主义,将社会视作一个结构;法国文学家罗兰·巴特(Roland Barthes,1915—1980)则将结构主义运用于文学理论。

形式主义

现代语言学研究具有形式功能的双重视角。形式主义(formalism)将语言作为一个符号系统,关注语言的内部结构;功能主义(funcionalism)则将语言作为交流工具,关注语言在交流中的功能。

生成语言学(generative linguistics)是如今形式语言学中的主流。1957年,美国语言学家诺姆·乔姆斯基(Noam Chomsky,1928—)出版《句法结构》(Syntactic Structures),开创了生成语言学,因此有时也与索绪尔并称「现代语言学之父」。乔姆斯基最初提出的模型称为转换—生成语法(transformational-generative grammar, TGG),在转换—生成语法中,转换规则将深层结构转换为表层结构。在1965年出版的《句法理论的若干问题》(Aspects of the Theory of Syntax)中,乔姆斯基详细阐述了转换语法。
1967年,乔姆斯基的学生George Lakoff(1941—)、Charles J. Fillmore(1929—2014)、James D. McCawley(1938—1999)等对乔姆斯基提出质疑,开启了旷日持久的语言学之争。乔姆斯基认为,语义由句法驱动,句法独立于语义;而以Lakoff为首的语言学家们认为语义才是源头。这场争论导致生成语言学内部发生分裂,生成语义学由此诞生。随后,Lakoff又建立了认知语言学。
乔姆斯基则在这场争论后修正转换语法,于80年代提出了管辖与约束理论(government and binding theory, GB)。管辖与约束理论基于原则与参数(principles and parameters)框架,认为所有语言共享一套普遍的原则,各种语言具体语法的不同则由一组有限的参数决定。1995年,乔姆斯基出版《最简方案》(The Minimalist Program),提出了最简方案(minimalist program)的模型,试图删除此前模型中所有不必要的规则和操作。

生成语言学的核心观点为:

  1. 人类习得与发展语言的能力是先天的。这种先天的语言能力是一套由一系列原则构成的普遍语法(universal grammar, UG),所有人类语言都共享这一套语法原则。
    乔姆斯基用刺激贫乏(poverty of the stimulus)来论证普遍语法的先天性:儿童接受的语言输入往往是破碎、充满错误且有限的,但是儿童总能以极快的速度掌握复杂的词汇与语法系统。
  2. 语言是一个独立的认知模块,语言能力不依赖于其它认知能力。语言是心理表征系统,并有其生物学基础,即大脑的一块特定区域。语言的主要功能是思考而非交流,交流仅仅是语言的一种副作用。
  3. 语言是树状嵌套的结构,而非单纯的线性排列,句法在其中占据中心地位。句法独立于语义,乔姆斯基用一个无意义但合法的句子说明了这一点:Colorless green ideas sleep furiously.
  4. 乔姆斯基延续了索绪尔的语言与言语的对立,提出了语言能力与语言表现的对立:
    • 能力(competence)是说话者对于语法规则的无意识的内在知识,这种知识是一种共享的语言知识。例如,所有汉语使用者都共享汉语的语言知识,因此能够创造和理解无限的汉语表达,并判断某个句子是否符合汉语语法。
    • 表现(performance)是说话者使用语言的外在行为,也就是将深层结构转换为表层结构的过程。语言表现会受到语言能力之外的因素影响,例如注意力或记忆力,口误就是语言表现受到其它认知能力限制的典型体现。
  5. 类似地,乔姆斯基还区分了I语言和E语言:I语言(I-language)是说话者内在的语言,一门语言的语法就是一种关于I语言的理论;E语言(E-language)是说话者表达出的外在语言,是可以直接观察和研究的对象。
  6. 早期,乔姆斯基假设每句话都有两层结构:深层结构(deep structure)是句子的基本句法关系,由短语结构规则(phrase structure rules)生成;表层结构(surface structure)是句子最终表达出来的形式,由转换规则(transformational rules)生成。例如,「小刚把小强打了」「小强被小刚打了」这两句话的结构是不同的,有着不同的表层结构,但其深层结构是一致的,即「小刚打了小强」。
  7. 原则是构成普遍语法的由所有语言共享的规则,而特定参数的不同导致了各种语言的具体语法不同。例如,英语的语序为SVO,日语的语序为SOV,这就是语序参数的不同;西班牙语可以省略主语,英语不能省略主语,这就是主语显现参数的不同。儿童习得语言的过程,就是在普遍语法的基础上设定参数的过程。
  8. 在原则与参数框架内,语言系统被认为是认知系统的一部分,并与外部负责表现的发音—感知系统和概念—意图系统交互。语言系统内部分为词库和计算系统两大模块:词库存储着所有词汇以及每个词语的形态、句法、语义特征,计算系统负责从词库中提取词汇并生成句子。句子首先产生于深层结构,经过一系列限制,到达表层结构,并分为两路:句子的语音形式到达发音—感知系统的接口,句子的逻辑形式到达概念—意图系统的接口。在计算系统中,为了保证生成的句子合语法,存在许多限制,其中最重要的两个限制分别是管辖和约束:管辖决定了中心语对其它成分的支配,约束则决定了代词与其指代对象之间的关系。
  9. 在最简方案中,语言系统遵循经济性的原则。句子的生成只经过最少的必要步骤,因此计算系统不再经过从深层结构到表层结构的复杂转换过程。生成句子时,计算系统从词库中提取词汇,并对这些词语进行编号(numeration)。随后,计算系统对这些词语进行递归性的合并(merge)操作,并将结果分别传递到发音—感知系统和概念—意图系统的接口。在接口上,句子需要接受特征检查(feature-checking),其中不可解释的特征会被删除。

生成语言学的目标不是描述语言,而是探究人类语言的本质。然而,生成语言学的先天论和句法独立性的观点也招致了许多质疑。例如,普遍语法存在的证据仍然不足,而且似乎缺乏可证伪性。生成语言学脱离语言的使用,也受到功能主义的普遍批评。语言习得、神经科学、认知心理学、演化生物学等学科的许多研究都对生成语言学构成了挑战。

功能主义

功能语言学不是一个单一的理论,而是一个框架,在这一框架之下存在许多不同的理论模型。
在欧洲,功能主义深受结构主义影响。英国语言学家韩礼德(Michael Halliday,1925—2018)是功能语言学的代表人物,他建立了系统功能语法(systemic functional grammar, SFG)。尼德兰语言学家Simon C. Dik(1940—1995)建立了功能语法(functional grammar, FG),并在之后发展为功能语篇语法(functional discourse grammar, FDG)
在美国,以巴勒斯坦语言学家Thomas Givon(1936—)、美国语言学家Joan Bybee(1945—)和Scott DeLancey(1949—)为代表的西海岸功能主义(West Coast Functionalism)结合语法化理论和语言类型学,发展了基于用法的模型(usage-based models)。美国语言学家William A. Foley(1949—)和Robert Van Valin Jr.(1952—)建立了角色与指称语法(role and reference grammar, RRG),将句法、语义和语用视作一个整体。日本语言学家久野暲(Susumu Kuno,1933—)则以将功能主义应用于句法而闻名。

功能语言学主张:

  1. 语言的主要功能是交流,不存在脱离了使用的语言。因此,语言的本质在于社会,语言得以成为文化的一部分。
  2. 语言并非独立的模块,人类使用语言需要用到许多认知能力,例如认识能力、逻辑能力、感知能力、社交能力等。
  3. 语言是语义和语用驱动的,词汇和语法的选择都依赖于语境和交流的功能。研究的基本单位也从句子转移到了文本和语篇,不仅研究句法功能,还研究交际功能。
  4. 语言学应当描述人们实际使用的言语,不应假设深层结构等不可见且不必要的理论。
  5. 语言具有模糊性,语言学家应当使用统计学和概率论来描述,而非使用绝对的规则和公式。语言的复杂性使其一定程度上表现为一个混沌系统。
  6. 美国语言学家Dell Hymes(1927—2009)将乔姆斯基的语言能力扩展到语用等领域,称为交际能力(communicative competence)。交际能力同样由整个语言社群所共享。除语法能力外,交际能力还包括社会语言能力和策略能力,分别指掌握语言结构和规则的能力、在不同语境中选择合适的语言形式的能力、在交际中解决问题和维持交流的能力。交际能力解释了二语习得的三个动机:社会动机、工具动机、融入动机。同时,交际能力成为教学中交际法的基础理论之一。

我们可以比较20世纪的三大语言学流派:

结构语言学 生成语言学 功能语言学
核心视角 语言作为社会系统 语言作为心理能力 语言作为交流工具
分析单位 符号系统 语言能力 语言表现
研究重点 共时语言学 理想的语言能力 语境和交流的功能
核心要素 语言符号 普遍语法 交流
组织形式 二元对立 树状嵌套的句法结构 语义和语用等功能驱动的语法
语言的本质 社会规范 个体生物现象 社会文化
言语的地位 次要但可观察 次要且不重要 主要
语言能力的性质 作为一个整体的系统 独立于其它认知能力的模块 与其它认知能力整合的模块
研究目标 描述语言系统的结构 解释人类的语言能力 解释语言在交流中的使用
代表人物 索绪尔 乔姆斯基 韩礼德、Dik等

认知语言学

乔姆斯基的生成语法将语言视作大脑的产物,开启了语言学的认知转向。因此,生成语言学有时也被称为认知语言学(cognitive linguistics)。然而,在语言学之争后,George Lakoff反对生成语言学中语言的独立性,建立了新的认知语言学(Cognitive Linguistics)。认知语言学起源于语义学,随后扩展至形态学、句法学、音系学、语言习得等领域。认知语言学重视意义和使用,可以总结为3条基本原则:

  1. 语言是非自主的。
  2. 语法即概念化。
  3. 语言知识源于使用。

范畴化(categorization)是将不同实体根据共同特征分类的心理过程,这一过程是认知语言学的基础。范畴化允许我们将复杂的现实环境简化为有限的范畴,赋予我们识别和预测的能力,并使得我们能够高效沟通。例如,我们会将「牧羊犬」「哈士奇」「拉布拉多犬」等范畴化为「狗」,同时,我们只需要用「狗」这一个词,就能指代成千上万种不同的狗,并且能够预测出它指代的是用四条腿走路的动物。
亚里士多德的经典范畴论认为,范畴具有以下3个特征:

  1. 范畴可以用一个特征列表来定义,这些特征是构成该范畴的充要条件。每个特征都代表一组二元对立,即有—无的对立。
  2. 范畴是离散的,具有清晰的边界。一个实体要么属于某个范畴,要么不属于,不存在中间状态。
  3. 范畴内的所有成员都具有相同的地位,不存在一个成员比另一个更优越的情况。

1973年,美国心理学家Eleanor Rosch(1938—)提出了一种新的范畴论——原型理论(prototype theory)。原型理论认为,每个范畴都有一个最核心、最能代表该范畴的成员,称为原型。人们在听到一个词时,会最先想到它的原型。Rosch借用了奥地利哲学家维特根斯坦(Ludwig Wittgenstein,1889—1951)的家族相似性(family resemblance)的概念,认为范畴内的所有成员并不需要拥有全部共同特征,只需要通过一系列相似性联系在一起。因此,范畴并不是一个封闭的集合,而是一个以原型为中心的圆,其它成员根据与原型的相似程度分布在圆的不同位置。例如,对于「鸟」这个范畴,「鸽子」「麻雀」「乌鸦」等最接近原型,位于范畴的中心;而「企鹅」「鸵鸟」「火烈鸟」等最不像原型,位于范畴的边缘。
Rosch将范畴分为3个层级:

  1. 上位层(superordinate level)是最抽象的层级,例如「动物」「家具」「游戏」等。
  2. 基本层(basic level)是最常用、认知最自然的层级,例如「鸟」「椅子」「棋类游戏」等。基本层的词汇通常最短,也是儿童最先习得的。
  3. 下位层(subordinate level)是最具体、认知成本最高的层级,例如「信鸽」「办公椅」「国际象棋」等。

认知语言学的另一重要理论是隐喻理论,由Lakoff于1980年在《我们赖以生存的隐喻》(Metaphors We Live By)一书中提出。Lakoff认为,隐喻不仅是一种修辞,更是一种思考方式,即概念隐喻(conceptual metaphor)。隐喻就是用一个概念来理解另一个概念,是两个概念域之间的映射:源域(source domain)是我们借以表达隐喻的概念域,通常更加具体;目标域(target domain)是我们试图理解的概念域,通常更加抽象。
隐喻有两个层次:概念层次是存在于心理中的映射,通常用大写字母表示,例如LOVE IS A JOURNEY. 语言层次则是实际应用这些隐喻时表达出来的句子,例如This relationship is a dead-end street.

此外,Charles J. Fillmore建立了框架语义学(frame semantics)。Fillmore认为,词汇的意义依赖于背景知识,即框架。要理解一个词语,就必须先理解与之相关的所有必要知识。例如,要理解「买」这个词,就必须先理解买方、卖方、商品、货币以及它们之间的关系。因此,只需要这一个词,就可以激活与之相关的整个语义框架。
Ronald Langacker(1942—)建立的认知语法(cognitive grammar)则与隐喻理论共同构成认知语言学的核心。Langacker认为,句法本身也具有意义,与语义密不可分。例如,「狗咬了人」「人被狗咬了」这两句话在语义上等价,但是前者焦点在「狗」身上,后者焦点在「人」身上,对应的认知完全不同。

优选论

形式主义与功能主义之间的矛盾并非不可调和。传统上,语音学由于与具体的言语情境相关联,更接近功能主义的范畴;相反,音系学则主要建立在形式主义——尤其是生成语言学——模型之上,具有高度的抽象性和公式化限制。然而,两者的边界正变得越来越模糊:一方面,音系学也开始关注语音学的实验方法,即实验音系学;另一方面,生成语言学内部也出现了一些结合功能主义特点的模型,美国语言学家Alan Prince(1946—)和Paul Smolensky(1955—)于1993年提出的优选论(optimality theory, OT)即为其代表。

优选论主张,语言系统由3个部分组成:

  1. 生成器(generator, GEN)负责接受输入,并生成所有可能的输出。
  2. 约束器(constraint component, CON)负责限制生成器的输出,这些约束决定生成的形式在语言中是否被允许。约束分为两种:忠实性约束(faithfulness constraints)要求输出和输入相匹配,标记性约束(markedness constraints)决定无标记形式的偏好。约束是普遍的,由所有语言共享,但是各种语言对于约束都有不同的支配层级,语法的不同就是约束层级的不同。
  3. 评估器(evaluator, EVAL)负责根据约束选择最优形式并最终输出。在所有可能的输出形式中,EVAL会选择违反最高级别约束次数最少的形式——即最优形式——作为最终输出。

优选论强调交际能力,重视说话者(发音原则)和听话者(感知原则)之间互动的重要性,以实现最佳沟通。这些原则构成了CON的一部分,被以精确的形式主义表述出来。因此,优选论连接了形式主义和功能主义。尽管优选论起源于语音学,但是也被应用于形态学、句法学、语言习得等领域。

语言学的研究方法

语言学研究遵循一般的科学方法,主要分为两类:

  • 归纳法(inductive method):收集数据,观察统计趋势,得出结论
  • 假说演绎法(hypothetico-deductive method):根据经验,提出可证伪的假设,预测结论,实验验证

语言学研究首先需要确立研究对象,可以从以下四个维度来确定:

  • 形态:口语/书面语/手语
  • 范围:语言/方言/变体
  • 时间:共时/历时
  • 视角:内部/外部

其次,需要获取数据,确定变量。因变量是需要研究的语言现象,例如/s/在音节末尾的实现;自变量则是影响该语言现象的外部因素,例如年龄、性别、教育程度等。

数据的获取有以下几种方式。
录音可以用于获取对提前准备的句子或文本片段的朗读、对一系列单词或句子的重复,或是自发的言语样本。录音设备通常应提前准备好,以免分散参与者的注意力。录音应当尽量避免环境噪音。最理想的录音环境是实验室,但是这样会削弱样本的自发性,因此实验室录音仅用于语音学研究。一次录音通常只针对一个参与者。在语用学或社会语言学研究中,如果需要录制一群人的对话,分析时必须考虑到声音重叠或抢话的问题,这是自发对话的典型特征。研究也可以采用广播、电视或网络的音频资料,但须注意版权问题。录音完成后,为了分析数据,需要对录音进行转写(transcription)。如果研究者关注句法、语篇等,那么只需要正字法转写(orthographic transcription),使用所说语言的传统正字法转写录音内容;如果研究者关注语音、音系,那么就需要语音转写(phonetic transcription),使用国际音标(International Phonetic Alphabet, IPA)转写录音内容。
语料库(corpus)是由口语或书面语文本组成的数据库,许多语料库的数据会经过标注。汉语语料库有国家语委现代汉语语料库北京语言大学BCC语料库北京大学CCL语料库等,英语语料库有当代美国英语语料库英国国家语料库等。
采访基于研究者和参与者之间的对话,由自然且自发的言语样本组成,通常会录音以便重听和分析。研究者必须自然地进行交流,以使参与者忘记自己正在被录音,从而创造出自发性。采访应当在一个能够激发信任、安静、无噪音、无干扰的空间中进行,并留有足够的时间。在采访前可以初步接触参与者,这样有利于采访者熟悉研究者,但是往往非常耗时。对于某些研究,可以以小组的形式进行采访,这样可以增强自发性、减少研究者的参与,但是必须考虑声音重叠的问题。采访主要有三种类型:引导式采访中,研究者会提出非常具体的问题,类似于问卷调查;半引导式采访中,研究者会引入话题;自由采访中,参与者可以自由发言,但是必须围绕在一个提前设定好的话题。
问卷调查可以获取自发对话中很难出现的数据。与采访相比,问卷包含固定数量的问题,包括简答题、判断题、朗读或李克特量表(Likert scale)等。问卷通常是匿名且保密的,并附有清晰的说明。问卷的措辞、题目顺序等都会影响参与者的回答。问卷调查的问题在于,问卷往往会激发参与者的语言意识,使得他们倾向于以他们认为「应该」的形式回答。
观察可以在语言现象发生的现场直接收集数据。观察前,需要系统记录要观察的内容、方式、地点、时间等。由于不能24小时连续观察,还需要选择代表性的时间,并决定观察时是连续记录、随机记录还是以固定间隔记录。观察必须考虑到研究者和参与者之间的关系,因为研究者和参与者的社会特征越相似,关系越近,越容易获得自发、非正式的言语样本。研究者的参与程度也很重要:在自然观察中,研究者不参与,仅仅是情境的观察者;而在参与式观察中,研究者也是被观察情境的一部分。只观察一个对象时,通常采取参与式观察;观察多个对象,称为焦点小组(focus group),人数通常为5至10人,参与者在轻松、非正式的环境中讨论一个或多个话题。观察的问题在于,研究者应当收集自然情境中的数据,即人们意识不到自己正在被观察时的言语,但观察又是获取这种数据的唯一方法。
实验是为了分析自变量对因变量的影响而对自变量进行控制的过程。实验可以分为实验室实验现场实验,两者的区别在于对参与者来说环境是否自然。需要注意的是,如果参与者是人,那么在实验中就必须考虑练习、记忆、疲劳、无聊、无知、恐惧等可能会改变实验结果的因素。
书面文献是研究20世纪以前的语言的主要来源,包括政府档案、古代作品、手稿、手抄本、日记乃至铭文等。目前,有一些文献已经数字化,但大部分仍然需要在图书馆或档案馆查阅。阅读其中一些文献还需要有古文字学的帮助。

语言

我们可以从形式和功能两大视角来看待语言(language)

作为形式的语言

作为形式的语言,就是符号系统。美国语言学家William D. Whitney(1827—1894)将语言定义为由任意的、约定俗成的符号组成的系统,索绪尔则在《普通语言学教程》中进一步指出,语言是一种社会规范,同时语言符号又在能指和所指的关系中体现出了任意性。
符号(sign)是具有意义的可感知实体,任何交流都依赖于发送者和接收者之间符号(编码)的传递。符号本身并不包含信息,而只负责传递信息。研究符号和交流系统的学科称为符号学(semiotics)。索绪尔是符号学的开创者,美国哲学家皮尔士(Charles Sanders Peirce,1839—1914)则首次使用了semiotics这一术语。美国哲学家莫里斯(Charles W. Morris,1901—1979)将符号学划分为三个维度:句法学研究符号与符号之间的关系,语义学研究符号与其代表的对象之间的关系,语用学研究符号与使用者之间的关系。罗兰·巴特进一步将符号学扩展至文学领域。
符号并不局限于语言符号,符号学也并不只研究语言的交流系统。例如,植物符号学(phytosemiotics)研究细胞间的交流,动物符号学(zoosemiotics)研究动物间的交流,控制论(cybernetics)研究机器间的交流。语言学与符号学关系紧密,但是并不存在包含关系。
根据可感知实体与其意义之间建立的关系,皮尔士将符号分为三类:

  • 指示(index):可感知实体与其意义存在自然的因果关系。例如,「烟」表示「火」,因为火的燃烧会产生烟,两者存在因果关系。
  • 图像(icon):可感知实体与其意义存在相似关系,这种相似性可以基于视觉、听觉、嗅觉、触觉等。例如,绘画、地图乃至于拟声词都属于图像。
  • 象征(symbol):可感知实体与其意义之间的关系是约定俗成和任意的。例如,交通标志、数学符号、语言符号都属于象征。

语言符号属于象征的范畴。索绪尔定义的语言符号是一个二元模型,包括两部分:能指(signifier),即语音形式;所指(signified),即概念。能指和所指不可分离,二者结合才构成语言符号。Louis Hjelmslev则进一步将能指和所指扩展为表达平面(expression plane)内容平面(content plane)。语言符号具有四大性质:

  1. 任意性:能指和所指之间的关系是任意的,它们没有必然联系,而仅仅是在社会中约定俗成的。也就是说,词的形式和意义之间的关系是任意的。不过,也存在一些例外,有一些词的发音与其意义之间存在关联,例如拟声词和感叹词。但是即便如此,不同语言对同一声音的拟声词以及感叹词也有差异。
  2. 线性:语言符号是一维序列,是按时间顺序排列的。
  3. 不变性:语言符号既然是约定俗成的,对于每个语言社群来说,能指和所指之间的关系就是相对固定的。如果个体想要改变这一关系,那么就必须冒着不被理解的风险。
  4. 可变性:语言符号既然是任意的,能指和所指之间的关系就会随时间而改变。这种变化可能源于个体,但只有当整个社群都接受这种变化时才会生效。

皮尔士的符号则是一个三元模型,包括三部分:符号表征物(representamen),即符号本身能被感知到的部分;对象(object),即符号所指称的事物;解释项(interpretant),即符号对人的心智所产生的效果。例如,当听到「房子」这个词时,符号即为「房子」这个词本身的语音形式,对象即为现实中作为「房子」的由墙壁、屋顶、门、窗户等构成的建筑,解释项即为心中对「房子」这个词的解释「供人居住的地方」。

法国语言学家André Martinet(1908—1999)提出,语言只能是人类的,所谓「动物语言」仅仅是一种比喻。「动物语言」总是相似不变的,而人类语言区别于动物的复杂性源于其可分解性。由此,Martinet提出了语言的二重结构(double articulation)

  1. 第一结构:语言可以分解为有意义的最小单位,即语素。语素同时具有语音形式和意义。
  2. 第二结构:语素可以进一步分解为没有意义的最小单位,即音素。
    第二结构确保了语言的稳定性:如果第一结构不能进一步分解为更小的单位,那么一个词与其发音之间的对应关系就难以保持一致,进而导致语言不稳定。例如,假设「猫」这个词只有一个整体发音,不能分解为更小的语音单位,如果发音稍有差异,就无法保证所有人理解同一个词。第二结构也确保了语言符号的任意性:因为音素没有任何意义,所以可以自由地出现在任意词中。

作为功能的语言

作为功能的语言,就是交流(communication)。一次有效的交流包含六个基本要素:

  1. 语境(context):交流所处的环境
  2. 信息(message):传递的具体内容
  3. 发送者(sender):编码并发出信息的主体
  4. 接收者(receiver):收到并解码信息的主体
  5. 信道(channel):发送者与接收者之间的传递通道
  6. 编码(code):发送者与接收者双方共有的符号系统

德国心理学家Karl Bühler(1879—1963)从交流的视角出发,提出了语言的三大功能:

  1. 指称(referential)功能:传递客观信息(语境)
  2. 情感(emotive)功能:表达说话者的情感或态度(发送者)
  3. 意动(conative)功能:影响听话者的行为或态度(接收者)

Roman Jakobson则在Bühler的基础上又添加了三大功能,并将六大功能分别与六个基本要素对应:

  1. 诗性(poetic)功能:关注语言本身的美(信息)
  2. 寒暄(phatic)功能:建立、维持或结束交流(信道)
  3. 元语言(metalingual)功能:谈论语言自身(编码)
Jakobson交流模型

交流可以分为单向和双向两种基本类型,每种类型下又可以根据人数分类:

  • 单向
    • 一对一:单个发送者与单个接收者交流
    • 一对多:单个发送者与多个接收者交流
    • 多对一:多个发送者与单个接收者交流
  • 双向
    • 对话:存在一个发送者和一个接收者,双方角色不断交替
    • 辩论:存在多个发送者和接收者,每个参与者同时或交替承担发送者和接收者的角色

为了用于交流,语言遵循三条功能性原则:

  1. 象征性:语言可以用于指称与说话者所处现实不同的事物和概念,例如谈论过去、未来乃至虚构的事物
  2. 经济性:通过二重结构,语言可以通过有限的单位和有限的规则组合出无限的表达,从而克服了人类在生理和心理上的限制
  3. 创造性:语言使用者能够创造和理解从未出现过的新表达

美国语言学家Charles F. Hockett(1916—2000)在区分人类语言和动物语言时,提出了语言的13个设计特征(design feature)

  1. 声—听通道(vocal–auditory channel):语言通过声音的发出和听觉的接受进行传递
  2. 扩散传播与定向接收(broadcast transmission and directional reception):语言通过声音向各个方向传播,但听话者能够判断声音来源的方向
  3. 短暂性(transitorness):语言的声音非常短暂
  4. 互换性(interchangeability):说话者和听话者的角色可以互换,即说话者可以说出任何听到的信息
  5. 反馈性(feedback):说话者可以听到并实时调整自己说的话
  6. 专门性(specialization):说话具有交流的目的,而非单纯的生理现象
  7. 语义性(semanticity):语言具有意义,即特定的语音形式与意义相对应
  8. 任意性(arbitrariness):语音形式与意义之间的关系是任意的
  9. 离散性(discreteness):语言由可分解的离散单位组成
  10. 移位性(displacement):象征性的体现,语言使用者可以谈论过去、未来乃至虚构的事物
  11. 能产性(productivity):创造性的体现,语言使用者能够创造和理解从未出现过的新表达
  12. 文化传递性(cultural transmission):语言不是先天的,而是通过社会学习获得的
  13. 二重性(duality):即语言的二重结构

语言的起源

根据George Yule(1947—),口语出现于约5万年前,书面语出现于约5000年前。在《圣经》中,亚当(Adam)被神赋予了命名万物的权力,从此有了语言;在印度神话中,则是辩才天女(Saraswati)创造了语言。然而,抛开神话,语言的起源至今尚无定论。历史上有过多次语言剥夺实验,统治者为了寻找语言的起源而将婴儿与外界的语言隔离,实验结果是这些婴儿都没有学会说话,说明语言的产生离不开社会接触。19世纪,人们认为语言是通过对自然声音的模仿而产生的。如今,适应假说认为,语言随着声道和耳朵等人类生理特征的进化而产生;遗传假说认为,语言能力存在于基因中,乔姆斯基便支持这一假说,认为语言能力的产生来自于人类的一次基因突变。

语言习得

母语习得

人类的语言习得具有普遍性,无论成长环境如何,儿童总能以极快的速度掌握复杂的词汇与语法系统,这支持了乔姆斯基的理论。不过,尽管儿童具有语言习得的先天能力,仍然需要满足两项基本条件:

  1. 儿童必须在最初几年接触语言。关键期假说(critical period hypothesis)认为,人类的语言习得存在一个关键期,即生命的最初几年。在关键期内,语言习得的能力将随着语言输入得到发展;如果在关键期后才进行语言输入,绝大多数人将再也无法习得语言。
    在这一阶段,成人通常会对儿童使用一种特殊的说话方式,称为儿童导向语(儿向语;child-directed speech, CDS)。这种说话方式一般语速更慢,语调夸张,经常重复,频繁使用拟声词、指小词等。儿向语可能有助于吸引儿童的注意力,但对其语言习得并无重要影响。即使成人不对儿童使用儿向语,儿童依然能以同样的方式习得语言。
  2. 儿童必须生理健康,大脑的语言相关区域没有受损。

儿童的语言习得通常经历以下阶段:

  1. 儿童先天具有区分语言刺激的能力,对语音信息高度敏感。从出生起,儿童就能对语言中的语音对立作出反应,即使这种对立在其母语中并不构成音位对立。
  2. 大约6个月时,儿童开始牙牙学语,进入咿呀语(babbling)阶段。在这一阶段,儿童开始发展语音。前期,咿呀语主要是重复的辅音—元音串,例如baba、mama等,后期则会变化更多。儿童会不断调节咿呀语,逐渐接近其母语。初期,儿童会发出一些母语中没有的音,但逐渐会只发出其母语中存在的语音,咿呀语也开始听上去像词。
  3. 大约1岁时,儿童开始说出词语,进入独词句(one-word)阶段。在这一阶段,儿童能够说出仅由一个词组成的句子。
  4. 大约2岁时,儿童开始将两个词语组合成句,进入双词句(two-word)阶段。儿童开始发展句法。随后,儿童能够将多个实词组合成句,进入电报式言语(telegraphic speech)阶段。电报式言语反驳了儿童通过模仿习得语言的观点,因为成人在对儿童说话时并不会省略虚词,即使使用的是儿向语。大约3岁时,儿童能够使用虚词,开始说出结构复杂的句子。
    对于以英语为母语的儿童,句法能力的发展尤其体现在疑问句和否定句的生成上。在电报式言语阶段,他们并不会使用助动词和移位,但已经能够通过上升语调和在句首使用wh-疑问词来构造疑问句,使用no来构造否定句;在习得助动词的过程中,儿童同时也会习得移位规则,构造出正确的疑问句,并使用don’t、can’t等构造出正确的否定句。
  5. 大约2岁半时,儿童也开始发展形态。儿童能够习得屈折形态变化,并保持语法一致和区分格标记。在形态的习得中,儿童往往会发生过度概括的现象,将正常的形态规则应用到不规则的形态变化上,例如儿童可能会说bringed、goed、runned或foots、mouses、sheeps等。
  6. 从说出词语开始,儿童也开始发展语义。而进入双词句阶段后,这些句子不仅表达句法关系,同时也在表达语义关系。在语义的习得中,儿童往往会发生过度扩展的现象,将一个词的词义扩展到其它相似的对象上,因为一个词所指称的对象是难以界定的。例如,儿童在看到一只狗时听到了dog这个词,于是将dog与这只狗联系起来,但是儿童并没有办法确定dog能否指称与这只狗差别很大的其它种类的狗,也无法确定dog能否指称牛、羊等其它有四只脚的动物,那么,儿童就可能将dog的词义扩展到所有有四只脚的动物。此外,儿童在上义词和下义词之间,倾向于选择中等程度的词语。例如,儿童在「动物」「鸟」「金丝雀」这三个词之间,往往会使用「鸟」这个词。大约5岁时,儿童能够掌握反义词的使用。

二语习得

在习得母语后,我们往往还能习得另一种语言。已经习得母语(L1)的成人或儿童习得第二语言(L2)或更多语言的过程称为二语习得(second-language acquisition, SLA)。有些儿童会同时习得两种母语,这个过程称为双语习得(bilingual first language acquisition, BFLA),双语习得的过程与单语习得并没有太大差别,只是双语儿童会同时发展两套词汇与语法系统。
首先应区分L2的习得与学习:语言习得(language acquisition)是自然地发展非母语交流能力的过程,侧重于语言的功能;语言学习(language learning)则是有意识地积累词汇与语法等语言知识的过程,侧重于语言的形式。传统教学更强调学习的方法,教授学生语言知识,但因此在交流上存在不足。二语习得实际上是习得和学习两种方法的结合。

像L1一样掌握L2是十分困难的。L2者在学习时,学习时间有限,往往也缺乏与L1者持续的直接接触;即使采用习得的方法,依然难以达到L1者的水平,不过书面语似乎比口语更容易达到较高水平。
L2的习得能力随着年龄增长而逐渐下降,年龄越小越容易习得L2。因此,二语习得也存在关键期假说。青春期前可能是二语习得的关键期,语言习得的先天能力会在青春期后趋于饱和。不过,与母语习得的关键期不同,成人仍然能够习得L2,而且相对来说成人拥有更好的对语法规则的分析能力。
此外,二语习得还会受到其它非语言因素的影响,例如害羞、缺乏对外语文化的认同、教材枯燥、教学方法单调以及时间和环境的限制都不利于二语习得。

L2教学存在多种方法:

  • 语法翻译法(grammar-translation method):教授学生语法,并要求学生在L2和L1之间翻译句子和文章,教师通常以母语授课,学生需要完成大量语法与词汇练习,这是传统教学中最常见的方法
  • 听说法(audio-lingual method):重视听力和口语,以对话和大量的模仿练习来教学
  • 交际法(communicative language teaching, CLT):重视语言的交际功能,以意义为中心,鼓励学生使用L2交流

二语习得与母语习得的一个重要区别是,L2习得的过程会受到L1的影响,这种影响称为语言迁移(language transfer)
语言迁移在音系上表现显著。L2者通常会有口音,这就是因为他们可能将L1的音系规则迁移到了L2上。例如,日语母语者在学习英语时往往不区分[r]和[l],因为这两者在日语中不构成音位对立;西班牙语母语者在学习英语时则会在词首的辅音丛前添加元音,如将school发成[əskuːl]、将snob发成[əsnɒb]。
语言迁移也存在于形态和句法中。例如,学习英语的西班牙语母语者可能会将英语的形容词置于名词之后,因为西班牙语的语法如此。
语言迁移在语义上的体现则是假朋友(false friend),即写法或发音相近但含义截然不同的词语。例如,英语的actually意为「其实」,但西班牙语的actualmente意为「现在」。
语言迁移往往是负迁移,导致L2者在使用语言时容易犯错。但语言迁移同样可以是正迁移,音系、形态、句法、语义的相似都有利于L2者通过L1更容易地学习L2。例如,同源词可以经常让L2者猜出词语的含义。

心理语言学提供了多种关于语言习得的心理机制的理论。20世纪20年代,联想主义(associationism)认为学习是刺激与反应的联结,强调重复和记忆的重要性,因此试图以听说法来取代传统教学。40年代,行为主义(behaviorism)兴起后,听说法进一步得到了推广。行为主义将语言视作一种行为,即对刺激产生的反应,认为儿童是通过模仿、强化、类推等过程习得语言的。50年代,双语能力被区分为复合型双语(compound bilingualism)和协调型双语(coordinate bilingualism):前者的两种语言共享同一个心理概念系统,对应双语习得;后者的两种语言则各自拥有独立的心理概念系统,对应二语习得。60年代,乔姆斯基在批判了行为主义和听说法之后,提出了颠覆性的生成语法。

80年代后,联结主义(connectionism)的计算模型被提出。联结主义与行为主义一样强调类推和强化的作用,但联结主义模型中不存在语法规则。语言知识——例如英语的过去时——是由不同音系形式(如play—played、dance—danced、drink—drank)之间类似神经元的一组连接来表征的。反复输入言语中特定的一组动词,模拟类似规则的行为,就会强化两者之间的连接。根据动词之间的相似性,模型就能输出没有输入过的过去时形式,例如从dance—danced类推出prance—pranced,从drink—drank类推出sink—sank。联结主义成功催生了大语言模型,但对于现实中儿童的语言习得仍然缺乏解释力。

语言的分类

根据民族语(Ethonologue)的数据,世界上现存的语言共有7159种。语言可以根据亲缘关系、结构特征和地理分布进行分类。

谱系分类

18世纪,瑞典生物学家林奈(Carl Linnaeus,1707—1778)提出了将生物划分为界、纲、目、属、种等层级的分类法,被誉为「现代生物分类学之父」。林奈的生物分类法启发了语言学家在共时层面上将语言也按照类似的层级分类。19世纪初,英国地质学家查尔斯·莱尔(Charles Lyell,1797—1895)提出了均变论(uniformitarianism),认为地质变化是缓慢、连续的自然过程。均变论使语言学家认同语言也是渐变而非突变的结果,同时启发了达尔文(Charles Darwin,1809—1882)提出生物进化论。由此,德国语言学家奥古斯特·施莱谢尔(August Schleicher,1821—1868)于19世纪50年代建立了树状模型(tree model),在历时层面上,用语言谱系树来描述语言的进化。

树状模型认为,与生物一样,每种语言都从其父语言演化而来,拥有共同祖先的语言属于同一语系(language family),这个共同祖先称为原始语(proto-language)祖语。同一语系的语言具有亲缘关系,或者说具有谱系关系(genealogical relationship)。由于地理隔离等因素,原始语的不同地域方言会经历不同的演变,从而随着时间各自演化为独立的语言,形成由多种语言组成的语系。语系还可以进一步划分为语族、语支等,同一语族、语支的最近共同祖先就比整个语系的最近共同祖先关系更近。

语言谱系关系的确定来自于历史比较语言学(comparative linguistics)。历史比较语言学通过比较法(comparative method),比较多种语言之间音系和语义的系统性对应关系,从而证明这些语言之间的谱系关系,乃至于重建这些语言的祖语。
对同源词的比较是比较法的核心。同源词(cognate)是不同语言中由同一个祖语词根演变而来的词,往往具有相近的意义。如果同源词数量多、规律性强、系统性强,那么就很有可能具有谱系关系。将更多语言纳入比较,并尝试用音变规律来解释它们之间语音的对应关系,我们就能构拟出它们的祖语。例如,我们发现,梵语、拉丁语、古希腊语和英语的同源词的词首辅音之间存在以下关系:

梵语 拉丁语 古希腊语 英语
p pitṛ́ p pater p pătḗr f father
p pád p pēs p poús f foot
p paśú p pecū f fee
p pūrṇá p plēnus f full
p purā́ p prae p părắ f fore

四种语言的同源词之间有着规则的[p]—[p]—[p]—[f]的对应关系,那么他们可能就具有谱系关系。对于这种对应关系,我们可以推测其祖语对应的最可能的语音,这样就能逐步构拟出其祖语的音系,并解释从祖语演化为这些语言的音变。这里,由于[p]出现较多,且[p]变为[f]比[f]变为[p]更常见,我们可以将其祖语对应的语音构拟为*p(其中*在历史语言学中表示构拟形式),并得出一条规律:*p在英语中变为f,在梵语、拉丁语、古希腊语中则保持不变。通过更多的同源词比较,可以进一步构拟其祖语(原始印欧语)的辅音:

原始印欧语 梵语 拉丁语 古希腊语 英语
*p p pitṛ́ p pater p pătḗr f father
*t t t t trēs t treîs θ three
*k ɕ śván k canis k kŭ́ōn h hound
*b b labium b lobós p lip
*d d d d duo d dúo t two
*g jalá g gelū k cold
*bʰ bhrā́tṛ f frāter phrā́tēr b brother
*dʰ dhā f faciō theós d do
*gʰ ɦ haṃsá ∅ ānser khḗn g goose

1786年,英国语言学家威廉·琼斯(William Jones,1746—1794)在一次演讲中发表了著名的论断,指出梵语、希腊语和拉丁语之间存在惊人的相似性,因此它们必然存在共同祖先;甚至日耳曼语、凯尔特语以及波斯语也与之同源。1816年,德国语言学家弗朗茨·博普(Franz Bopp,1791—1867)指出了梵语、希腊语、拉丁语、波斯语和日耳曼语之间的联系。两年后,丹麦语言学家拉斯穆斯·拉斯克(Rasmus Rask,1787—1832)首次通过在形式上描写语言之间音系差异的规律性,证明了这种联系,并将立陶宛语和斯拉夫语纳入其中。
拉斯克的研究启发了以《格林童话》而闻名的德国作家雅各布·格林(Jacob Grimm,1785—1863)。1822年,格林比较了梵语、希腊语、拉丁语和日耳曼语的语音,详细说明了其差异的系统性,从而提出了格林定律(Grimm’s law)。这是第一个被发现的系统性音变规律。格林定律指出,日耳曼语的早期历史(即原始印欧语)中一定发生了某些音系变化,而这些变化没有发生在梵语、希腊语、拉丁语中:

  1. 浊送气音变为浊不送气音:bʰ > b, dʰ > d, gʰ > g
  2. 浊塞音变为清塞音:b > p, d > t, g > k
  3. 清塞音变为清擦音:p > ɸ, t > θ, k > x

英语也是一种日耳曼语,其中清擦音[ɸ]和[x]分别对应现代英语的[f]和[h]。格林定律就可以解释上表中英语发生的辅音变化,这与我们最初得到的规律是一致的。不过,格林定律也有一些例外,有时清塞音并不对应清擦音,例如英语father和brother两个词中的th [ð]。1877年,丹麦语言学家卡尔·维尔纳(Karl Verner,1846—1896)提出了维尔纳定律(Verner’s law),首次用条件音变解释了这一现象:

  • 前面的元音为非重音时,清擦音变为浊塞音:ɸ > b, θ > d, x > g

维尔纳定律的补充使得德国的新语法学派(Neogrammarian)提出了著名的论断:「语音规律没有例外」。他们将可证伪的科学方法引入语言学研究,从而为现代比较语言学奠定基础。
这一系列研究促成了印欧语系(Indo-European languages)的发现,梵语、希腊语、拉丁语、日耳曼语、斯拉夫语等语言都被划入这个庞大的语系。琼斯所提出的各印欧语的祖语则称为原始印欧语(Proto-Indo-European, PIE),这是一种使用于约6000年前的语言。 印欧语系

运用比较语言学的方法,语言学家确定了世界上各种语言之间的谱系关系,并按语系分类。不同语系之间没有谱系关系。不过,由于历史证据的缺乏,某些语系之间可能存在未被发现的联系。最极端的观点认为,世界上所有语言都源于同一个祖语,称为原始人类语(Proto-Human language)。这种观点建立在人类语言都有同一起源的基础上,因此未获普遍认可。
以下是最常见的几种语系:

  • 印欧语系是世界上使用人数最多、分布最广泛的语系,分布于欧洲大部分地区、伊朗高原和南亚次大陆北部并因此得名,可以分为罗曼语族、日耳曼语族、斯拉夫语族、凯尔特语族、印度—伊朗语族等,其中一些语族如安纳托利亚语族、吐火罗语族等已经灭绝。随着殖民扩张,印欧语系也已经遍布美洲、大洋洲。
  • 乌拉尔语系(Uralic languages)是除印欧语系外欧洲使用人数最多的语系,分布于欧洲和北亚,包括匈牙利语、芬兰语、爱沙尼亚语等。
  • 汉藏语系(Sino-Tibetan languages)是世界上使用人数第二多的语系,分布于中国、印度支那和青藏高原边缘,可以分为汉语族和藏缅语族,包括汉语、藏语、缅甸语等。其中汉语有许多变体,常被视作汉语族下的独立语言,包括官话、晋语、吴语、徽语、闽语、湘语、赣语、客家话、粤语、平话等。
  • 亚非语系(Afroasiatic languages)分布于西亚、北非、非洲之角以及撒哈拉和萨赫勒的部分地区,闪米特语族为最大语族,包括阿拉伯语、希伯来语、豪萨语等。
  • 尼日尔—刚果语系(Niger–Congo languages)是语言数量最多的语系,也是非洲分布最广泛的语系,分布于撒哈拉以南非洲的大部分地区,大西洋—刚果语族为最大语族,包括斯瓦希里语、祖鲁语、约鲁巴语等。
  • 南岛语系(Austronesian languages)是语言数量第二多的语系,广泛分布于东南亚大部分地区、马达加斯加、太平洋岛屿和台湾,包括马来语、他加禄语、毛利语等。其中,台湾南岛语极为丰富,说明台湾很有可能是南岛语民族的发源地。
  • 仡台语系(Kra–Dai languages)又称侗台语系壮侗语系,在中国长期被视为汉藏语系的一部分,分布于华南、印度支那和印度东北部,侗台语族(壮侗语族)为最大语族,包括壮语、泰语、老挝语等。
  • 苗瑶语系(Hmong–Mien languages)在中国长期被视为汉藏语系的一部分,分布于华南和印度支那北部,包括苗语、布努语、瑶语等。 世界语系分布

有的语言与其它任何语言都没有谱系关系,称为孤立语言(language isolate)。孤立语言无法被划分到任何一种已知语系中,可以认为它们各自自成一个语系。一般认为,孤立语言在历史上曾有过亲缘语言,但都已灭绝,且由于历史证据的缺乏,这些亲缘语言已经无法还原。典型的孤立语言有巴斯克语等;日语和朝鲜语也常被视作孤立语言,或是各自与琉球语和济州语组成小型语系。

一种语言的内部也可以进行分类,不同地域社群或社会社群所使用的语言变体(variety)就是不同的方言(dialect)。方言的产生来自于地理上或社会上的隔离,语言的演变在社群内部会传播开来并被儿童习得,但隔离的存在使得这种演变难以传播到其它社群,语言社群之间的差异因此强化,成为方言。如果隔离继续存在,方言之间的差异会扩大,最终演变为不同的语言。这种差异与隔离程度成正比。地理隔离产生的方言称为地域方言,性别、年龄、阶级、种族等社会因素的隔离产生的方言称为社会方言。日常所说的「方言」通常就指地域方言。方言还可以进一步划分为次方言,例如《中国语言地图集》将汉语方言划分为大区、区、片、小片、点五级。方言的分类也可以用谱系树来表示。
区分两种不同的语言和同一语言的两种方言往往是十分困难的,因为从方言之间的差异到语言之间的差异并没有明确的界限。一般来说,区分语言和方言的标准取决于相互理解性(mutual intelligibility):如果两种语言变体的使用者能够相互理解,那么可以认为是同一语言的两种方言,否则就是两种语言。但由于社会和政治等因素,语言和方言的区分并不总是遵循这一标准。此外,一些语言或语族、语系呈现出方言连续体(dialect continuum)的特征,在连续体内,地域相邻的语言变体之间可以相互理解,但随着地理距离的增加,差异逐渐变大,导致距离较远的语言变体之间难以相互理解。汉语、阿拉伯语和突厥语系就是典型的方言连续体。方言连续体内没有明确的界限,难以划分为多种语言,但将其视作单一的一种语言也并不合适。树状模型的一大局限性就在于其无法描述方言连续体。
方言之间最显著的差异在于语音或音系,这种差异就体现为口音(accent)的区别。不仅方言使用者有口音,非母语者也会有口音,此时口音反映的就是这种语言与其母语之间的音系差异而非方言之间的音系差异。此外,方言之间在词汇上和语法上也有差异。为了描述地域方言之间的差异,根据特定的语言特征,可以在地理上用一条线将两地区分开,这条线就是同言线(isogloss)。由一系列同言线组成的同言线束可以确定一个方言区。

方言和语言的差异迫使人们为了交流需要使用一种通用语(lingua franca)。中世纪后期,为了便利商业和外交,地中海地区普遍使用一种混合多种语言而形成的语言,称为「法兰克语」,lingua franca一名由此而来。今天,英语常被称为全世界的通用语,西班牙语成为拉丁美洲和美国南部的通用语,中国则以现代标准汉语(普通话)为通用语。一个国家或地区的通用语是占优势地位的方言,这种方言经过规范化,称为标准方言标准语。但是,标准方言仅仅是由于政治、经济、文化等原因而成为标准方言的,标准方言并不比其它方言更加优越。标准方言有时是一种理想化的方言,例如,美国英语的标准语是通用美式英语(General American English, GA),但GA并没有一个精确的定义,而只是对大多数美国人所说方言的概括。
在许多国家和地区,人们会使用不同于通用语和标准语的语言变体,称为地方语言(vernacular)。其中,少数人口使用的地方语言称为少数语言(minority language)。除标准语外,一些国家和地区还会将少数语言设立为官方语言。而没有得到官方承认、被边缘化甚至禁止的少数语言则称为边缘语言(minoritized language)。例如,在殖民时期的美洲,许多原住民语言都被视为边缘语言;佛朗哥时期(1939—1975)的西班牙则将除西班牙语外的所有语言都视作边缘语言。
有的语言社群同时使用两种方言或语言,这种现象称为双语现象(diglossia)。这两种语言变体中,其中一种地位较低(L),作为地方语言主要用于日常交流;另一种地位较高(H),作为通用语用于正式场合。H变体的词汇、语法常常会进入L变体,甚至逐渐替换L变体。这种现象常见于方言与通用语差异较大的地区。例如,在中国,大部分人同时使用普通话(H)和各种汉语变体(L);在阿拉伯国家则同时使用现代标准阿拉伯语(H)和不同的阿拉伯语变体(L)。双语现象常作为语言替换的过渡阶段而存在:双语社群会逐渐放弃L变体,转而全面使用H变体,最终双语现象消亡。不过,L变体的一些词汇和音系特征仍会存在于H变体中,称为底层(substratum),H变体则成为上层(superstratum)
当两个或多个没有通用语的社群接触时,有时其中一种语言会成为通用语,有时则是发展出一种词汇较少、语法简单的新语言。这种语言的词汇来自于各自语言中现有的词汇,形态较为原始,称为洋泾浜皮钦语(pidgin)。「洋泾浜」是上海外滩附近一条已经消失的河流的名字,这个称呼便来自于19世纪当地中外商人在交流中由英语和汉语混合所产生的洋泾浜英语(Chinese Pidgin English),pidgin一词也来源于中国人对business一词的发音。皮钦语通常也有一种上层语言,大部分词汇来自于这种上层语言,其余语言则贡献较少。皮钦语不是任何群体的母语,存在时间往往不长,通常会因为通用语的推广而消亡。但是,如果儿童将皮钦语作为母语习得,就会发展为一种成熟的语言——克里奥尔语(creole)。相较于皮钦语,克里奥尔语经过儿童在语言习得中的重新分析和构建,词汇丰富、语法完善。典型的克里奥尔语有海地克里奥尔语、托克皮辛语(新几内亚皮钦语)、尼日利亚皮钦语等。

由于皮钦语和克里奥尔语并非由单一的语言演化而来,而是语言接触的结果,树状模型自然难以描述这一类情况。树状模型只能描述语言线性演化的过程,但水平传播在语言的演化中也发挥着重要作用。为了解释这些情况,施莱谢尔的学生Johannes Schmidt(1843—1901)于1872年提出了波浪模型(wave model),并与Hugo Schuchardt(1842—1927)共同推广。
波浪模型认为,各种语言并不孤立发展,而是相互影响的。与波浪一样,各种语言变体的特征从一个地方开始向四周扩散,并逐渐衰减。不同波浪相互交叉,从而使得后来的不同语言呈现出许多相似的特征。这解释了没有谱系关系的语言之间相似的原因。一些语言与相邻的语言之间始终具有相似的特征,于是构成了方言连续体。波浪模型如今已经成为树状模型的重要补充。

类型学分类

19世纪初,洪堡提出从「语言的内部形式」来对语言进行分类,即类型学(typology)的分类方法。类型学只关注不同语言在形式上的异同,而不关注它们之间的亲缘关系,尽管两者往往呈现出相关关系。
1818年,德国文学家August Wilhelm Schlegel(1767—1845)从形态学的角度出发,将语言分为孤立语、黏着语、屈折语三类,而后又提出将语言分为分析语和综合语的分类方法。洪堡在观察美洲原住民语言后,增加了多式综合语这一分类。

  • 分析语(analytic language):又称孤立语(isolating language)。在分析语中,一个语素往往就构成一个词,语素与词之比几乎是一比一。分析语的词缀较少,几乎没有屈折变化。分析语通过语序来表达句法关系。典型的分析语有汉语、越南语、泰语等;英语在传统上被认为是屈折语,但也具有分析语的性质。
  • 综合语(synthetic language):综合语通过将词缀附加到词根上来构词,一个词往往含有多个语素,语素与词之比较高。综合语通过屈折变化和黏着构词来表达句法关系。
    • 屈折语(fusional language/inflected language):屈折语的词缀与词根或词缀之间往往会相互融合,难以分离,因此一个词缀通常可以表达多个语法意义。屈折语素也可以通过词根内部的音系变化来表达,例如辅音变化、元音变化、重音、声调等。典型的屈折语有西班牙语、俄语、阿拉伯语等,印欧语系和亚非语系多为屈折语。
    • 黏着语(agglutinative language):黏着语通过将词缀黏着到词根上来构词,且通常不改变词根,每个词缀只表达一个语法意义,这些词缀之间的界限通常易于区分。黏着语的词汇往往比屈折语含有更多的语素,形态也往往更加规则。典型的黏着语有土耳其语、蒙古语、日语等。
    • 多式综合语(polysynthetic languages):又称并合语(incorporating language)。多式综合语的语素与词之比非常高,一个词含有大量语素,往往可以表达其它语言中一个短语甚至一个句子的语义。典型的多式综合语有因纽特语、克丘亚语、嘉绒语等。

此外,类型学上,也可以按照形态句法、语序、音系、词汇等标准对语言进行分类。
每种语言都有包含主语(S)、宾语(O)、谓语动词(V)的句子,根据句子中这三种成分的基本顺序来分类,就有六种基本语序(word order):SOV、SVO、VSO、VOS、OVS、OSV。SOV类型的语言最多,根据Matthew S. Dryer的统计,约占语言总数的40%,包括土耳其语、蒙古语、日语等语言;SVO类型的语言其次,约占35%,包括英语、西班牙语、汉语等语言;剩下四种类型的语言则数量较少。不过,一种语序类型的语言并不代表这种语言只有这种语序,许多语言的语序都相当灵活,例如俄语、阿拉伯语、日语等。但是即便如此,这些语言也存在一种比其他语序更常见的优先语序。
根据代词——尤其是主语代词——是否可以省略,就可以分为代词省略语言(pro-drop language)和其它语言:汉语、日语、朝鲜语等是话题代词省略语言,以话题为优先,可以根据语境推断代词;俄语、希伯来语、匈牙利语等是部分代词省略语言,前两者允许部分省略主语代词,后者允许部分省略主语和宾语代词;西班牙语、意大利语、希腊语等是完全代词省略语言,允许完全省略主语代词;英语、德语、法语等语言则不允许省略代词。

语言学的分支

社会语言学

神经语言学

心理语言学

生物语言学

语言与文化

应用语言学

语言教学

语言规划

辞书学

临床语言学

司法语言学

计算语言学

参考书目

  • Victoria Fromkin, Robert Rodman, Nina Hyams. An Introduction to Language, 11th Edition. Cengage Learning
    • 《语言引论》,第八版.北京大学出版社
    • 《语言引论》,第八版,王大惟、朱晓农、周晓康、陈敏哲 译.北京大学出版社
  • George Yule. The Study of Language, 8th Edition. Cambridge University Press
    • 《语言研究》,第二版.外语教学与研究出版社
    • 《语言研究》,第七版,曲长亮 译.商务印书馆
  • Adrian Akmajian, Ann K. Farmer, Lee Bickmore, Richard A. Demers, Robert M. Harnish. Linguistics: An Introduction to Language and Communication, 7th Edition. MIT Press
    • 《语言学:语言与交流导论》,第五版.外语教学与研究出版社
  • M. Victoria Escandell Vidal (coord.). Invitación a La Lingüística, 1ª Edición. Editorial Universitaria Ramón Areces
  • 叶蜚声、徐通锵.《语言学纲要》,修订版.北京大学出版社