凡例
这是对老师上课内容或者课本内容的概括与引申。
这是我的补充想法。
教师:陈保亚 课程视频地址
在给出人类语言的具体而确切的定义之前,描述人类语言的若干性质总是更容易的。无论我们之后是否给出这样的定义,抑或这个定义是否概括了语言的全貌,举出这些性质,总是能使我们关注其中的主要矛盾,从而加深对研究对象的认识。这种方式也是做一般学问的方式。
语言能力和语言系统
易境性
现象:钓鱼的人可以在同一个位置钓上许多鱼,即便将原来上钩的鱼放生,依然会有其他鱼上钩。
解释:上钩的鱼尽管可能不会再次上钩,但它无法将自身经验传递给其他鱼,从而对于其他鱼而言,鱼饵潜在的危险并不可知。因此,鱼类无法通过人类语言的方式分享个体经验。
现象:老鼠被老鼠夹夹了,其他在场的老鼠也许会因此避开老鼠夹。但是即便放回这些老鼠,其他未在场的老鼠无法仍然会被夹。
解释:同上。但我们着重强调人类语言对不在场个体的经验传递,反过来动物语言(如果存在)缺乏这种能力。
现象:一个人吞了灯泡发现取不出来。其他人即便没有吞过灯泡,也能了解此事从而避免。
解释:人可以通过语言将个人经验分享给他人,即便他人尚未亲身体验,但仍可以通过语言获得这种经验。
这里的例子都建立在动物趋利避害的行为基础上,通过动物个体的受害经验无法避免其他个体类似的受害结果推定受害经验没有得到不在场传递。
此外,有例证表明儿童在获得语言以前,活动经验的方式和动物相似,也不得不依赖在场方式来传递。
人类语言传递经验的不在场性,即易境性是人类语言区别与其他动物交流方式的差异。
还原生成性
语言是有限规则和单位生成无限的句子。—— Chomsky
人类具备自然的还原生成能力,即通过有限的句子还原出有限的规则和单位,并通过这些单位和规则生成无限的句子。
这种还原和生成能力其实就是归纳和推理的能力
我们说的种种性质,准确说是人类运用语言的性质,而不仅仅指所运用的语言的性质。客体的性质,恰恰是主体所赋予的,或者说是主体的外化。
举例:儿童可以很容易从以下句子中
- 爸爸吃苹果
- 妈妈削梨
提取到以下单位:爸爸、妈妈、吃、削、梨、苹果。从而生成以下新的句子:
- 爸爸削苹果
- 爸爸吃梨
- 妈妈削苹果
- 妈妈吃苹果
相比之下,其他动物只能停留在句子层面整体理解,并不具备从有限的句子中还原单位、提取规则的能力。
同时,儿童这种直觉性的语言习得过程,往往比语言学家的反思过程能更深刻地把握语法规则,这促使语言学家希望在语料大数据上直接训练模型学习语言(而非人工分析语法规则等等),运用统计学方法模拟人类的还原生成能力,从而发现语言内在的规律。
任意性
语言是人类对世界的建模。世间的具象事物统统被反映为人类语言中的抽象概念。索绪尔用能指-所指对来称谓这对矛盾。而这组矛盾关系并不局限于人类语言系统,一般的这种系统被称为意指系统。
能指:用以表示抽象概念的语言符号
所指:被语言符号所表示的具体事物
以人类语言举例:语音-语义构成了能指-所指对
任意性:能指与所指的关系是任意的,没有必然联系、因果联系或可论证联系。
任意性原则主要依赖于两个基本事实:
- 同一个概念(所指)在不同语言中的声音(能指)不同
- 语言中的大量虚词、抽象词无法象声
注意这种关系一般是任意的,但不一定是任意的。譬如汉语的语音与语义的联系。意指关系的任意性可以体现在二进制编码中。
编码能力:能够在任意性原则上把所指和能指结合成符号的能力。
符号是一个矛盾统一体,有能指和所指两个方面。
编码能力即是一种命名能力。计算机界有个著名的梗:There are only two hard things in Computer Science: cache invalidation and naming things.
相比之下,动物交流方式的任意性就弱很多。主导这种交流方式的往往是本能。譬如公鸡打鸣,母鸡咯咯叫,狗汪汪叫。人类的表情也是类似。
象征和指示:非任意的意指关系。但这不足以构建出实现易境性的系统。
然而自然语言的编码同时也是约定俗成,这就是说能指和所指的关系是在一种自然语言内是固定的,也就是社会规范性。否则人人都任意的建立他自己的符号关系,就无法达成最基本的共识从而无法交流。
符号建立之初的任意性与建立之后的固定性是一组矛盾。
任意性原则的补充说明:
- 从语言的编码机制出发可以更为充分的论证任意性原则。人类的文化活动要求语言对任何层次的概念进行编码,包括抽象概念、语法范畴、语义范畴、语法结构关系、语义结构关系、层次、语义指向等等,这些高层次的概念编码活动不可能通过象声过程完成。
- 更准确地说,任意性原则是自然语言的必要条件(当然不是充分条件)。当某些原则看上去和任意性原则有矛盾时,应当首先弄清这些矛盾是否可以从其他角度得到解释。
任意性原则赋予了语言强大的表达能力。但是这种表达能力必须受到规范,否则交流无从谈起。
对任意性原则的反对:
- 拟声说(临摹理论):最初的语音是对事物的模仿。
反驳:在口语中只有两种临摹方式:声音的临摹和语序的临摹。但这两种方式都是有限的,不构成自然语言符号系统的必要条件,即不足以形成自然语言
确实,但是语言中的大部分抽象概念,是难以通过拟声得到临摹的。正是这些抽象概念才促使了语言的形成。这一点可以类比文字中的象形符号在文字发展中的地位。详见文字学笔记。语言中可能存在大量的拟声词,正如文字中可能存在大量的象形字,但并不是这些拟声词和象形字建立了符号系统,相反是符号系统在建立之后沿用了这些拟声词和象形字的结果。
- 右文说(引申说):《梦溪笔谈》中说王圣美治字学,演其义以为右文。这里的左文右文是指今天形声字的形旁与声旁。王圣美指出“戋”有小的意思,同时以它为声旁的字如钱、浅、残、贱等都有小的意思,说明语义与语音的联系(非任意性)。
反驳:所谓的任意性,指的是在符号建立之初的任意性。这里事实上是符号的引申,钱等字由戋意义的引申。意义的引申由于沿用了既往符号,因而不具有任意性。
二层性
自然语言有两种最基本的单位:
- 区别意义的单位:音位
- 表达意义的单位:语素(注意原视频的语素定义并不准确,准确地说语素是最小的音义结合体)
且这两种单位并不同一。
注意到声音作为一个物理信号,其本质是连续的。谈论声音之间的任意细微差异不具有语言学上的意义,因此为了确定声音作为语言信号的单位,有必要限制在语言信号的界限内,这条界限就是区别意义。在区别意义的条件下,连续的声音信号坍缩成一个个离散的声音等价类,这被称为音位。
如果使用数学的语言来定义:以所有声音信号为元素,以声音信号的拼接为乘法(类似于字符串的拼接),以空信号为单位元,我们可以得到一个幺半群
。类似的我们也可以借助义素(即意义的最小单位)与义素的组合来定义语义幺半群 。自然语言符号系统是这样一个在 和 上的关系 (并非映射)。 那么声音信号
为音位就可以定义为存在一个上下文序列 与另一个声音信号 ,同时存在一个意义 与意义 ,使得 且 。 同样地,语素(最小的音义结合体)则可以定义为这样一个音义二元组
,不存在 满足 。这里我们用 表示“前者为后者的组成成分”这样一个偏序关系。(我们可以类比素数的定义,它是整除这一偏序关系的极小元) 而所谓的两层性,其实指的是存在音位
,不存在义素 使得 且 为语素。这主要的可以理解为:
- 自然语言符号系统
远远没有被填满,我们还有充分的空间 可供编码使用
两层性的存在为自然语言提供了足够多的表意单位
这种说法还不够触及本质。与其这么说,不如说是自然语言相较于编码空间的空虚才造成了这种两层性,而这种空虚同时为表意留下足够多空间。事实上,所指空间的离散性(注意离散性和无限性并不矛盾)与能指空间的连续性必然造成这种空虚,从而造成这种两层性,即永远可以找到未编码的能指空间。
思考问题:数学符号系统有两层性吗?文字有两层性吗?
为了回答这两个问题,我们首先需要搞清楚符号系统的单位以及意义的等价性。这里我们不给出具体回答,但我们给出以下观察:
- 数学中存在所谓的哑变量(dumb variable),其作用仅仅在于公式的占位记号。譬如求和公式中的索引变量,积分中的积分变量等。这些变量有一个共同特点,即它们不是自由变量而是约束变量(即
表达式中约束变量)。譬如 即可以认为是一个虚数单位,起到表达和区分意义的作用,又可以是一个哑变量:
- 在只有这个哑变量的情况下,没有区分意义的作用(可以用
代替),但有表达意义的作用(不能取消之) - 在有多个哑变量的情况下,既有区分意义的作用(用其他哑变量代替后含义改变),也有表达意义的作用。
- 如果我们将像素点视为文字的基本单位,那么己和已的含义可以由不表达意义的像素点区分。
易境行为的实现
(主体的)语言能力实现为(客体)语言系统。
在此课程中,易境性被用于人类语言。(区别于动物语言的特性)
易境性凭借什么得以实现?至少有以下三点:
- 基于任意性的符号编码能力(符号系统的任意性原则)
- 基于类推性的还原生成能力(符号系统的聚合关系和组合关系)
- 区分两种基本单位的能力(符号的两层性)
简言之,这三种能力都赋予了语言强大的表达能力,足以使人类脱离事件发生的情境指代事件,甚至想象从未真实发生过的事情。
人的语言能力和语言系统
先天的基因与后天的习得(特别是在关键期内)共同作用,使个人能够运用语言。
一个朴素的问题:先有语言能力还是先有语言系统?在我看来很可能是人类在社会中的不断实践过程激发了语言能力(内部)和语言系统(外部)的同时演化,这种演化同时又以基因层面的变化为物质基础。至于这种基因突变的原因,以及不断的语言实践是否会强化这种基因,则不得而知。
特别注意语言的社会性,不仅贯穿着语言产生的历史,也贯穿了个人获得语言的过程
语言相对论
举例汉英对比:汉语不存在虚拟语气、汉语的量词、汉语的语气词
解释:汉语与英语的这种差异反映了两种不同的世界观
近现代西方语言学传统:
语言文化相对论:Humboldt—Boas—Sapir—Whorf
结构主义:Saussure—Bloomfield—Harris
生成语法:Humboldt—Chomsky
自然语言理解中的许多解决不了的问题与语言文化相对论相关。
每一个人不管操什么语言,都可以看作是一种特殊世界观的承担者。世界观本身的形成要通过这一手段才能实现……每种语言中都会有自己的世界观。——Humboldt
生活在不同社会形式中的人以完全不同的方式归纳经验——Boas
语言和经验的关系……语言不仅建立在经验上,而且由于它的形式的完整性和由于我们不知不觉把它所隐含的预期效果投射到经验领域中,它实际上为我们规定了经验——Sapir
语言就像一只望远镜,它反映着我们的经验,但同时也扭曲了我们的经验。这让我联想到人工智能常提到的归纳偏见 inductive bias。如果语言系统被视为某种模型的话,那么它反映和扭曲经验的方式就是这种归纳偏见。
一些证据:
- 印第安 algokian 语的第三人称两分:转述主体第三人称,和非转述主体第三人称
- 日语指示代词三分
- 隐形范畴:英语的名词没有性,但作为第三人称转述时会带有性
whorf 的语言相对论假说:
- 所有高层次思维都依赖语言
- 习以为常的语言结构影响着我们理解环境的方式,讲不同语言的人具有不同的世界观
因此没有人能毫无偏见的描述世界。这种偏见即便不是由他自己刻意引入,也完全有可能由他所使用的语言造成的。
哲学家的语言转向:
- 维特根斯坦:
- 凡能够说的,都能够说清楚;凡不能谈论的,就应该保持沉默
- 意义即用法
- 海德格尔:
- 不是我们说语言,而是语言说我们
- 语言是栖居的家园
人的社会性,语言的社会性,思维与语言的密切联系
意义即用法这一点与自然语言处理中的 contenxtual embedding 相同
思维的四个层面
- 思维能力:先天的,先于语言、可以独立于语言的。包括类比、语言能力(符号化活动)、归纳和演绎。 举例:解决一道数学题
- 思维轨迹:思维能力在语言系统中的实现 举例:汉英语言中数字的进位制不同,造成翻译的困难。同时二外中造成复述的困难。这都是语言对思维轨迹浇筑造成的。
- 思维模式:人们运思时形成的一种范式 举例:汉民族的直觉把握特征,语义理解高度依赖语境,如果语境提供信息,结构上可以放松,譬如“鸡不吃了”。印欧语的逻辑分析特征,高度依赖结构,即便上下文提供信息,结构上仍然需要根据鸡是施事抑或受事为吃赋予主动或被动语态。
- 思维方法:在前三者之上形成的一种解决问题的策略或技巧。
思维的三个阶段及语言和思维的互动
- 前语言思维:皮亚杰所观察到的儿童的思维能力。前语言思维是个人的,尚未符号化因而也没有社会化的,观念得不到巩固和继承。无序、不稳定
- 语言思维:有序的,有社会性
- 超语言思维:禅宗的领悟、下棋的过程、对一幅画的领悟
这种划分其实相当模糊,对前语言思维和超语言思维仍然知之甚少。
无论我们对语言和思维的关系采取何种观点,由于思维活动的隐蔽性,语言是观察思维活动的最重要的窗口。
语音和音系
语音学(phonetics)研究声音的自然属性
音系学(phonology)研究声音的社会属性
辅音:有阻碍或摩擦的,听感上点状的
元音:没有阻碍或摩擦的,听感上线状的
国际音标表
语音四要素:音高、音量、音长、音质
举例:汉语音调、英语重音、日语音长、几乎所有语言都运用了音质(元音和辅音的组合)
音系单位和规则提取
音素:从音质角度划分出来的最小的语音单位。又称音子。
音位:音系学上最小的线性单位。
尽管我们说了最小,但由于物质的无限可分性,单纯强调小是没有意义的,否则任意声音信号都可以切分成更短的部分,因此这个小有一个界限,即某种完整性,一旦再小于这个界限就失去了完整性。这就是必须在音系学上有意义,这个意义就是上面所提到的,区别意义的最小单位这一意义。而此处的最小强调的是在线性这一维度上的小,即声音信号长短的小,而不是其他维度上的(譬如音质上还可以细分清浊、送气不送气等特征)。我们将在以下的实例中有更深的体会。
需要强调的是,音系是依赖于语言的,因而不同语言的音位具体也不同。
音素简单来说,它的外延就是国际音标表中罗列的辅音和元音全体。
确立音位的原则
语音条件:当我们考察某音素时,该音素存在的语音结构称为语音条件。譬如考察 h 时,hao 就是语音条件。
下面以确立汉语音位为例:
- 对立原则:在相同语音条件下,对立存在的两个不同音素分属于不同音位。譬如子和此的声母 z 和 c 是对立的,归属不同音位。
所谓的存在,不是指存在于任意可构造的音节(比如普通话中不存在但嘴巴可以发出的 fua),而必须存在于表达含义的音节。而对立则是指二者表达的含义不同。相同语音条件则强调除考察对象外,其余条件完全相同,譬如考察 z 和 c 时,子和此的韵母和声调完全一致。
这里说属于,因为我们马上就会看到音位实际上是音素的集合
反例:在部分西南官话中,所谓 n、l 不分的现象,这就是说 n、l 两音素在该方言中不对立。
对立原则的充分性:判断音素是否对立,只要存在某种语音条件造成二者的对立(即便其他条件下不对立)就称为是对立的。反过来,如果找不到这样的语音条件,那么就是不对立的。因此判断两个音素不对立必须调查整个音系。
譬如在普通话中的舌尖元音 zi 中的 i 和舌面元音 zhi 中的 i 是不对立的。
经验的看,如果未经过严格语音学训练的人无法区分两种音素,那么基本可以推定他的母语中二者不对立。
对立原则的本质是差异。索绪尔:语言是形式而不是实质。重要的是它不是什么,而不是它是什么。
考虑绝对的音素差异是没有意义的,考察音素之间造成的表意的相对差异才是有意义的。
正因为母语中区分意义的需要,人们能够敏锐的区分对立的音素。而区分没有必要的差异只会徒增大脑消耗。
相同语音条件下,不区分意义的不同音素属于同一音位的自由变体。在社会语言学层面,自由变体的自由度还取决于社会身份。
- 补充原则:互补相似。如果有些音素永远不在相同的条件下出现,我们便称其为互补分布。譬如上述的普通话舌尖元音和舌面元音。在这种情况下,如果主观上认为二者相似(语音上),则可以认定其为相同音位,否则不同。
对立原则是绝对的、客观的,第一的;补充原则是相对的、主观的,第二的,起到归纳音位、简化音系的作用。
普通话拼音方案作为一种音位拼音,就认为舌尖元音和舌面元音是一种音位。
当我们使用互补相似原则归并音素的时候,必须注意音节对立的问题。如果我们已经归并了知和鸡的韵母,那么我们就不能归纳二者的声母,否则知和鸡这两个音节也完全相同了。这就是说,互补相似原则的运用是有限度的,以不破坏音节对立为前提。这就是所谓的:
- 语素音形对立原则:互补分析不能混淆语素音形或音节的对立
自由变体和条件变体
自由变体:语音条件相同,同一音位的不同变体,如合口呼零声母 w-v
条件变体:语音条件不同,同一音位的不同变体,如 zhi,zi,ji 中的 i
音质音位和非音质音位
以上说的音位是以音素为材料,从音质的角度来分析的,叫做音质音位
在语音中,除了音质还有音高、音强、音长三种要素,它们也能区别语言单位的语音形式,从而其区别意义的作用,因此也能构成音位,这被称为非音质音位。
调位
非音质音位中,由音高构成的音位,对应于普通话中的声调。特别注意普通话的声调是音节内部的变化。音节之间的变化属于词调、乃至语流中的连续变调,它们可以改变情绪乃至意义,但超出了本课的范畴。
重位与时位
英语的重音和音长
区别特征
语音特征和区别特征的矛盾关系类似于音素和音位的矛盾关系,也即区别特征是区别意义的语音特征。 举例:普通话的辅音区别特征有送气/不送气,口/鼻,双唇/舌等。
特征是音素更小的组分,就是上述提到的线性最小单位依然可以按照特征细分。国际音标表的辅音矩阵就是按照语音特征罗列的。
提取区别特征的原则和提取音位的原则同理。
辅音单向聚合与双向聚合
辅音可以按照发音方式和发音部位为轴排列成一个矩阵。
双向聚合可以直观的理解为某个辅音所在行列都有对应的其他辅音,这反映了音位系统平行、对称的结构格局。
单向聚合则是这种对称性的破缺。这种破缺常常造成语言的内部音变。(还有由语言接触造成的外部音变)
单向聚合的辅音容易变动,或是单个变动,或是整个聚合群一同变动。
反过来我们可以说双向聚合群不易单个变动,因为它在两个方向上都没有空位。但也可能发生整体变动,譬如中古浊音声母的整体消失、尖团合流等等。
音节
音节是语言音响链条中的自然单位,是母语者最容易感知到的两种语音单位之一,另一种是韵。
确定音节是后续分析音位的关键
音节的判定通常是复杂的,其中一种判据为音节是可延展的(不改变意义)。从语音学的角度看,通常每一个音节都有一个响度峰,它落在可延展音素上,这个响度峰即音节核,音节内成分的响度以音节核为中心向两边衰减。
普通话的音节判定相对简单。汉藏语中的语言多带有音调,这为音节的判定提供了方便。
音节是由音位组合而成,音节的结构可以有三个层次考察:
- 音节最多有几个组合位置
- 每个位置按什么组合层次相组合
- 每个组合位置上可以出现哪些聚合类
举例:普通话的音节可以分成声、韵、调三部分。声母和韵母由音质音位构成,声调由调位构成。声母指音节开头的辅音,韵母指声母以外其余的音质部分,又可分为韵头、韵腹、韵尾三部分。韵头又可叫做介音,韵腹和韵尾(有时还包括声调)合称为韵。
语音规则
语音规则分两种:
- 语素内部的语音规则,由音位归纳获得 -> 音位变体
- 语素之间的语音规则,由语素组合获得 -> 语流音变
语流音变往往是临时性的,因人而异的,语素内部的语音规则则更为强制。语流音变可能是跨音位的,而音位变体只局限于音位内部。常见的语流音变有同化、异化、弱化、脱落四种。
举例:英法语连音联诵,汉语上声变阳平、儿化音
语法
语素
语素是最小的音义结合体
聚合关系和组合关系
想象一个三连老虎机,纵向构成聚合关系,横向构成组合关系
举例:
- Saussure 的观察
defaire | |
decoller | faire |
deplacer | refaire |
decoudre | contrefaire |
- 蝴蝶一词由于蝴、蝶二字均不存在聚合关系,因而蝴蝶是一个语素。
聚合与组合的辩证关系:一个语素的聚合关系相当于存在多个语素可与其组合。一个语素的之所以被认为与其他语素是组合关系,因为还有其他组合形式与之聚合。二者是一个事物的两个方面。
注意语素和音位都是经过归纳的抽象概念,而非直接经验,事实上这里汉译术语有缺陷
音 | 义 |
---|---|
phoneme 音位 | morpheme 语素 |
phonetic 音素/音子 | ?语子 |
其实英文术语也有缺陷,因为 morph 指的是形态,所以 morpheme 应用于表达形素。
抽象是必要的,但抽象是为认识世界服务的,抽象层次以方便认识为前提而非阻碍之。
语素的切分:对比原则
日语的例子:略,能析出至少两个语素,但还不能断定具体的语素数量。这告诉我们对比材料要足够充分。
傣语的例子:略
语素的判定:将句子切分到不可再分的片段,什么叫不可再分呢?即如果进一步切分,得到的片段找不到对比例子。回顾上述例子会更加形象。最抽象的“数学定义”已经在前文给出。
对比的必要性:
在有些情况下,调查者可以根据自己母语中的最小单位来询问被调查者,即母语语素所指代的意义在调查语言中的实现。由于人类语言的普遍共性(即大致相似的世界观与抽象层次),这种方法可以让我们较为方便的将语素限定在一个较小的范围,但是这种方法是不充分的,因为它是一种外蕴度量。对于一种语言是一个语素,它在另一种语言中的翻译则不一定是一个语素。相反使用对比原则切分语素则是一种内蕴度量。使用内蕴度量能够反映内禀性质。
我们可以根据把语素视为一种基底,把句子看成是这组基底的组合。假如我们想构造一种通用语言,那么其语素必须拥有最细的拓扑(即以理想义素为基底),即任何其他语言的语素都可以被它的语素表示,不存在互不表示的情况。汉语相当适合作为这种语言的蓝本,因为汉语是分析语,也就是说其中大部分的词都是语素,且语素几乎就是义素+形素+音节的三位一体(在其他模态上也是理想单位)。
一般语素和剩余语素
用上述方法切分出来的语素称为一般语素,还有一种情况是,当词中的所有一般语素都切分出来以后,剩余的部分既无法再切分,也找不到对比例子,这种情况下我们将它称为剩余语素。剩余语素的特点是,它总是依附一个一般语素出现。
猜想:一个词中至多只有一个剩余语素
在现代汉语普通话中,剩余语素譬如椴(树)、鲫(鱼),它们在古代汉语中是一般语素,但随着汉语词汇双音节化,逐渐依附出现,称为剩余语素。而随着语言的不断使用,原本的剩余语素也可能转化为一般语素。
语素归并
自由变体:亚 ya3 洲或亚 ya4 州两种语音形式,但作为亚洲的亚这一语素,其意义相同。因此可以将其归并为同一个语素的自由变体。
语素的自由变体不同于音位的自由变体,前者是意义相同这一条件下,有语音形式上的自由。而后者则是无条件的,譬如合口呼零声母,它在 wang,wan,wen 等不同情况语音条件下有相同的自由。这是自然的,因为语素的定义中额外要求意义的同一。这里之所以说自由,是因为意义的同一是大前提(已经被“语素的”自由变体这个限定词表达),自由是相对下文条件变体而言的。
条件变体:一、不在组词时的变音。这里除了意义相同外,变体出现还依赖于(语音)条件。
从这一点看,语素的自由变体类似与音位的条件变体,前者需服从同一意义条件,而后者需服从同一语音条件
语素与汉字、读音的关系
汉字基本是一个语素一个字,一个字一个音节,但三者并不等同
例如:
- 锁 1,锁 2(名词和动词两种意思,字形相同、读音相同)
- 框 1,框 2(名词和动词两种意思,字形相同,读音不同)
- 弯, 湾(意义不同,字形不同,读音相同)
- 胀, 张(意义、字形、读音均不同)
- 二, 两(意义相同,字形、读音不同)
古汉语中为了区分同字不同义的情况,使用了破读。譬如骑、食、饮
以上这种现象,尤其是 1、2、5,是否归并成一个语素见仁见智。究竟把两个语子视为同一个语素的变体还是两个不同语素,这个问题和我们在处理音位合并时相似。现代汉语中对语素的归并最终往往依照汉字的形态是否同一这一协议。
自由语素和黏着语素
自由语素:可以独立运用。譬如走、看、好。 这里接上了词的定义:可以独立运用的最小的语义成分。因而自由语素就是可以独立成词的。
黏着语素:非自由语素。譬如所有虚词,第、科。
注意黏着语素和剩余语素的关系:剩余语素一定是黏着的,但黏着不一定剩余。
语素和范畴化深度
不同语言的语素反映出不同语言的范畴化深度,从而反映出语言的世界观。
举例:汉傣英的亲属称谓语素分析
汉语侧重:直系/旁系、长幼、父系/母系、性别 傣语侧重:直系/旁系、长幼,但直系旁系区分不如汉语(不区分直系兄弟和旁系兄弟) 英语侧重:直系/旁系
在傣语中,兄弟姐妹被切分为同辈年长者语素+性别语素 在英语中,兄第姐妹被切分为兄弟/姐妹+长幼语素 因此我们可以从偏正结构中看出傣语更注重长幼而英语更注重性别。
词
词:能独立运用的最小语法单位。所谓语法其实是研究语素到句子之间的表达意义的单位的组合规则。
不规则组合:铁路,语言的特例 理解性规则组合:~子,~儿,有大批例子,但不是普遍的,仍然是语言的特例 生成性规则组合:买书、老张,普遍的。
词法和句法的界限:
词法主要研究不规则组合和理解性规则组合,即合成词、复合词。语素如何构成词。
句法主要研究生成性规则组合,这是句法结构的层次、譬如述宾、偏正。词如何构成词组和句子。
但由于历史传统,“老张”常常被划分为词法研究,“买书”则为句法研究。实践中,最重要的区别仍然是生成性规则和非生成性规则的区分。
语素作为句法单位的困难·词作为句法单位的必要性:
当我们研究词的组合时,会探讨词性质推导词组性质,这种推导主要基于生成性规则组合的规律。单独抽出这一层范畴,给予我们恰当的抽象层次和论域。事实上,区分下列三组矛盾的动机是一致的:
- 区分语素和词
- 区分词法和句法
- 区分不规则组合+理解性规则组合和生成性规则组合
语法单位组合的层次
组合的层次问题:一旦有两个以上的单位组合时,就会遇到组合的顺序问题,组合的顺序其实就反映了组合的层次。那么,
- 单位的组合有顺序吗?(如果没有就意味着它是可结合的,类似于结合代数)
- 如何判定组合的先后?
层次标记:在字面组合顺序发生歧义时,还可以用额外的层次标记来辅助。譬如数学运算中的括号。但是不同自然语言层次标记不同,有些是显性的,有些是隐性的。譬如在形态丰富的印欧语中,主语和谓语有一致关系,这本身就反映了主语和谓语是直接组合的。修饰名词和形容词有性、数、格的变化,说明形容词与修饰名词是直接组合的。而反过来汉语就缺少这样的标记用于确定层次。但人在说汉语的时候,听者能理解各种层次,说明存在一种潜在的标记在起作用(譬如停顿、重音)。层次分析理论就是为了找到这种潜在的标记。
直接成分理论:直接成分就是直接组成一个结构的成分。依次找出结构的直接成分的程序就是层次分析。
层次分析的原则(必要条件,即不能违反的原则):
- 切分出的片段是有意义的,完整的
- 切分的成分要有组合关系
- 切分的直接成分相加是整体的意义(生成性)
举例:
- 一根大萝卜
- 我看见的人
- 大红色
错误切分:
- 一+根大萝卜,“根大萝卜”没有意义,违反第一条原则
- 我+看见的人,违反第二条组合关系。因为二者都是名词性成分,无法直接相加,通常需要用的字连接
- 大+红色,违反第三条组合关系。
层次切分的充分条件则比较复杂,不作要求
观察发现,语言学分析中的必要条件容易确定而充分条件则较难确定
语法关系和功能
层次反映的是语法单位结合的亲疏顺序。语法关系则具体反映结合所依赖的关系,语法功能即是指语法类(名词、动词等等) 准确说包含三个因素:
- 直接成分的功能(名词、动词、名词性短语等等)
- 直接成分之间的关系(主谓结构、述宾结构等等)
- 结构的功能(似乎未举例?)
语义结构关系
举例:拜访的是老师,老师可以是施事也可以是受事。尽管这句话的语法结构是唯一的,但却存在两种不同的语义理解。因此存在不同于语法结构的语义结构。
直接成分、语类、结构关系的标注有 一般来说,在英语中语类可以推导出结构关系,譬如 NP+VP 为主谓关系,V+VP 为述宾关系,但汉语中不一定,譬如烤土豆是 V+N 但它可以是述宾也可以是偏正。
中心词分析
不同于层次分析的另一种分析方法。
示例:有些生活在美国的华人经常看中国大陆举办的春节晚会
类似于缩句,中心词分析比较实用,但层次不够清晰
语法歧义
语法结构造成的歧义,可以由语法结构的澄清得到语义上的澄清:
区分层次:
三个英语班的学生
- 三个(英语班的学生)
- (三个英语班)的学生
层次一致,区分关系:
- 烤土豆
- 烤土豆(偏正)
- 烤土豆(述宾)
语义结构造成的歧义,无法有语法结构的区分得到语义上的澄清(因为语法层次是一致的):
- 拜访的是老师
- 老师是施事
- 老师是受事
由于层次与关系都只有一种,因此无法从语法结构区分
除了语句的歧义,还有词义的多样性。它不是由结构造成的,而更多是由用法造成的。
经典例子:
阿呆给领导送红包,两人对话颇有意思(情趣,趣味)。
领导:你这是什么意思(意图)?
阿呆:没什么意思,意思意思(表达一点心意)。
领导:你这就不够意思(怎么能这样?)了。
阿呆:小意思,小意思(小小礼物,不成敬意)。
领导:你真有意思(情趣,意味)。
阿呆:其实没别的意思(意图)。
领导:那我就不好意思(表示碍于情面而只能怎样或不便怎样)了。
阿呆:是我不好意思。
转换分析
直接成分的线性组合并不能涵盖一切自然语言现象,有些现象跃出了这个范畴。例如:将他的军。这被称为非线性组合。这些无法用直接成分分析法解决的问题直接促使了结构语言学向转换生成分析法的转变。
在汉语中转换强调句子生成的机制,变换则强调句子分析。
词义和语义结构
概括性
概括性指对一类对象或现象共同特征的概括,体现为
- 一般性(忽略客体的个别差异),即客体的共相
- 模糊性(没有明确的边界),即对于一个客体是否归属于这一类,没有明确的边界
- 全民性(忽略主体认识的个别差异),即主体的共识
即矛盾的普遍性
实验:避免使用概括性词汇说话,结果是无法言说
概括性是必要的,人无法单纯凭借特称词发生交流。这是因为特称词所包含的信息对说者和听者而言是不对称的。有哲学家认为语言的抽象性是歧义产生的原因,因而主张取消语言的抽象性来消除人类之间的误解。这种想法是天真的。首先歧义产生的原因并不是语言的抽象性,而是由每一个人类个体的(先于语言的)感觉经验不同而造成的,语言歧义是主体感觉分歧的反映。而概括性恰恰生于这种歧义性,即矛盾的普遍性是寓于矛盾特殊性之中的。即后者是绝对的,前者是相对的。语言的抽象性恰恰是为了解决语言的歧义性而产生的。如果消灭了抽象性,那么语言恰恰就还原了单纯的矛盾的特殊性,即还原了复杂生硬的世界,这使得交流毫无可能。这种想法无法认识矛盾特殊性的绝对性,无法认识矛盾普遍性的相对性,无法认识前者对后者的决定作用,而倒果为因。
模糊性
实验:用精确信息描述人的特征,并以此寻找人
模糊性也是必要的。模糊性反映的其实是人类认识世界的模糊性(模糊是测量的内禀本质,即不确定性原理)。而模糊程度取决于具体的语境,即模糊是绝对的,而模糊程度则是相对的。
模糊和歧义的区别:模糊是边界的不确定而歧义是中心的不确定。
一词多义
维特根斯坦:意义即用法
与其将词义定义在类上,不如定义在实例上。
义位:意义的最小单位
单义词:只有一个义位
多义词:一个词有多个义位,这些义位间有相互联系,是一种词义的聚合。
从历时的角度看,多义词的多个义位往往有一个中心义,然后引申出其他义位。
语义的派生
现实基础:本义和派生义所指的关联
文化基础:不同语言的约定俗成
这两者分别确定了引申的两种方式:
- 隐喻:基于相似性的引申
- 转喻:基于语境固化的关联
推荐阅读《我们赖以生存的隐喻》
论元结构和歧义
论元结构,受和数理逻辑和化学的启发
动词所带的语义成分被称为论元/语义格/题元,所搭配的数量被称为该动词的价位。如:
房子(客事)垮了。垮:一价动词,论元结构一价,一元谓词。
家长(施事)拜访老师(受事)。拜访:二价动词,论元结构二价,二元谓词。
老师(施事)给家长(与事)一封信(受事)。给:三价动词,论元结构三价,三元谓词。
邵(施事)告诉汪(与事)郭有一个漂亮的儿子(命题)。告诉:三价动词,论元结构三价,三元谓词。
动词与论元的关系即为语义结构关系
论元歧义分析标注:通过确定论元所扮演的语义角色来澄清歧义
- 来的是小孩[施事]
- 看望的是小孩[施事、受事]
- 看望(某人)的是小孩[施事]
- (某人)看望的是小孩[受事]
- 送的是小孩[施事、受事、与事]
- 送花的是小孩[施事、与事]
- 送医院的是小孩[施事、受事]
- 我送的是小孩[受事、与事]
- 送医院鲜花的是小孩[施事](小孩送医院鲜花)
- 我送医院的是小孩[受事](我送小孩进医院)
- 我送鲜花的是小孩[与事](我送小孩鲜花)
可以看到,在论元价位未填满时,语义成分有充当多个角色的可能,这引发了歧义。
语义结构是否是引发歧义的唯一原因?譬如歧义是否可能由动词本身的论元结构不同引起?
组合关系的三个层面
- 主语-谓语
- 施事-行为
- 主题-述题
文字
本章记录较简略,因为我之后会读裘锡圭的《文字学概论》
文字使得信息传播更为广远,使复杂思维活动得到充分展开。
文字源于图画
文字和图画的区别:图画没有规范性,对图画的解读不同;文字具有规范性,对文字的解读是唯一的。
判定文字的基本原则:只有当文字按顺序固定的对应语言中的语素时,才所谓文字。即文字是语言的附属,而不是直接刻画现实的东西。
语言的产生时间估计为十万到二十万年前。
图画到文字的过渡阶段:东巴文、彝文
文字分类:
- 表音文字:
- 音位文字:如英文
- 辅音文字:如阿拉伯文
- 音节文字:如日文的假名
- 意音文字/语素文字:如中文
意音文字延续之谜:世界上曾经存在的意音文字,只有中文、东巴文和彝文延续至今。所有的原生文字都是意音文字,意音文字的发展基本有四种情况:
- 随着语言文化的消亡,文字所书写的文本变成死文献。如赫梯意音文字。
- 一种意音文字所记录的语言被消亡,新的语言借用并简化了这种文字,这是意音文字向拼音文字过渡的途径。苏美尔楔形字、古埃及文字最后走向拼音文字就属于这种情况。
- 一种意音文字在记录同一种语言的过程中完成了由意音文字向拼音文字的转变,条件是意音文字不是该语言的原生文字,并且意音文字所书写的文本不是很丰富。如日本、朝鲜的汉字向拼音文字的转换。
- 一种意音文字始终记录着同一种语言,并且是该语言的原生文字。意音文字为了继承文本和统一方言,一直保持着意音特征。如中国汉字。
汉字的情况尤其值得注意。没有哪一种文字在进入到表音文字阶段时发展到汉字这样一种完善的程度、记录了这样多的文本。意音文字发展得越完善,体系越繁杂精密,延续时间越长,记录文本越多,越不容易迈入拼音文字。加入汉朝人创造一种崭新的拼音文字,在继承文化遗产上就会遇到障碍。汉字发展到这样一个超稳定状态,使得废弃汉字的代价极大。
老师提到中国一直保持意音文字,是由于继承文本的目的。这体现了中华文化早熟(拥有大量文献)。但历史也告诉我们,六国文字已经相当的简化,唯独秦国文字最古。也许汉字之保存也是历史的偶然。
汉字对汉语的反作用:语音上的单音节化
语言演变与语音对应
人类非洲起源假说:人类祖先 化石分布
语音演变的规律性
中古浊音声母清化:平送仄不送
中古软腭声母硬腭化:开口、合口不变,齐齿、撮口变。
语音演变的条件:语音条件、时间、地点
音变规律:在特定的语法、语用、社会等因素条件下,在一个语言系统内部,在相同的时间、空间、语音条件下,相同的语音必然发生相同的变化
语音对应:不同语言中相同的字的读音有对应关系。这种对应通过音变规律的同一性反映了语源的同一性(原像相同,像对应)。反过来,如果语言之间存在对应关系,可以猜测二者共祖。譬如印欧语系的发现。
排除偶然对应
同源词对应来确定语言的谱系
语言接触
语势
强势文化语言强势。语言越强势,其人口掌握的语言种类的越少(因为没必要)。强势语言决定了多民族接触时的对话状态,即作为多民族的通用语。
语言接触的塔式结构:略
接触的有向性
接触的有向性其实是一种不对称性。譬如在汉-傣接触中,存在下列连续统:
母语 | 第二语言 | 民族方言 | 目标语言 | |
---|---|---|---|---|
傣族 | 傣语 | 傣汉语 | 汉傣语 | 汉语 |
汉族 | 汉语 | 汉傣语 | 傣汉语 | 傣语 |
我们称傣汉语为傣族所说的汉语,对于傣族而言这是一种第二语言,而对于汉族而言这是一种汉语方言。反之。
- 母语干扰对象语言:傣族在说汉语时,会有母语干扰,譬如不分平翘。这会影响到当地汉语。很多汉语方言的兴起源于此。
- 对象语言借贷母语:强势语言特有的概念乃至常用词都会反作用影响母语。
自然接触和非自然接触
接触时规律不具有普遍性
自然接触:两个语言群体的共同生活。口语学习先于文本学习。
非自然接触:文本接触先于口语。
我猜想人类经验性的语言学习其实优于反思性的语言学习。也即先经验后反思而非先反思后经验。
方言接触和文白异读
方言与普通话/官话(历史上的强势语言)接触时产生文白异读现象。其中文读指受普通话影响的读法,白读指方言原生读法。越是接近学术的、正式的词越容易使用文读(因为他们常常不是方言的固有词,而是从普通话传播而来),贴近生活的词则使用白读。
语言转用和基因的关系
Y 染色体不可重组基因标记为确定男性人群谱系提供了条件,但人群谱系的抽样是根据语言来确定的,而语言是可换用的,因此不可重组标记可在人群之间扩散。
二语与母语转用的特殊情况:洋泾滨(二语)向混合语(母语)的转用
语源关系判定
同源关系还是接触关系?
语言对应是同源关系的必要条件,却不是充分的。因为发生语言接触的非同源关系也可能有大量的借词对应。
语言接触的阶段性:借词的侵入是阶段性的,由非核心词向核心词渗透。可以通过分析这些非核心词和核心词的对应分布来区分同源关系和接触关系。
借词是作为一个基本语素进入还是一个单词进入。
总结
语言学各分支研究的最小单位及其层次关系
总体讲得很好,但是北大录课未免随意了些,前后课时内容衔接不上,时而有黑屏,时而收音效果很差。