汉语词汇统计研究
王惠
新加坡国立大学中文系
*************.sg
1、词汇统计概说词汇统计研究是汉语词汇学的一个重要方面,它可以通过对汉语词汇的各种现象的量的描述得出质的评价,从而揭示汉语词汇的各种统计特性。这种统计研究可以由人来做,也可以由计算机来做。
从词汇研究的角度来看,词汇统计研究已有很长的历史了。古印度语言学家在研究婆罗门教的经典《吠陀经》时,就进行过单词数目的统计。1898年德国学者F.W.Kaeding编制了世界上第一部频率词典《德语频率词典》。1944年,英国数学家G.U.Yule发表了《文学词语的统计研究》,大规模地使用概率和统计方法来研究语言。1949年,法国学者R.Michea提出建立“统计词汇学”。1965年,德国学者R.D.Keil把词频统计与现代统计学结合起来,提出了“词汇计量学(lexicometric)”。
近40年来,由于语言统计研究中广泛地采用计算机,逐渐改变了传统的手工查频、手工统计的办法,提高了统计的效率和精度,词汇统计学在国际上有了巨大的发展。
我国也早在20世纪20年代就进行过汉语词汇的统计研究。70年代末以来,我国开始利用计算机进行汉语词汇的统计研究,除了统计字、词频度以外,还以此为基础建立了汉语的语料库,编制了各种频率词典、词表,并对现代汉语的常用字、常用词、构词规则等进行
1
了多方面的研究,取得了可观的成绩。2、二三十年代的汉语基本词汇统计
在汉语教学中,究竟应该选择哪些字最先教给学生?哪些字是最常用的?哪些是次常用的?一个人至少要掌握多少字,才可以完成基本的阅读与写作?所有这些,无疑是语文教学首先就遇到的问题。因此,编选常用字表给学生学习使用就成了中国语文教育的传统。《千字文》(1000字)、《三字经》(1248字)是古代汉语教学的重要模式。我国第一个进行现代意义上的字频统计分析,是语言学家黎锦熙在1922年发表的《国语基本语词的统计研究》(《国文学会丛刊》1卷1号)。其后,教育学家陈鹤琴根据6类材料55万汉字,历时两三年,选出了4261常用字,1928年6月完成了《语体文应用字汇》。此外,王文新也编写过《小学分级字汇研究》一书。1934年,彭仁山对三民主义用词作了一些统计与分析①。1946年,四川省教育科学院颁发了《常用字选》,收录2000个字。
这些统计都是手工查频,材料零星分散,而且统计单位只限于汉字。
3、五六十年代常用字词的统计
建国以后为了推广普通话、普及文化知识,首先就要编写识字教材。为了避免汉语教学大纲设计和教材编写的主观盲目性,提高教学效率,中央人民政府和各省的教育部门都很重视对汉语常用字词的统计,陆续公布了一些基于频度统计的字表和词表,如:
《常用汉字登记表》(1017字)——1950年9月,中央人民政府教育部社会教育司
《常用字表》(2000字) ——1952年6月,中央人民政府教育部
《普通话常用字表》(3000字)——1958年8月,山东省教育厅
2
《普通话三千常用词表》(3000词)——1962年,中国文字改革委员会
《外国学生用四千词表》(4000词)——1964年,北京语言学院
《常用字表》(3100字) ——1965年3月,北京市教育局
本阶段的词汇统计工作基本上都是面向初级的语文教学,常用字的字频手工统计,占了绝对优势。词频统计刚刚开始,而且规模一般比较小。统计结果也只是用来编写常用字表或词表,相关的词汇研究尚未真正展开。4、 七八十年代利用计算机进行的大规模词频统计
70年代中期以来,随着计算机处理非数值信息技术的日益提高,语言教学与研究中开始利用计算机作为辅助工具。汉语词汇统计也摆脱了传统的手工查频,逐渐采用人机结合的办法,利用计算机进行自动统计分析,提高了统计的效率和规模,而且统计单位也从字扩展到了词。汉语词汇统计研究提高到一个新的水平。
4.1 字频统计
1975~1976年,北京新华印刷厂等19个单位发动了1500名中学生对出版物中的2162万字的材料进行统计,编成《汉字频率表》。这是我国利用手工查频规模最大的一次字频统计。
1976年12月,中国“七四八”工程查频组首次利用计算机对汉字的频度进行统计,根据对2100余万字的语料的统计结果,得出《现代汉字综合使用频度表》,其中包含常用字4152个,为中文信息处理的国家标准GB2312-80《信息交换用汉字编码字符集——基本集》提供了科学的基础数据。
彭仁山,三民主义用词统计与分析,3 《教育研究》第52期,1934年
①
1976年,武汉大学语言自动处理研究组在RD-11计算机上,也曾对《骆驼祥子》进行字频统计,计算出该书总字数为107306个,单字2413个,在一定程度上揭示了该书用字的特点。
1982年11月,国家标准局给北京航空航天大学等10个单位下达了“现代汉语词频统计工程”的任务,后来,北航又受中国文字改革委员会的委托,利用HP-3000计算机,从3亿汉字的素材中抽取了1108万字的样本进行统计,1985年3月,工程完成,通过了国家鉴定。统计结果编成《现代汉语用字频度表》,其中包括以下十种用字频度表:文体生活、历史哲学、政治经济、新闻报道、文学艺术、建筑运输、农林牧渔、轻工业、重工业、基础知识用字频度频度表。这是我国规模最大、分科最多的一次字频统计工作,并首次进行了多音字统计。
在此基础上,1988年,国家语言文字工作委员会汉字处制定了《现代汉语常用字表》,它把汉字的使用频率与该字在各个学科中的分布情况综合起来考虑,从1928~1986年的不同学科的语料中,选取使用频度高、学科分布广、构词能力强的2500字作为常用字,频率及使用度次之的1000个字则定为次常用字。山西大学计算机系通过抽样统计200万字的语料对该字表进行检测,发现这2500个常用字覆盖率可达到97.97%,1000个次常用字覆盖率达1.51%,合计(3500字)覆盖率达99.48%,效果令人满意。
4.2 词频统计
由于书面汉语不是按词分写的,而是以汉字为单位逐个书写的,词与词之间的界限以及词和语素、词组的划分,都缺少明显的依据。词的定义成为长期以来困扰着汉语词汇学界的一道难题。因此,汉语大规模的统计研究多年来一直停留在以字为单位的阶段上。比起常用字来,常用词的统计起步晚,难度更大。直到80年代以后,随着汉语词汇研究的深入和中
4
文信息处理技术的进步,我国在词频统计方面才开始大规模地开展工作。
进行词频统计,首先要从连续的汉字串中把词且分出来。切词的方式有人工切词和计算机自动切词两种。在现有的词频统计中,大多数采用人工切词,凭借人的词汇、语法知识和对上下文的理解,使词与词只间留出空白。
从1979年末至1986年,北京语言学院语言教学研究所把“现代汉语词汇统计研究”列为重点项目,对不同体裁的200万字语料进行了人工切词和抽样统计,不仅对词频进行统计,而且同时兼顾字频、组词能力和词长的统计分析。统计结果分别列成:
⑴按音节排列的频率词表;
⑵使用度最高的前8000词词表;
⑶频率最高的前8000词词表;
⑷使用度最低的词语单位表;
⑸按报刊政论、科普书刊、日常口语、文学作品分别列出的频率最高的4000词表(4个表);
⑹按递降顺序排列的汉字频率表;⑺汉字在词首、词间和词末的构词能力分析;
⑻其它附表。
该项目的成果编成《现代汉语频率词典》一书出版。这是我国最早的一部字词统计兼顾
5
的频率辞典。统计结果具有很高的客观性、准确性①。
此外,该项目组成员还与中国社会科学院语言研究所合作,统计了全国中小学统一使用的十年制语文课本,出版了《汉语词汇的统计与分析》。他们发现,总字520934个字的课本中共包含的不同的词18177个,平均词长为1.98个汉字。频率最高的1000词,共出现278448次,占全部语料词次总数的74%强。这些词由731个汉字组成,其中频率最高的前10个是“的、一、了、我、是、在、不、们、人、有”,它们占全部语料总字数的14.9%,前100个汉字占全部语料总字数的41.1%,731个汉字全部语料总字数的63.9%,其常用程度和重要性显而易见。基于这些数据,课题组对731个汉字的构词能力进行了进一步的研究。他们还根据不同音节的词的数量与覆盖率的对比提出:在静态的环境中,单音节词占的比例较小,但在使用语言的动态过程中,单音节词所占的比例则比双音节的比例大得多。这为汉语词汇教学和研究提供了有价值的基础资料。
北京师范大学现代化教育技术研究所,也利用计算机进行了中小学教材的词频统计工作。在对106.8万的语料人工切词的基础上,建立了一个含有39601个词的频度词表。在704841个总词次中,单音节词占52.7%,双音节词占43.8%,三音节词占2.6%,四音节以上的词占0.9%。可见,在语言使用过程中,单音节词仍比双音节词占优势。
这一阶段中,规模最大的汉语词频统计应是1982年国家标准局下达的“现代汉语词频统计工程”项目,由北航等10家单位联合攻关,从1919~1982年的社会科学和自然科学的3亿汉字的材料中抽样2500万字的语料,分时期、分学科地进行词频统计。统计结果为汉语自动切词、汉语标准词库、电子辞典等一系列语言工程奠定了重要基础。
总之,80年代可以说是我国的字频统计由小到大、词频从无到有、并取得辉煌成就的
①
李兆麟,汉语计量研究初探,《辞书研究》1986年第4期
6
时代。“汉语词汇统计研究所得出的各种成果,不仅为编制基本词库、通用词库、专用词库等提供科学、可靠的语料基础,而且因相关影响而带动的语音、口语、句法、文字等方面的统计研究成果也将为编出相应的正音词典、正字词典、口语词典、句法词典等工具书创造了可能性。……从而推动语言学理论研究和词典学研究的深入发展①”。
5、九十年代基于统计的词汇研究
进入九十年代以后,汉语的词汇统计一个显著的变化是,不再仅仅只是为编制词表而进行常用字词的统计,而是利用统计的成果,针对某一专题展开多方面的深入细致的汉语词汇计量研究,如刘英林、宋绍周(1992)在《现代汉语常用字表》的基础上,针对对外汉语教学的需要,进行了汉语常用字词的统计分级研究②。下面我们分为4个方面来详细介绍:
5.1 汉语语素的定量研究
1984年,尹斌庸对《汉字频度表》中累积频率99.94%以上的4200字逐个分析,得出单音节语素4871个。他从词性、独立性、构词能力三个方面对这4871个语素进行手工定量分析。结果发现,名语素占41%、动语素占38%,形语素占13%,三者占总数的92%,是语素的主体部分。在独立语素中,动语素占48%,遥遥领先。名语素占29%,形语素占10%,其他8类语素仅占13%。另外,将近一半(49%)的单音节语素可以独立使用。名、动、形三类语素的平均构词力按大小顺序排列是:名18.8,形17.1,动14.0③。
1994年清华大学计算机系利用计算机建立了一个大规模的数据库,“它对覆盖汉语的6763个常用字的汉语语素及其所构成的二字词、三字词、四字词进行了穷举描述。在汉语
常宝儒,关于《现代汉语频率词典》的编纂问题,《辞书研究》1986年第4期 ②
刘英林、宋绍周,汉语常用字词的统计与分级,《中国语文》1992第3期 ③
尹斌庸,汉语语素的定量研究,《中国语文》1984年第6期
①
7
语素数据库中共有语素项17470个,语素10442个,二字词78230个,三字词6700个,四字词14200个。这个数据库共有116600条记录①”。 统计数据表明,在这10442个语素中,单字语素有9712个,占总数的93%,二字及二字以上的语素为730个,占7%。成词语素2878个,半成词语素432个,待界定语素1148个。由这些语素构成的二字词共43097个,其中名词22016个,占51.1%,动词15666个,占36.4%,形容词3276个,占7.6%,三类词占二字词总数的95%。但无论是名词、动词还是形容词,绝大多数语素在构词时意义都保持不变,所占比例分别为:87.8%、93.2%、87.0%。
5.2 汉语构词规则的定量研究
80年代中期,北京语言学院在对200万字语料进行词频统计的同时,对每个汉字在词首、词间和词末的构词能力也分别做了统计分析。这是我国第一次用精确的数据反映出汉字处于不同位置的构词能力的系统。计算机根据这些数据可以自动编成构词词典。
1994年清华大学计算机系以10442个语素的属性描述为基础,对汉语二字复合词的构造规则进行了统计分析。由这些语素构成的二字词共43097个,其中,名词占51.1%,动词占36.4%,形容词占7.6%。通过进一步的统计分析,发现这三类词各有不同的构词规律。
名词的主要构词方式是定中式和联合式,约占二字名词的90%。其中,“名+名”构成的定中式数量最多,占46.7%,“形+名”构成的定中式次之,占20.6%,再次是“动+名”构成的定中式和“名+名”构成的联合式。如果只从构词成分的词性来看,“X+名”构成名词的最多,占89.8%,其中“名+名”占57.2%。
①
苑春法,黄昌宁,基于语素数据库的汉语语素机构词研究,世界汉语教学,1998年第2期
8
动词的主要构词方式为联合式、述宾式和状中式,占总数的90.1%。主要的类序为:“动+动”占44.7%,“动+名”占34.1%,“形+动”占7.2%,合计占96%。
形容词的主要词方式为联合式,占62.5%。主要的类序是“形+形”,占67.3%。其他的类序都很少。
1997年,北京语言文化大学完成了“汉语构词基本字的统计分析①”课题。该项目以国家语委和国家教委1988年公布的《现代汉语常用词表》中的3500个汉字为基础,首先找出《现代汉语词典》、《现代汉语词典补编》、《新词新语词典》(李行健主编,语文出版社,1989)中由这3500字构成的词条70343个,其中包括单音节词4555个,双音节词496415个,三音节词8308个,四音节词6922个,五音节词702个,六音节词215个。然后对每个汉字的构词次数及位置进行统计分析,得到“汉字构词统计表”和“汉字构词手册”两份材料,并根据构词率的大小,把3500个常用字划分为5个等级,确定其中的1056个字为汉语的构词基本字。
这种对汉语构词规则的大规模的统计分析,不仅有助于解决中文信息处理中的未定义词识别,而且为汉语构词法研究提供了一个更加客观的基础。
5.3 汉语词汇地域分布的定量研究
1991~1997年,香港理工大学中文及双语学系历时6载,完成了《中国大陆、台湾、香港汉语词库》,从1990~1992年的大陆、台湾和香港的报刊中选取600万字的语料,共有60811个汉语词条,进行词频、覆盖率、使用度的统计分析。这是迄今为止已经完成的语料地域分布涵盖整个汉语文化圈的第一个汉语语料库。陈瑞端、汤志祥(1999)以此为
①
张凯,汉语构词基本字的统计分析,《语言教学与研究》1997年第1期
9
基础,通过检索和统计,对90年代通行于“两岸三地”的汉语词汇进行了定量分析①。
从地域角度来看,京、台、港三个语言圈是彼此相互交叉的,三地共用的“三区域共同词语”应该认为是当代汉语词语的共同底层,而某两个区域里通行的“双区域通用词语”应是“共同底层”的外延,是共同词语的直接补充部分。仅在某一区域内使用的“单区域独用词语”,是京、台、港三地之中各自表层的部分,是共同词语的预备补充。
统计结果表明,当代汉语词语虽然存在着地域差异,但“三区域共同词语”无论在数量上(占90%)、使用频度上(集中于高频段与中频段)、覆盖率上(达到95%)都占了绝对优势。“双区域通用词语”和“单区域独用词语”不到总数的10%,而且大都集中于低频段。所以说,京、台、港三个区域词语的相同之处仍是主流,并可以进行如下分级:甲级词(最常用词) 1200个,乙级词(次常用词)2500个,丙级词(常用词)2500个,丁级词(通用词)6500个。“三区域共同词语”的高频率与高覆盖率使得三地的汉语交流90%程度上没有障碍,它依然在当代汉语中占据核心的地位。
5.4 基于统计的中文人名自动识别
大规模的汉语词汇统计工作不仅为词汇学、词典学研究提供了科学的量化指标,推动语言学研究逐步走向精密化,而且也有力地促进了中文信息处理技术的发展。字频、词频的统计结果直接指导着信息处理用汉字基本字符集、分词词表、电子词典的制定,复合词构词规则的量化分析大大提高了计算机对新词的处理能力。近年来,人名、地名等无法穷尽收录的专有名词的自动辨识技术,也广泛地吸取了和那与词汇统计的成果。
80年代,中国国家语言文字应用委员会与山西大学合作,抽样复制了1982年全国人
①
陈瑞端、汤志祥,九十年代汉语词汇地域分布的定量研究,《语言文字应用》1999年第3期
10
口普查资料,利用MC-68000计算机,对174900个人名进行抽样统计,统计材料取自北京、上海、辽宁、陕西、四川、广东和福建7个省市①。统计结果表明:现今仍在使用的中文姓氏远没有某些姓氏典籍所列举的那么多,统计共得729个姓氏,而且分布很不均匀,频率最高的“王、陈、李、张、刘”5个姓占了总样本数的32%,前114个姓占90%,前365个姓占99%,其余364个姓仅占不到1%。人名用字则比较分散,共得3345个,频度最高的“英、华、玉、秀、明、珍”6个字的覆盖率达10.35%,前410个为90%,前1141个为99%。名字用字多使用褒义字或中性字。
根据中文姓名用字的这种概率特点,清华大学计算机系开发了一种基于统计的计算机自动辨识姓名的软件。通过测试,准确率为70.06%,召回率(文本中的姓名被辨识出的比例)则达到了99.77%,使困扰着中文信息处理学界多年的专名识别难题得到了初步解决
①
中国社会科学院语用所,《姓氏人名用字统计分析》,语文出版社,1990
11
因篇幅问题不能全部显示,请点此查看更多更全内容