搜档网
当前位置:搜档网 › 国家语委语料库

国家语委语料库

国家语委十五科研重大项目-现代汉语语料库的建设及深加工

国家语委语料库科研成果简介


教育部语言文字应用研究所计算语言学研究室

一、国家语委现代汉语语料库介绍

语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基
于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有
“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字
信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建
立了大规模的语料库,如英国国家语料库 BNC等。我国从 1990年开始由国家语言文字工作
委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国
家语委现代汉语语料库。

国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文
字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目
标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领
先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的
长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地
反映现代汉语全貌。

国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约 40个小类组
成。具体类别如下:

1.人文与社会科学类划分为 8个大类和 30个小类:(1)政法:哲学、政治、宗教、法
律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、
新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美
术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、
体育;(8)生活。
1


2.自然科学划分为 6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3.综合类语料由应用文和难于归类的其他语料两部分组成。应用文使用很广泛,主要
涉及以下 6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;(2)
章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩
护词、控告信、委托书等;(4)商业文告:说明、广告、调查报告、经济合同等;(5)礼仪
辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假

条、检讨、申
请书、请愿书等。
国家语委语料库的语料样本包括 24个详细信息:

数据项 名称
a1 总号
a2 分类号
a3 样本名称
a4 类别
a5 作者
a6 写作时间
a7 书刊名称
a8 编著者
a9 出版社
a10 所在省
a11 出版日期
a12 期号

a13 版次(初版印数)
a14 本版印数
a15 总印数
a16 总页数
a17 开本
a18 选择方式
a19 起止页数
a20 样本字数
a21 样本总字数
a22 文章总字数
a23 简繁体
a24 抽样文章

国家语委现代汉语语料库的数据量包括新增的 1000万字新语料已经达到了 1亿字,已
经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料
以及1992~2002时间段的部分语料。

二、国家语委语料库建设与深加工

1.主要科研成果
国家语委现代汉语语料库建设已经完成的主要内容是:
2


1)完成 5000万字语料词语切分和词性标注加工。词语切分校对精度达到万分之五,词
性标注精度达到千分之五。在语料库加工过程中研发了语料库加工、词类标记集等规范和词
语切分和词性标注、语料库校对、语料库管理、语料检索、查询统计等一整套的计算机软件
工具,功能齐全,用户界面友好。
2)100万字(5万句)句法树库建设完成。在句法树库建设过程中研发了树库加工规范
和树库句法分析器、树库校对工具等计算机软件。
3)按规则补充了新语料,国家语委语料库总字数达到 1亿字。
国家语委语料库建设的主要科研成果如下:
1)5000万字带有分词和词性标注的汉语语料
2)语料库加工规范
3)1000万字新语料,语料库总规模达到 1亿字
4)词语切分和词性标注软件
5)100万字(5万句)句法树库
6)树库加工规范
8)树库标记集规范
9)语料库词语切分和词性标注软件
10)语料库校对加工工具软件
11)语料库质量检查工具软件
12)语料库例句检索工具软件
13)语料查询与统计工具软件
14)语料库管理工具软件
15)树库句法分析器软件
16)树库校对软件
17)相关研究论文
2.语料库的加工标注
标注语料库达 5000万字,在规模、加工精度、平衡性、加工技术等多方面都达到了国
内外领先水平。

1)语料库规模
总字符数达 5000万(包括汉字、数字、西文字母、标点符号等等)。
3


2)语料时间分布
时间跨度为 1919年~2002年,以近 20年的语料为主。
国家语委语料库语料样本的时间分布:
4500000
4000000
3500000
3000000
2500000
2000000
1500000
1000000
500000
0



年份

3)语料领域分布
分 13个大类,40多个小类,100多个详细分类。
国家语委语料库语料样本的领域

分布:
30000000

25000000

20000000

15000000

10000000

5000000

0


字数

文学社会经济报纸其他政法
艺术科技农林历史生化数理
医药卫生天文地理海洋气象行政公文工业生活
军体行政文书实用文书司法文书商业文告礼仪辞令

4


4)标注加工
国家语委现代汉语语料库加工遵循国内外信息处理领域通用的语料库加工路线,重视为
语言学研究服务,采用机助人校的加工方式,通过开发语料库切分标注、校对、质量检查等
软件工具来提高校对精度和控制加工质量。在加工过程中制定了《信息处理用词类标记集规
范》等语料库建设规范。为兼容不同词语颗粒度,专门建立了层次化结构化的分词词表,分
词词表的词条数量超过 88000条。

国家语委语料库结构化词表示例:

序号 词 主要词类 结构
1 工具 n 工具/n
2 工具包 n [工具/n 包 /n]/n
3 工具栏 n [工具/n 栏 /n]/n
4 工具书 n [工具/n 书 /n]/n
5 工具箱 n [工具/n 箱 /n]/n
6 工科 n 工科/n
7 工矿 jn 工矿/jn
8 工矿企业 n [工矿/jn 企业/n]/n
9 工联 jn 工联/jn
10 工龄 n 工龄/n
11 工贸 jn 工贸/jn
12 工贸结合 n [工贸/jn 结合/v]/v
13 工农 jn 工农/jn
14 工农兵 jn 工农兵/jn
15 工农红军 n [工农/jn 红军/n]/n
16 工农联盟 n [工农/jn 联盟/n]/n
17 工农业 jn 工农业/jn
18 工棚 n 工棚/n
19 工期 n 工期/n
20 工钱 n 工钱/n

标注语料库主要词类分布频率表:

5


0
1000000
2000000
3000000
4000000
5000000
6000000
词类
n v w u d a r p m c nt nd vl q vu nh
ns i nl vd mq ws k j ni nhf h nhs e o0
1000000
2000000
3000000
4000000
5000000
6000000
词类
n v w u d a r p m c nt nd vl q vu nh
ns i nl vd mq ws k j ni nhf h nhs e o
5)国家语委语料库标注语料样例
样本编号:BF29701101
样本名称:鸟的世界
类别:文学·散文
作者:杨栋
出版时间:1997-12-11
书刊名称:人民日报

鸟/n 的/u 世界/n
杨栋/nh
鸟/n ,/w 是/vl 大自然/n 的/u 歌手/n ,/w 鸟语/n 就是/vl 大自然/n 的/u 音乐/n 和

/c 诗歌/n 了/u 。/w

山村/n 里/nd 的/u 鸟/n 除了/p 麻雀/n ,/w 就/d 数/v 燕子/n 多/a 了/u 。/w 村/n 人
/n 对/p 燕子/n 很/d 爱护/v ,/w 说/v它/r 吃/v 庄稼/n 的/u 害虫/n ,/w 常/a吓唬/v
孩子/n 们/k 不要/vu 去/v 玩/v 燕子/n ,/w 会/vu 坏/v 自己/r 的/u 眼睛/n 。/w 有时/r
光/v 屁股/n的/u 小/a 燕/n 掉/v 下来/vd ,/w 也/d要/vu 送回/v 燕/n 窝/n 里/nd 去
/v 。/w

3.句法树库的加工标注
在标注语料库的基础上,项目还完成了 100万字(5万句)的句法树库建设。
句法树库是一项重要资源,它将为汉语语言研究和信息处理提供数据平台,推动理论和
应用的发展。

1)句

法标注作为分词、词性标注和语义标注的中间环节,有着承上启下的重要作用。
6


一个好的句法树库将为下一步的语义标注工作打下良好基础。

2)句法树库蕴涵丰富的句法信息,它为研究者提供带有句法标记的汉语真实文本素材,
使之能够从中获得有关句法的各种信息。例如从词类入手,可以考察某一特定类别词语的句
法功能(在真实文本中所处的句法环境);从短语功能类型入手,可以考察某一特定类型短
语的内部构造模式,等等。
3)句法树库可以进行数据统计、例句抽取等工作,为汉语教学科研、信息处理、词典
编纂等领域的研究提供高质量资源。
句法树生成软件综合了现代汉语的词类、句法功能、句法结构等方面的信息以及一些
规则,可以对输入的汉语句子做初步的句法分析,得到带有词性标记、短语功能标记和短语
结构标记的句法树。

三、国家语委语料库建设计算机软件系统

1.语料库词语切分和词类标注工具软件
输入:语料文本
输出:词语切分和词类标注语料
a)语料切分标注
词语切分和词类标注:
7


大规模语料的切分标注:


b)切分结果层次(结构)化:
8


切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。

2.机助人校的语料校对工具软件
校对软件界面:
..校对者可与后台词典交互,直接获取词和词类信息
..软件自动通过色彩标识出语料校对信息
..严格的自动格式检查,防止用户误操作等带来的错误
..查找和替换提供快捷操作
..限制用户的编辑,提供局部有效的自由编辑模式
..校对文件多备份,最大限度防止数据丢失
校对软件还记录校对者的所有操作,并反馈给后台切分标注软件,切分标注软件根据校
对信息自动学习,提高切分标注精度。

3.语料库校对质量检查软件
输入:词语切分和词类标注语料
输出:词语切分和词类标注语料,质量检查结果,语料校对记录
质量检查软件主要完成语料抽样检查和人校机助的辅助工作,通过随机抽样来检查语料
校对加工的质量。

9


4.切分标注语料库的定制输出
输入:语料文本
输出:定制的语料文本
定制输出是指根据用户需求,对词语按照不同的颗粒度输出。
语料库定制通过层次化(结构化)的切分词表实现。可定制的范围由词表的加工程度决
定。


10


5.语料库例句检索软件
语料库例句检索软件可以根据用户要求从语料库中提取相应的语句。例句提取软件还可
以提供例句的出处、作者、时间等详细信息。


6.语料库查询统计软件
语料库查询统计软件

可以根据用户的要求按时间、类别、作者、出版社等项目检索语料库,
并进行字频、词频、词类使用频率等方面的统计。
软件提供时间、作者、类别、出版社等项目供用户对语料进行查询定制。


11


统计项目目前包括字频、词频、词类频率统计等。


7.句法树库
树库句法分析器,分析器自动标注语句的内部结构和外部功能。
句法树库校对工具软件提供多样化的句法树形式为提高树库校对的效率和质量提供了
保障。

12


四、国家语委语料库的应用

目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部 863计划
课题智能中文信息处理平台、中文信息处理应用基础研究项目以及 973计划课题中文语音语
言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、
厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也
为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。

国家语委语料库可以提供的服务:

1.语料库(标注语料库、生语料库)使用权;
2.分词词表;
3.句法树库( 100万字);
4.语料库相关软件;
5.根据用户需要提供检索、统计、查询、测试等服务。
国家语委语料提供服务主要通过四种方式:

1.通过签订使用权许可协议向对方有偿提供语料库用于科研;
2.利用语料库的相关技术提供数据、技术支持等有偿服务;
3.国家语委、语用所科研项目内部提供的无偿服务;
4.为从事汉语教学科研的学生学者提供无偿服务。
13


四、发表的相关研究论文

1)靳光瑾等编著,《中文信息处理若干重要问题》,科学出版社,2003
2)靳光瑾,谈语料库建设与规范标准问题,《中文信息处理若干重要问题》,科学出版
社,2003
3)靳光瑾,肖航,富丽,章云帆,《语料库建设-标准制订和质量检查》,第 3届语言
文字应用研讨会论文集,2003年 11月
4)靳光瑾,郭曙纶,肖航,章云帆,语料库加工中的规范问题 ——谈《信息处理用现
代汉语词类标记集规范》,《语言文字应用》 2003年第 4期
5)肖航,靳光瑾,《现代汉语词语切分歧义数据库构建》,第 3届语言文字应用研讨会
论文集,2003年 11月
6)靳光瑾,基于语料库的辞书编纂平台的应用,对外汉语学习词典学国际研讨会论文
集,(2005年 7月,香港城市大学出版社出版)
7)富丽,对外汉语词典的规范性检查,对外汉语学习词典学国际研讨会论文集,(2005
年 7月,香港城市大学出版社出版)
8)靳光

瑾,肖航,富丽,章云帆,国家语委十五重大项目《语料库建设及深加工》研
究成果汇报,《语言文字应用》2005年第 2期
14



相关主题