当前位置：搜档网 › 语料库与语料库建设

语料库与语料库建设

语料库和语料库建设

一、什么叫语料库

1、定义

语料库，通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是

指按照一定的

语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。

口前，语言学家对于语料库的定义不尽相同，如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究LI 的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。

语料库具有以下特征：1、语料库的设讣与建设有系统的语言学理论指导，语料库的开发具有明确而乂具体的U的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行

研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。

2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，山此保证基于语料库的语言研究的科学性、客观性。

3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。

4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过讣算机处理的，具有资源优势和处理速度优势。5＞基于语料库的研究以量化研究为基石，以概率统汁为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，乂代表着一种新的研究思维。

二、语料库产生的背景及发展历史

对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪

50年代中期，

在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库，在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

20世纪六十年代后，语言学研究主流从经验主义转向理性主义，乔姆斯基的语言能力说被广泛接受，转换生成语法学派批评语料库研究方法，认为，1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象，语料库收集的只是人们的语言运用，语言运用会因超语言因素的影响而发生变化，它并

不能确切的反映语言能力。2、语料的不充分性。他们认为自然语言句子的数量是无限的，语料库的规模即使再大也无法穷尽所有可能的句子，因此“任何自然语料都是偏颇的”。在此后的长达20年的时间里理性主义在欧美一直占有统治地位，语料库研究一度陷入低谷。但在此期间仍有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。最早的计算机语料库布朗语料库(Brown Corpus), 1961年山纳尔逊(F. Nelson)和库切拉(H. Kucera)建立。布朗语料库容量为100 万词，收集了60年代有代表性的美国英语语料，语料选自各种出版物，建库时照顾到了各种文体的平衡，严格按照随机原则抽样，是一个标准语料库。布朗语料库是第一个现代语料库，它对于后来的语料库的发展具有重要的影响。1975年，Jan Svartvik 始创建伦敦一一隆德语料库(London-Lund Corpus),这两个语料库堪称现代语料库的开山鼻祖。

20世纪80年代以来，在相对沉寂了近20年之后，语料库研究重新萌发了生机，迅速得到发展。

语料库研究的迅速发展基于以下三个方面的原因：首先，具有语言学基础。在英国语言学研究中，实证主义从弗斯到韩礼德再到辛克莱一直被传承了下来，实证主义的基石是对可观察的对象进行研究，作为人们外部行为的语言运用是可观察的、可黑的依据，而人们内在的语言能力是不可直接观察的，只能通过语用实例进行推断。语料库是在随机采样的基础上收集的有代表性的真实语言材料的集合，是语言运用的样本。如果样本具有代表性，采样具有随机性，且样本的量乂足够大，则可以认为样本就是总体的真实代表;样本具有总体的统讣特征，研究语料库中的语言材料即近似于研究语言本身。语料库中的语言材料都是人们实际使用的语言材料，因此语料库语言的研究结果具有可黑性和真实性。强大的技术支持是语料库迅速发展的乂一原因。主要体现在以下三个方面:一、以计算机为主导的硬件技术的发展。PC机的兴起、计算机计算速度的高速增长、存储介质的开发、存储容量的剧增都为讣算机语料库的建设发展提供了技术保障。二、讣算机网络的发展为语料库的发展和应用提供了有利条件。首

先，大量的文献和文件具有电子文本形式在网上传播，为语料库语料的获得提供了便利条件;其次，大量语料库成为在线语料库，允许用户在网上实时使用；再者，研究者和用户能够在网上就语料库及时交流经验和看法。三、可以共享的语料库索引软件的开发。如今的索引软件大多已不是专为某一个语料库单独设讣与开发的，而是能够应用于各种类型其至不同语种的语料库。语料库迅速发展的第三个原因是需求的增长。在语料库的应用领域，不断增长的用户群体和不断扩大的应用领域进一步体现了语料库的应用价值。其应用包括传统领域、扩展领域和新兴领域。传统领域包括自然语言处理、语法分析和辞典编纂等，扩展领域包括教材的组织编写、机器翻译、语言识别和语言对比;新兴领域包括语言教学、数据驱动语言学习、中间语对比分析研究、多媒体讣算机辅助教学、在线语料库。

在上述因素促动下，语料库建设迅速发展，相继出现了一批语料库，如，LOB 语料库(Lancaster-Oslo-Bergen Corpus) > COBUILD 语料库、国际英语语料库(The International Corpus of English ,简称ICE)、赫尔辛基历史英语语料库(The Helsinki Corpus of Historical English)及各不同语种、不同用途类型的语料库。

三、语料库的建设与开发

(一)总体设计

首先语料库的建设U的要明确，建库的LI的决定着语料的选取。

如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库LI的是：1、通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系，为中国外语教学，尤其是英语写作教学，提供积极反馈;2、对学习者语料库与英语本族语语料库进行对比分析。

语料库的规模设计。在规模上，只要条件允许，应该是语料库的规模越大越好。就语料库发展趋势来看，建立固定规模的语料库并非语料库发展的大趋势，因为语言本

身是动态发展的，语料库也应当是动态的，可以不断扩充的。

语料库的内容。如果说规模是针对量的问题，那么，内容就是要解决质的问题。对于内容，最根本的是要真实，它包括两个方面，1、要收集实际使用中的文本，而不能是研究者杜撰的;2、要收集符合条件的文本。如要建立的是学习者语料库，要分析的

是学生的真实语言能力，就不能把学生抄袭书本的东西收进来。

（二）具体实施

1、语料的搜集

现代计算机技术和网络资源使得语料库语料的获得变得方便容易。传统的语料库建设，

语料输入工作极为浩繁，基本上靠手工键盘输入和扫描输入，费时费力，且容易出现错误，需要校对。如今大量的在线语料资源、光盘资料、因特网资源，包括新闻、

邮件列表、电子邮件等，使语料库的建设和扩充变得非常快捷方便。

当然，用于不同研究LI的的语料库对其语料来源可能要求不同，会影响到语料的

釆集。

2、抽样

语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡，要考虑每一文类、体裁、

语域、主题类型等的抽样比例。乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料，其结果必然存在偏差，缺乏代表性。U 前，讣算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差，增强语料的代表性。决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围，再就是确定语料的分层结构，进行分层抽样，如把语料按文类（如小说、新闻报道、科学论文、法律文书、诗歌、散文等）和信道（如书面语和口语）进行分层抽样。在抽取比例上可根据需要采用平均比例均衡抽样或不等

比例的塔式抽样。

3、语料库的加工

文本输入讣算机后，一般需要进行一些加工，主要包括语料的标识和语料的

赋码。

1）语料库的标识

标识主要分两类:一类是对文本的性质和特征进行标识，另一类是对文本中的符号、格式等进行标识。如CLEC语料库标注了以下主要信息，包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的，因为它们可以用来对文本进行必要的分类，为灵活提取文本进行各类LI的研究提供便利，而且它们可以标注在文本开头或者作为另一个文件保存，丝毫不破坏语料的完整性和原始性。至于第二类标识可以视研究和应用的LI的而定。但不管怎样，保存一份未标识的原文本是很有必要的。

2）赋码

一些研究不需要赋码语料库，而有些研究需要赋码语料库。

当前，语料库的赋码主要有两类:一类是词类码,乂称语法码;另一类是句法码。

词类赋码就是对文本中每一个词标注词类属性，这项丄作通常是在传统语法对词类的划分的基础上进行的，只是分类适应要求做得更细。如在LOB语料库中以NN代表普通名词的单数形式，以NNP代表以大写字母开头的普通名词的单数形式，如Englishman ,以NNS代表普通名词的复数形式，如desks,以VB代表动词的基本形式，如write、see,以VBD代表动词的过去式，如wrote、saw,以VBG 代表动词的现在分词形式，如reading、eating ,以VBN代表动词的过去分词形式，如written、seen,等等。目前自动词类赋码技术已经基本成熟，对英语基本上可以通过计算机自动赋码，且赋码正确率在96%-97%左右。

句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例，其句法赋码系统分三个步骤:笫一步，对文本中每一个词赋以可能的句法码。该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步，寻找一些特殊的语法码形式和句法片断，对句法结构作必要的修改。最后，完成每一可能的句法分析，并逐一赋值，从中选出可能性最大，即值最大的句法分析作为每句的分析结果。

词类赋码和句法赋码为语言的量化研究创造了条件，为进一步研究自然语言的概率性特征提供了方便，为进一步的语义、语法和语用分析等打下了基础。

4、语料库引擎

通常意义上的计算机语料库一般包括语料库本体（即语料库电子文本）和语

料库引擎（即

语料库索引程序）两个部分。

索引工具的基本功能包括词频统讣、词表生成、语篇统讣、关键词索引、排序、搭配词统讣、词语型式统计、主题词提取、词丛统讣、词图统计等等。

网上提供了一些可以利用的工具软件，包括MicroConcords Wordsmith

Tools> TACT> Concordance 1. 1. 3、TEC Concordancing Tools 具有提供词语索引、搭配词表以及各词语索引行的扩展语境的功能，允许用户把索引结果存储在自己的硬盘上。

MicroConcord可进行带语境的关键词索引。利用它可以观察关键词所在语

篇，获得左右搭配词表。

语料库与语料库建设

相关文档

最新文档