搜档网
当前位置:搜档网 › 语料库和知识库的研究现状

语料库和知识库的研究现状

语料库和知识库的研究现状
语料库和知识库的研究现状

语料库和知识库研究现状

2015-12-9

摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。

关键词:语料库;知识库;研究现状

1前言

语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

2研究意义

从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材,有助于研究者根据大量的语言素材实际得出客观正确的结论。另外,语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计,帮助人们观察和把握语言事实,更为准确的得出结论。在应用语言学领域,语料库技术与应用语言学的结合也产生了大量的实用成果。比如,应用语料库产生一系列基于语料库的词典,应用语料库确定语言教学的教材提纲,提供外语教学与研究的良好平台等。

而知识库尤其是语言知识库,是帮助计算机了解人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提[3]。知识库的构建对于自然语言处理的发展具有重要作用,可以满足其对语言句子语义知识的要求,在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。

鉴于以上介绍的语料库和知识库在当今研究中的重要作用,对于语料库和知识库发展现状的研究总结,可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题,可以为人们对语料库知识库的进一步研究和应用提供一定的指导作用。

3国内发展现状

语料库的发展与现状

自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速,取得了相当一部分的成就。

(1)早期语料库

早期在中国建立的机器可读语料库主要包括:1979年武汉大学建立的汉语现代文学作品语料库(527万字)、1983年北京航天航空大学建立的现代汉语语料库(2000

万字)、1983年北京师范大学建立的中学语文教材语料库(106万8千字)以及1983年北京语言学院建立的现代汉语词频统计语料库(182万字)。早期形成的这些语料库,基本都是手工方式建立的,成本高、效率低。另外,在早期建立语料库时,只形成了初步的国家语料库的建立标准,在语料库建立的统一规范方面问题比较突出。

(2)国家级大型汉语语料库

在1991年,为了推进汉语的词法、句法、语义和语用的研究,中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平,而且在语料的可靠和标注的准确方面等享有权威性,但是该语料库依靠纯手工建立,在选材方面也受到了一定的限制。目前,该语料库已经具有2000万字的核心语料,经过人们的加工处理,其正在完成从生语料库到熟语料库的过度。

(3)大规模真实文本语料库

随着技术的进一步发展,大规模真实文本语料库逐渐被建立起来。研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院软件研究所、中科院自动化研究所、香港城市大学以及台湾中央研究院等。其中代表性成果有:北京大学计算语言学研究所从1992年开始开展对现代汉语语料库多级加工的研究,先后建成2600万字的1998年《人民日报》的标注语料库,2000万字汉字、1000多万英语单词的篇章级英汉对照双语语料库以及8000万字篇章级信息科学与技术领域的语料库等。清华大学则在1998年建立了1亿汉字的语料库,它着重研究歧义切分的问题,如今建立的生语料库已达7-8亿字 [4]。

(4)双语语料库

在20世纪90年代前后,随着外语教学的普及,先后出现了各种不同的双语语料库,比如:北大计算语言学研究所的双语语料库、哈尔滨工业大学的英汉双语语料库、东北大学的英汉双语语段库等英汉双语语料库,北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库、中国海洋大学语言文学院研制的《蝴蝶》德汉对照语料库以及复旦大学计算机系建立的汉日英分类熟语料库。在该时期,中国语料库的发展进入到全新的蓬勃时期。双语语料库的迅速发展为外语教学提供了丰富的可用资源,对于外语教学的发展起到了巨大的推动作用。

(5)少数民族语言语料库

由于我国民族众多,民族语言资源丰富,所以近年来,少数民族语言语料库的发展得到了大家的重视。比如,新疆大学从2002年起开始建设现代维吾尔语语料库系统,目前已有生语料800万词;新疆师范大学建立了200万词的维吾尔语语料库,拟发展到300万词;中国社会科学院民族研究所建立了500万藏语字符的藏语语料库;内蒙古大学建立了带有初步切分和标注的蒙古语语料库[5]。虽然由于少数民族语言的特殊性,少数民族语料库的建设还存在一系列问题,但是少数民族语言语料库的建立足以说明到目前为止我国语料库的发展已经达到了一个新的高度。

知识库的发展与现状

在国内,现今比较知名的知识库是HowNet(知网)、基于WordNet框架开发的中文概念词典(CCD)以及台湾中研院的Sinica Bow[6]等。

从上世纪末开始,董振东先生就带领一批专家学者开始建立知网(HowNet),它是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网的发展从1988年展开基础研究开始到2008年发布“知网在线”共经历了九个过程。现如今,中国知网的发展比较成熟,已经成为中国知识资源的总库,提供了工业、农业等众多学科的知识。它不仅为语言信息处理的研发提供了丰富的知识资源,而且提供了一个进行汉语言计算机处理的新思路,其在词义标注、词义消歧、信息过滤、词义相似度的计算等许多领域得到广泛的应用。

CCD是基于WordNet框架开发的,他不仅继承了WordNet的一部分方法技术,而且根据汉语的特点对WordNet进行了改进,经过多年的努力,CCD已包含十万左右的汉语同义词集[7]。

台湾中研院开发的Sinica Bow支持英汉双语查询;多重语义索引等,并且Sinica Bow还包括了不同层次的词汇知识,词汇的可用资源丰富而全面。

4国外发展现状

语料库的发展与现状

从20世纪60年代开始,语料库从第一代逐渐发展到如今的第三代,这么多年来,各国在语料库的发展方面都取得了不菲的成绩。

(1)第一代语料库

20世纪60年代Francis和Kucera在美国Brown大学建立美国布朗语料库(Brown Corpus),它是世界上第一个根据系统性原则采集样本的标准语料库,主要代表当代美国英语的,具有100万词的规模。70年代初,英国Lancaster大学、挪威Oslo大学与Bergen大学联合建立了与布朗语料库规模相当的 LOB 语料库,它主要代表当代英国英语。LLC口语语料库(London-Lund Corpus of Spoken English)在1975年建成的,其规模为万词的并且带有详细的韵律标注。总体来说,第一代语料库的规模比较小,基本采用系统的抽样方法并且基本都以语言研究为目的。

(2)第二代语料库

COBUILD语料库(Collins Birmingham University International Language Database,科林斯英语语料库)是从20世纪80年代开始由英国伯明翰(Birmingham)大学和柯林斯(Collins)出版社合作建立的主要应用于词典编撰的一个大规模语料库,目前它固定在亿词的规模,并且提供在线检索。同样在20世纪80年代朗文语料库委员会还建立了应用于英语学习词典编纂的Longman语料库(朗文语料库),目前其规模达5000 万词次。由于技术的进步,第二代语料库采用交心的光电符号识别技术,拜托了手工建立的麻烦,节省了语料库建立的时间和成本,而且第二代语料库的规模与第一代语料库相比均有大幅度提高。

(3)第三代语料库

美国计算机协会(ACL/DCI)倡议发起建立ACL/DCI语料库,其收集的语料来源广泛,而且采用了统一的标准通用标注语言和TEI文本编码倡议标准。在20世纪80年代末90年代初,美国宾州大学开始对百万词级的语料进行句法和语义标注,把线性的文本语料库加工成为表示句子的句法和语义结构的树库,建立了宾州大学树库(PennTreeBank)。到1993年已经完成了对300万词的英语句子进行了句法结构标注。

另外在2000年,其完成了约10万词、4185个句子的第一版中文树库。随着发展,第三代语料库的语料从开始的单语种发展到多语种,规模从开始的百万级发展到亿级、万亿级,选取的文本从抽样发展到全文。

经过三个阶段,现如今除上述所列的语料库,国外还包括许多其他的语料库,总体来说,当今不仅中国的语料库发展迅速,在国外语料库也取得了巨大的发展成果。

知识库的发展与现状

国外知识库的发展过程中,形成了以描写聚合关系为主的WordNet,以描写组合关系为主的FrameNet[8]。本文将着重介绍WordNet,对于FrameNet不做详细叙述。

为了解决词典中同义信息的组织问题,美国美国普林斯顿大学(Princeton University)认知科学实验室开发了WordNet[9],它是在线词汇的语义资源。其基本单元是同义词集合,而且单元和单元之间主要依靠包括上下文关系、反义关系、整体部分关系等的聚合关系来连接。它包括95600个英语词条,其中51500个简单词,44100个搭配词,70100个同义词级集合。其具体可以应用于词汇消歧,语义推理,语义理解等领域。

5存在问题及未来发展趋势

存在的问题

语料库的问题

虽然国内外语料库的建设发展迅速,但是在语料库的发展方面依旧存在不少的问题,主要包括:

(1)语料库建设的规范问题

语料库的规范问题主要是对语料加工而言的[10]。虽然在语料库的发展过程中形成了《信息处理用字符集汉字部件规范》、TEI(Text Encoding Initiative,文本编码倡议,1998年)、CES(Corpus Encoding Standard,语料库编码标准)及国际标准SGML(Standard Generalized Markup Language,标准通用置标语言)等一系列约

束语料库的标准和规范,但是语料库中建设的规范问题依旧比较严重,存在分词的标准没有完全确定和统一,文本属性的规范未能完全成熟等问题。

(2)产权保护和国家语料库建设问题

在当今社会中,虽然人们广泛关注语料库的发展,重视国家语料库的建设,但是没有制定出台对于语料库知识产权保护的法律法规,以正式出版物为资源的语料库面临版权的问题,另外也没有将国家语料库的建设和保护上升到对于国家资源保护的高度。

(3)语料库的资源共享的问题

虽然近年来语料库资源在较大范围的共享已经成为了可能,但是在资源共享方面依然存在比较严重的问题。一方面,由于建设语料库的目的不同,收集的语料信息也不同,这给资源的共享带来了一定的限制。另一方面,许多语料库资源的共享是盈利性质的,这也限制了语料库资源的共享。

(4)语料库加工中统计垃圾的问题

当今社会,由于计算机的普及,电子文本得到普遍使用,用于生成语料库资源的越来越多,但是随着语料库容量的不断增大,语料统计中的数据稀疏现象会越来越严重[11]。而在统计垃圾中可能会蕴藏着许多新的语言现象,所以应该正确的地对待统计垃圾,避免统计中的数据稀疏现象。

(5)语料库发展不平衡

随着语料库的发展,语料库在个领域发展不平衡的现象越来越严重。以中国为例,某些语料库,比如英汉双语语料库,在当今得到了迅速的发展,形成的语料库规格各异、数量众多,但是在少数民族语言方面,形成的语料库数目少,规模小。所以,我们应该着眼于全局,使得语料库可以得到全面均衡的发展。

知识库的问题

虽然知识库的建设各个国家的重视,但是知识库仍然存在以下的一些问题:

(1)知识获取问题

由于知识的提取技术不成熟,如果采用机器自动提取知识建立知识库会降低知识库的质量,而手工建立知识库虽然保证了质量但是效率低、成本高。因此,知识的获取是阻碍知识库发展的一个瓶颈。

(2)维护困难

由于知识的动态性,使得知识库需要经常的进行维护[12],当知识库规模非常大时,它的维护工作难以进行。

未来发展趋势

虽然语料库和知识库的发展存在上述的一些问题,但是经过近几十年的发展,无论是在语料库知识库的利用还是研究方法上都取得了长足的进步。而且随着知识经济的发展,计算机语言学和自然语言处理在学界也越来越受到重视[13],这也意味着作为其发展基础的语料库和知识库也越来越得到人们的重视。

纵观当今现状,由于计算机技术的迅速发展,建设语料库的语料资源越来越丰富,越来越多的语言研究者按照自身需求建立语料库,这使得语料库的建设趋于多样性、应用趋于多样化。另外,学习者语料库、口语语料库、平行语料库等应用性比较强的语料库种类的发展趋势可能更为乐观。而知识库则会出现本体化和多语化的大趋势,它们将从不同方面弥补词汇语义知识库在知识共享和知识交流上的不足,使其更好地为自然语言处理服务[8]。总之,语料库和知识库在今后相当长的时间内都拥有广阔的发展空间。

6总结

语料库主要用来研究语言的特征,随着技术的现代化,语料库在语言学研究中占据着越来越重要的地位。而语言知识库则是自然语言处理的基础,在机器问答系统、信息检索等方面发挥着重要的作用。本文概要介绍了语料库和知识库的基本概念, 研究语料库和知识库的意义、语料库和知识库当前存在的一些问题以及对语料库和知识库未来发展的展望,另外,本文着重介绍了国内外语料库以及知识库的发展现状。

7参考文献

[1] 刘美良.语料库语言学综述[J].科技信息,2010,21期(21):280-281.

[2] 常宝宝,俞士汶.语料库技术及其应用[J].外语研究,2009,(5).

[3] 刘金凤.面向自然语言处理的汉语句子语义知识库构建研究[D].鲁东大学, 2009.

[4] 宗成庆,高庆狮.中国语言技术进展[J].中国计算机学会通讯.2008(8).

[5] 彭刚,刘岩.语料库研究与应用综述[J].黑龙江科技信息,2010,26期(26):215-215.

[6] Huang Chu-Ren, Chang Ru-Yng. Shiang Bin Lee Sinica BOW(Bilingual Ontological Wordnet):Integration of Bilingual WordNet and SUMO 2004.

[7] Yu Jiangsheng, Yu Shiwen. Introduction to Chinese Concept Dictionary[J]. Journal of Chinese Information Processing. 2001(4).

[8] 朱虹,刘扬.词汇语义知识库的研究现状与发展趋势[J].情报学报,2008, 27(6):870-877.

[9] Fellbaum C. WordNet-An Electronic Lexical Database 1998

[10] 施秀川.语料库在外国文学研究中的应用[J].剑南文学:经典教苑,2013, (08).

[11] 冯志伟,中国语料库研究的历史与现状,国际会议 ICCC2001 主题报告(新加坡),Proceedings of ICCC2001, 1-24.

[12] 汤赛丽.常识知识问答系统中知识库构建的研究与设计[D].河南大学,2005.

[13] 俞士汶,朱学锋.综合型语言知识库及其在语言教学中的应用[J].北华大学学报:社会科学版,2014,15(03):4-9.

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

语料库语言学综述

语料库语言学综述 作者:刘美良 作者单位:柳州铁道职业技术学院,广西,柳州,545001 刊名: 科技信息 英文刊名:SCIENCE & TECHNOLOGY INFORMATION 年,卷(期):2010,""(21) 被引用次数:0次 参考文献(19条) 1.Chomsky,N Syntactic Structure 1957 2.Sinclair.John Corpus.Concordance Collocation 3.Susan Hunstom Corpora in Applied Linguistics 2006 4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991 5.杨惠中语料库语言学导论 2002 6.何安平语料库在外语教育中的应用--理论与实践 2004 7.何安平谈语料岸研究 1997(5) 8.丁信善语料库语言学的发展及研究现状 1998(1) 9.李文中2003上海语科库语言学国际会议述评 2004(1) 10.粱旭红语料库语言学研究综述 2001(1) 11.粱燕近十年我国语料库实证研究综述 2004(6) 12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1) 13.潘永本梁语料库语言学的目的和方法 2001(3) 14.王建新语料库语言学发展史上的几个重要阶段 1998(4) 15.许家金语料库语言学的理论解析 2003(6) 16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4) 17.卫乃兴语料库语言学的弗斯学说基础 2008(3) 18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4) 19.吴菲国内外英语语料库的建设和发展述评 2007(6) 相似文献(4条) 1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3) 书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效. 2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2) 近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开. 3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5) 第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见. 4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006 旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。因此,旅游材料的翻译质量举足轻重。而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学

语料库话语分析综述

近十年国内基于语料库的话语研究综述 A Review of Ten - year Research on Corpus-Based Discourse Analysis in China 摘要:文章从基于语料库的话语研究领域出发,通过对2002年至2011年发表在国内八种核心期刊上的论文进行统计与分析,发现这些研究在研究领域取得了很大的进步,涉及到话语各个方向,对于实践有重大指导作用,但同时也出现一些问题值得我们关注。 Abstract: From corpus-based discourse analysis, this thesis finds this field has made great progress, relates to many directions of discourse and has a significant guiding role for the practice, but also brings many problems worthy our attention. All of these are derived from the research and analysis of thesises published in 8 kinds of core journals from 2002 to 2011 in China. 关键词: 语料库话语基于语料库的话语研究 0. 引言 现代语料库语言学是20世纪中后期兴起的一门语言研究科学。语料库是指按一定的语言学原则,运用随即抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。在20 世纪后半叶的西方语言学界, Chomsky的观点大行其道,秉承该学说的语言研究者唯直觉语料独尊。他们躲在书斋,满足于依靠自己的直觉语料从事语言研究。随着社会语言学、话语分析、语用学、语料库语言学的兴起,越来越多的语言学家认识到光靠直觉语料来研究语言是远远不够的,人们还必须借助语料库语料以及其他各种语料,只有这样我们才能更好地揭示语言的本质,克服直觉语料的局限与不足。这样基于语料库的话语研究越发引起大家的重视,并取得了丰硕的成果。国内基于语料库的话语研究虽然起步较晚,但是成果仍然颇丰。 1. 研究样本 由于近几年运用语料库来做话语研究已经成为语言研究的热点,笔者通过检索主题与关键词,将文献定在2002年至2011年这十年期间,研究样本来源为发表在八种外语类核心期刊的22篇文章。这是因为这8种外语类期刊有一定的权

语料库研究与综述.

语料库研究与应用综述 一概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: (1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。 (5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。 我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。 语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

语料库和知识库的研究现状

语料库和知识库研究现状 2015-12-9

摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。 关键词:语料库;知识库;研究现状 1前言 语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。 在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出,并由此泛化产生了基于模板的机器翻译方法。 下面我们分别介绍几种典型的机器翻译方法: (1)基于规则的机器翻译方法

从Chomsky提出转换生成文法后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。 早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。 基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

中国语料库研究的历史与现状(一)

中国语料库研究的历史与现状(一) 语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpuslinguistics),并成为了自然语言处理的一个分支学科。 语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从

而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。 本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。 一、国外语料库概况 现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。 现在,国外的主要语料库还有: London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodicmarking)。 AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。 OTA牛津文本档案库(OxfordTextArchive):英国牛津大学计算中心建立,

语料库语言学与中国外语教学

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

语料库论文语料库语言学论文

语料库论文语料库语言学论文 摘要:语言是我们生活的载体,是我们生活不可缺少的一部分,没有语言我们就不能称之为人类。我们的生活离不开语言;没有语言,我们就无法生存。由于语言对我们有着如此的重要性,因此,从某种程度上说,在人类漫长的历史过程中,人类一直以不同的方式对语言进行着研究。语料库语言学是“基于现实生活中语言运用的实例进行的语言研究”(t. mcenery& a.wilson,1996)。它是以真实的语言数据为基础,利用计算机对其进行统计、分类、标注、分析。本文采用定性的方式,整理前人的研究,分析语料库语言学在二语习得中的作用及发展。指出语料库强调词汇和语法的同一性,并认为意义是研究语言的关键所在。 关键词:语料库;二语习得;语言系统 一、引言 从语料库语言学针对语言研究的特点来看。一种人们似乎广泛接受的观点是,如果不提及两个颇具影响的语言学学派——结构主义和转换-生成语法,要谈论语料库语言学对语言研究的贡献是不可思议的、不可想象的。 正如我们大多数人所知,对语言的真正研究是20世纪初现代语言学之父,ferdinand de saussure,从事的比较系统的语言研究出现时才开始的。一些对语言感兴趣的人对

saussure将语言视为一个相互限定的存在体系系统的概念 感到十分惊讶并从中受到启发,这种语言概念与语言历来被看作的形式大相径庭。于是,这些人开始用结构的方式从事语言研究。这一充满生机的运动最初始于欧洲大陆,后来波及到美洲大陆,没过多久就遍及世界各地。毫不夸张地说,saussure关于语言的富有洞察力的观点构成了许多当代结 构语言学的基础,他的结构主义思想渗透到了每一个语言学学派。在saussure的指导下,人们研制了一系列的程序来 强调对话语的实质性特点在不参照语言抽象的底层结构或 其意义的情况下进行切分和分类的过程(bullock & stephen, 1999)。诚然,结构主义者不考虑意义来研究语言的纯科学 方法显示了其空前的优势,因为这种方法是首次根据系统和结构来描述语言特点的。然而,与传统语法一样,这种方法的交点仍然集中在语言的语法结构上,即集中在语言的表层结构上。因此,它遭到了由noam chomsky开创的转换-生成语法(transformational-generative grammar-tg)的严厉批评。对于转换-生成语法的语言学家来说,结构主义对被chomsky称之为表层结构的强调不能揭示抽象的底层结构, 即按chomsky的说法——深层结构,也不能揭示可以生成人类语言的普遍机制。同样,转换-生成语法由于它频繁将杜 撰的、非真实的资料用作证据来支持其理论也遭受到来自其

语料库的分类

III.Existing corpora 20.Well-known and in luential corpora 1.Introduction 2.National corpora 3.Monitor corpora 4.Corpora of the Brown family 5.Synchronic corpora 6.Diachronic corpora 7.Spoken corpora 8.Academic and professional English corpora 9.Parsed corpora 10.Developmental and learner corpora 11.Multilingual corpora 12.Non-English monolingual corpora 13.Well-known distributors of corpus resources 14.Conclusion 15.Appendix:URLs 16.Literature 1.Introduction As corpus building is an activity that takes times and costs money,readers may wish to use ready-made corpora to carry out their work.However,as a corpus is always designed for a particular purpose,the usefulness of a ready-made corpus must be judged with regard to the purpose to which a user intends to put it.There are thousands of corpora in the world,but most of them are created for specific research projects and are not publicly available.This article introduces well-known and influential corpora,which are grouped in terms of their primary uses so that readers will find it easier to choose corpus resources suitable for their particular research questions.Note,however,that overlaps are inevitable in our classification.It is used in this article simply to give a better account of the primary uses of the relevant corpora.The higher number of English corpora covered here might reflect the fact that English was the forerunner in corpus research,though as we will see shortly,many other languages are catching https://www.sodocs.net/doc/c48977767.html,rmation on the web site addresses for the corpora discussed in this article are given in the appendix. 2.National corpora National corpora are normally general reference corpora which are supposed to repre-sent the national language of a country.They are balanced with regard to genres and domains that typically represent the language under consideration.While an ideal na-tional corpus should cover proportionally both written and spoken language,most exist-

相关主题