搜档网
当前位置:搜档网 › 国内语料库建设一览表

国内语料库建设一览表

国内语料库建设一览表
国内语料库建设一览表

国内语料库建设一览表

类型语料库名称及大小建设单位

英语学习者语料库(书面语及

口语)

中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万) 上海交大香港科技大学学习者语料库HKUST Learner Corpus 香港科技大学中国英语专业语料库CEME (148万) 南京大学中国英语学习者口语语料库SECCL (100万) 南京大学

国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大硕士写作语料库MWC (12万) 华中科技大学

平行语料库

汉英平行语料库PCCE 北外

南大-国关平行语料库南京大学

英汉文学作品语料库;

外研社冯友兰《中国哲学史》汉英对照语料库

李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库

计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研

究所柏拉图(Plato)哲学名著《理想国》的双语语料库

英汉双语语料库(15万对) 中科院软件所

英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语

料31万句子对

中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学

英汉双语语料库(40-50万句子对) 哈尔滨工业大学

双语语料库(5万多对) 北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾

特殊英语语料

中国英语(China English)语料库河南师范大学军事英语语料库(Corpus of Military Texts) 解放军外语学院新视野大学英语教材语料库上海交通大学

汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字) 北京航空航天大学

中学语文教材语料库(1983年,106万8000字) 北京师范大学

现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字) 北京大学计算机语言学研究所大型中文语料库(5亿字,10分库) 北京语言文化大学

现代汉语语料库(1亿字) 清华大学

汉语新闻语料库;(1988年,250万字)

山西大学标准语料库(2000年,70万字)

生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所

中国传媒大学全日制学术型硕士研究生培养规划方案.doc

中国传媒大学全日制学术型硕士研究生培养方案 学位类别:学术型硕士 专业名称:文艺学 中国传媒大学研究生院 2017.6

中国传媒大学全日制学术型硕士研究生培养方案(2017 年版): 专业名称:文艺学 ( 专业代码: 050101) 一、培养目标 文艺学专业是人文学科之重要学科,研究文学活动、文学事实及相关艺术、文化活动,能够为 精神文明建设与人文精神的培养发挥重要的作用。本专业的培养目标总起来说是让在校期间的硕士生,系统掌握本专业的基础理论和专门知识,且具有应用于文艺实践的能力,以发现问题解决问题。中国古典文论与美学方向能够对理论的历史发展有一个宏观的把握,对重要的文论家的文论思想、 美学家的美学思想进行辩证的分析,古为今用。马列文论与文艺学基本理论方向要求能够在马克思 主义文艺理论、毛泽东文艺思想和邓小平文艺理论的指导下,关注文艺实践,对文艺学与美学的基本理论问题有较为清楚的了解和认识,进行理论的概括与提升。西方文艺理论方向则要求能够对西方文艺理论的发展线索较为熟悉,能够较系统地分析西方文艺理论家的思想,评价其地位与影响。 审美文化方向则需了解审美文化之不同历史阶段的发展,既可开展对大众文化的积极探索,也可对民族文化遗产的审美意识进行研究。文艺批评方向要求能够对中外文艺作品、作家进行科学的批评,具有一定的学理性和针对性,对于文艺创作与批评有建设意义。 二、培养要求 通过对文艺学学科及其相关课程的系统学习和研究,培养德、智、体、美、劳全面发展,具有 创新意识并能满足社会尤其是影视新闻出版传媒机构、政府机关、文艺社会团体及院校需要的文艺 学方面高层次专门实践人才。使硕士生的抽象思维能力得到提高,得到相应的科研训练。熟练地运 用一门外国语和计算机工具,在文艺学领域独立进行专题研究或从事实践工作。具有延伸和拓宽自己的知识和进行创造性工作的能力。 三、主要研究方向(方向应与招生目录相符) 1中国古典文论与美学 2文艺学原理与马列文论 3西方文艺理论 4审美文化学 5文艺批评 四、学制与学分 1、学制要求与培养环节: 本专业全日制攻读硕士学位的学制为 3 年,分为课程学习、科研训练和实习实践三个环节。课程学习、科研训练、实践实行学分制,学位论文实行申请答辩制。三年制专业所有课程要求在第一、二、三学期修完。 2、学分要求与学分分配: 环节总学分≥ 37 分项说明 课程学习≥31 学学位课≥ 21 学公共必修课≥7 学分 环节分分专业必修课≥14 学分

国家级精品课程《高级英语》课程建设方案

国家级精品课程《高级英语》课程建设方案 一、建设目标:用五年时间,把高级英语建设成为一门充分践行“学生本位”、“素质本位”思想,人文色彩浓郁,时代内涵丰富,教学方法创新,教学手段先进,教学环境信息化特色突出,课程评价体系完善,自我革新能力强的高年级“核心”课程。 二、建设步骤:本课程建设将在多项“分目标”同时并举的基础上,采取分层次、有优先、有重点、逐年推进的建设方略。具体规划如下: 1.人文及时代内涵建设 (1)本课程组刚刚编写、出版的《新编高级英语教程》取材广泛,选材新颖,时代性强,人文内涵丰富,这为本课程实现未来5年的“人文及时代内涵”建设目标打下了坚实的基础。 (2)适时引入、编写一批教辅、学辅材料,进一步扩充本课程人文内涵,保持其时代性。 (3)在课堂教学中,充分挖掘现有教材的人文内涵,探索有利于培养学生人文素养和科学创新精神的授课形式。 (4)将对学生人文、科学精神的培养作为设计、开展实践课教学的基本要求之一。 2.教学环境信息化建设 (1)“高英”课堂教学网建设:A. 完善并适时更新现有的电子资料库——CAI课件,背景知识、作者简介、语言知识点、文本赏析、注释、相关话题导引、习题、试题等教辅、学辅材料;B. 逐步实现课程全部模块授课录像并上网;C. 在现有朗文、韦氏、金山词霸等在线词典的基础上,再投放几部高质量的网络词典;D. 建设网上学习资料下载平台。

(2)校园网、局域网建设与利用:A. 进一步拓展校园网的“资源”功能;B. 开展网上资源利用研讨活动;C. 进一步发掘Internet网上学习资源,提供具体链接地址。 (3)在线语料库建设:A. 探索能充分利用现有BNC、BROWN,LOB,LDC等在线语料库的教学新形式;B.适时购进1-2个切合“高英”(及其它课程)教学、科研需要的国、内外语料库(尤其是英、汉平行语料库);C.力争自主建设1-2个切合本课程及其它多门课程教学、科研需要的校本语料库。 3.教学过程建设 (1)课堂教学建设:A. 教学理念与方法:开展对学生期望的理想教学形式的调查分析,进一步探索能充分实践启发、体验式、发现式、研究式、合作式等现代教学理念的有效授课形式,拓展其内涵。B. 教学资源:探索能有效利用现有多功能教学资源形式的途径和方法;开辟新的资源形式;加强网络教学资源的动态性、再创性、多样性、结构合理性研究。C. 教学手段:探索能增强课堂感染力、提高教学效果的各种传统及信息化教学手段。D. 加强信息化学习方式(如适应性学习、WebQuest 学习,探险性学习)及其影响因素的研究。E.加强课堂教学评估指标研究。 (2)在线辅助教学建设:A. 创建网上学习社区,构筑学生自主学习平台。B. 创设BBS电子布告板系统,增加师生互动。C. 建立师生个人电子档案,探索在线教学规律。D.加强网上教学实践技术培训。 (3)实践课建设:A. 融高年级学生毕业论文写作与实践课教学于一体;B.通过实践课培养学生的体验式、探究式学习能力以及人文素养和科学创新精神;C.通过实践课为学生提供就业、创业的体验和能力训练;D.探索一切行之有效的实践课形式,培养学生获取知识的能力、创新能力,交流能力、协作能力、适应工作的能力、知人处事的能力以及灵活应变的能力。 4.革新能力建设

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

中国传媒大学硕士研究生在学期间发表科研论文的暂行规定

中国传媒大学 硕士研究生在学期间发表科研论文的暂行规定 为了加大对硕士研究生培养环节中期管理的力度,进一步加强硕士研究生培养管理工作,完善硕士研究生培养质量的保证和监督机制,鼓励硕士研究生开展科学研究,促进我校硕士研究生学术水平的提高,学校要求硕士研究生在学期间必须发表与本人所学专业相关的学术论文。研究生院认定的发表平台及量化要求如下: 一、在有全国统一刊号的期刊和报刊上发表,或者正式出版社出版的有全国统一书号的书籍上发表最少1篇3000字以上的学术论文;或与导师合作,为第二作者,发表在中国传媒大学认定的核心期刊的学术论文。 二、在国际学术会议,在国家及省、部级单位主办的学术会议,在高等院校及国家级、省部级研究院所主办的学术会议上发表最少1篇3000字以上的学术论文。 三、在研究生院主办的《传媒学子论坛》https://www.sodocs.net/doc/9115159410.html,/sty/ (研究生院网页下方) 上发表2篇以上学术论文,合计字数不少于1万字,且为第一作者。发表的论文要有研究生本人的导师和另一位具有副教授职称以上的教师推荐发表并有这两位教师的点评意见。 四、参加本人导师或者副教授职称以上的教师的科研项目,硕士研究生本人撰写部分在5000字以上;或在《传者》杂志上发表最少1篇学术论文,字数在5000字以上,且为第一作者。 五、《中国科技论文在线》增列为中国传媒大学硕士研究生发表论文的学术刊物,评价参考值在三星及以上的论文可认定为达到硕士研究生学位论文答辩申请的考核要求。 六、本规定说明 1.本规定中“发表论文”指已正式发表的学术论文(录用函无效)。 2.上述发表论文的5项量化要求,硕士研究生在学期间只要达到其中任何一项即可。 3.专业学位研究生以实践创作能力的培养为主,参照《专业学位研究生实践手册》各项要求进行实践能力的培养,对发表科研论文不作强制要求;工科、理科硕士研究生发表论文不作论文字数的硬性要求。 4.研究生院每学期都对电子学刊《传媒学子论坛》上发表的文章进行评优活动,优秀论文将由研究生院在出版社正式出版论文集,录用稿件不收取出版等费用,亦不给论文作者支付稿费。 5.应届毕业研究生在《传媒学子论坛》发表论文的截止时间为每年4月20日,逾期不再受理。 6.获得国际奖项、国内省部级以上及港澳台地区的相关奖项可以不执行此规定。 7.任何科研论文的造假及剽窃,一经查出,按学校学籍规定给予相应处分。 8.此规定自公布日起执行。

【CN110110336A】一种面向藏汉机器翻译的藏语句法语料库的构建方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910368324.3 (22)申请日 2019.05.05 (71)申请人 西北民族大学 地址 730030 甘肃省兰州市城关区西北新 村1号 (72)发明人 万福成  (74)专利代理机构 西安研创天下知识产权代理 事务所(普通合伙) 61239 代理人 杨凤娟 (51)Int.Cl. G06F 17/28(2006.01) G06F 17/27(2006.01) (54)发明名称 一种面向藏汉机器翻译的藏语句法语料库 的构建方法 (57)摘要 本发明公开了一种面向藏汉机器翻译的藏 语句法语料库的构建方法,包括以下步骤:A、将 具有句对齐结构的平行语料库中的藏语句子进 行词性标记;B、利用词对齐工具将藏语句子中的 词汇进行词对齐,形成藏语词、汉语词对齐匹配 形式;C、利用树库制作工具,将具有词性标记和 词对齐信息的藏语词逐个进行短语标记;D、运用 自增模式,扩展藏语句法语料库。本发明能够解 决藏语句法语料库稀缺的问题,从而提高翻译质 量。权利要求书1页 说明书3页CN 110110336 A 2019.08.09 C N 110110336 A

权 利 要 求 书1/1页CN 110110336 A 1.一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,包括以下步骤: A、将具有句对齐结构的平行语料库中的藏语句子进行词性标记; B、利用词对齐工具将藏语句子中的词汇进行词对齐,形成藏语词、汉语词对齐匹配形式; C、利用树库制作工具,将具有词性标记和词对齐信息的藏语词逐个进行短语标记,并逐层进行合并直至形成一个完整的句法树; D、运用自增模式,扩展藏语句法语料库。 2.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤B中将藏语句子中的词汇进行词对齐的方法包括以下步骤: a、运用词对齐工具训练双语句对齐平行语料库; b、以词对齐中间结果作为藏语汉语词匹配形式,并形成具有类似括号匹配的形式; c、将词对齐的结果以及词性标注的结构统一处理成具有括号匹配形式的内容,提供下一步处理作为输入。 3.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤C中逐层进行合并直至形成一个完整的句法树的方法包括以下步骤: a、将具有括号匹配形式的带有词性标记和词对齐信息的各个单元输入到树库制作工具中; b、以词性为基础,逐个将以词为单元的内容合并,并以短语标记结尾; c、逐个合并短语结构标记为新的短语结构标记,最终合并成一个句子,并标注以句子标记结尾。 4.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤D中运用自增模式扩展藏语句法语料库的方法包括以下步骤: a、将人工制作的藏语句法语料库作为训练语料库,运用BerkerleyParser句法分析器作为句法分析工具; b、解码测试语料库,得到待人工校对的藏语句法树; c、人工校对藏语句法树的结果,将校对后的结果加入到训练语料库中,继续步骤a,以这种模式扩展藏语短语句法树库。 2

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

中传考研各个研究方向介绍

中传考研各个研究方向介绍本文系中传考研方向全面介绍,有请凯程教育老师提供。 1.电视艺术理论方向 隶属于中国传媒大学电视与新闻学院,本方面培养的硕士生,能将其理论研究成果运用到电视艺术创作实践中去,以便在理论与实践相结合的势态下,成为高层次的电视艺术人才。导师有吴辉、徐舫州、张静滨、胡智锋、周文、王黑特、张国涛。复试要求理论性较强,同时喜欢理论与实践相结合的考生。 2.电视策划方向[2006年首次招生] 隶属于中国传媒大学影视艺术学院。本方向主要采取理论与实践相结合的方法,学生在学习策划理论的同时,参与一定的实践创作,从而提高学生的实战能力。本方向培养具有深厚人文精神和艺术造诣、拥有节目创作专业知识与技能的高级电视策划人才。导师有关玲、苗棣、许行明、郑月。复试喜欢综合能力强,有电视策划思维的考生。 3.广播电视文艺方向 隶属于中国传媒大学影视艺术学院。直系为本科的文艺编导。是广播电视艺术学专业的王牌方向。本方向以广播电视文艺发展的历史为线索,以文艺节目、文艺栏目、文艺频道等节目形态为对象,深入研究其创作特征、创作规律、创作风格和创作走向,以便逐步建立起完善的广播电视文艺理论体系。导师有蔡卫、何晓兵、陆健、游洁、张育华。复试喜欢具有文艺特长、有文艺节目从业经验的考生。 4.电视剧史论方向 隶属于中国传媒大学影视艺术学院。本方向的培养目标是使学生具备较高的电视剧理论素养与业界实践能力,能胜任电视剧领域的创作制作、调查研究、政策管理、宣传及教学等相关工作。导师有戴清、李胜利、刘婷、刘晔原、卢蓉、秦俊香、吴素玲、王利丽、彭文祥、吴秋雅。由于导师较多,报名和录取人数也较多。复试喜欢通晓电视剧理论与创作,有扎实的理论功底和实践经验的考生。 5.电视艺术与技术方向 隶属于中国传媒大学影视艺术学院。本方向的学生通过研究生阶段的学习,努力培养学生理论研究、画面创作及美学鉴赏等能力的同时,要求学生要不断的增强实践动手能力,毕业时能够在电视节目创作中或视频媒体节目创作或平面媒体创作中独立的完成摄影、照明、后期制作、以及设计、策划、编导、编辑、剪辑、电脑特技等工作。导师有李兴国、毕根辉、张歌东、赵永华、郭艳民、金贵荣。复试要求考生动手能力强,有影视技术功底以及扎实的理论知识,报考多为科班或者有技术积淀的考生。跨专业考生报考需要更多的学习。 6.录音艺术方向 隶属于中国传媒大学影视艺术学院。原录音艺术学院。本专业方向以广播电影电视声音技术和声音艺术理论为基础,主要研究广播电影电视声音技术和声音创作理论及制作技巧,重点培养以声音创作为主的专业方向。导师有李大康、李伟、王珏、伍建阳、胡泽。复试对录音技术以及录音艺术的要求很高,报考多为音乐科班出身或者有极强的积淀。跨专业考生报考需要更多的学习。 7.广播电视语言艺术 隶属于中国传媒大学播音主持艺术学院。属于艺术类,走艺术线。其研究对象既包括传播主体的播音艺术、节目主持艺术,也包括受众的收听、收视心理和审美鉴赏。导师有卢静、李

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国 的发展趋势 一、语料库语言学的兴起与发展 语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。 在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。1996年广州外国语学院开始建立中国学生交际英语语料库。此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。

二、语料库语言学发展趋势 语料库语言学研究的发展总是以语料库的建设为基础的。没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。 (一)英语学习者语料库。其中包括书面语和口语。有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士 写作语料库MWC,12万词次。 (二)平行语料库。有北京外国语大学建设的汉英平行语料库PCCE;南京大学建设的南大———国关平行语料库;外语 教学与研究出版社建设的英汉文学作品语料库,冯友兰《中国哲学史》汉英对照语料库,李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库;北京大学计算语言学研究所建设的双语语料库,5万多对;香港城市理工大学建设的对比语料库LIVAC;台湾建设的平衡语料库Sinica Corpus和树图语料库Sinica Treebank;国家语言文字工作委员会应用研究所建设的计算机专业的双语语料库,柏拉图(Plato)哲学名著《理想国》的双语语料库;中国科学院软件研究所建设的英汉双语语料库,15万对;中国科学院自动化研究所建设的英汉双语语料库,包含LDC香港新闻硬汉双语对齐语料36 294段以及香港法律英汉双语对齐

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

中国传媒大学研究生初试考试大纲

汉语基础考试大纲 一、考试性质 汉语基础考试是汉语国际教育硕士生入学考试科目之一,是由汉语国际教育硕士专业学位教育指导委员会统一制定考试大纲,教育部授权的各汉语国际教育硕士生招生院校自行命题的选拔性考试。本考试大纲的制定力求反映汉语国际教育硕士专业学位的特点,科学、公平、准确、规范地测评考生的相关知识基础、基本素质和综合能力。汉语基础考试的目的是测试考生的汉语语言学相关基础知识和汉语语言分析及运用能力。 二、评价目标 (1)要求考生具有较全面的汉语语言学基础知识。 (2)要求考生具有较高的汉语应用能力。 (3)要求考生具有较强的汉语语言分析能力。 三、考试内容 汉语基础考试由“汉语语言学基础知识”、“汉语应用能力”和“汉语语言分析”三部分组成。 (一)汉语语言学基础知识 汉语语言学基础知识部分测试以下内容: 1.语言学基础 2.汉语概况 3.现代汉语语音 4.现代汉语词汇 5.现代汉语语法 6.汉字 7.古代汉语 (二)汉语应用能力 汉语应用能力考试测试以下内容: 1. 辨音和标音能力

2. 字形、字义辨别能力及汉字书写规范 3. 词汇、语法规范 4. 文言文阅读理解 (三)汉语语言分析 汉语语言分析考试测试以下内容: 1.语音分析 2.词义分析 3.语法分析 四、考试形式和试卷结构 (一)考试时间 考试时间为180分钟。 (二)答题方式 答题方式为闭卷、笔试。 试卷由试题和答题纸组成。答案必须写在答题纸相应的位置上。 (三)试卷满分及考查内容分数分配 试卷满分为150分。其中汉语语言学基础知识80分,汉语应用能力40分,汉语语言分析30分。 (四)试卷题型比例 汉语语言学基础知识80分 填空题30题,每小题1分,共30分 判断题20题,每小题1分,共20分 选择题30题,每小题1分,共30分 汉语应用能力40分 语音能力题(标注拼音题、选择题、判断题等),共10分 汉字能力题(改正错别字、汉字书写、选择题、判断题等),共15分 语法词汇规范(选择题、判断题等),共5分 文言文阅读题(加标点、填空题、选择题等),共10分 汉语语言分析30分 语音分析题(填空题、选择题、判断题等),共5分 词语辨析题,共10分

语料库建设及使用专题研修班

语料库建设及使用专题研修班 时间:2014年11月8-9日 地点:上海海事大学2C305(计算机实验室) 主讲人:北京外国语大学中国外语教育中心梁茂成李文中许家金 一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的 Chomsky语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的,但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。 2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照 一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。 3.文本:文本可以保存生(raw)语料,即未经任何标注的语料,称为生文本(raw text)。文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本(annotated text)。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。 4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包

中传考研复试班-中国传媒大学戏剧与影视学考研复试经验分享

中传考研复试班-中国传媒大学戏剧与影视学考研复试经验分享中国传媒大学是教育部直属的“一流学科建设高校”,“211工程”重点建设大学,“985优势学科创新平台”重点建设高校,前身是创建于1954年的中央广播事业局技术人员训练班。1959年4月,经国务院批准,学校升格为北京广播学院。2004年8月,北京广播学院更名为中国传媒大学。学校位于中国北京城东古运河畔,校园占地面积46.37万平方米,总建筑面积63.88万平方米。 中国传媒大学的校训是:立德、敬业、博学、竞先。 中国传媒大学坚持“结构合理、层次分明,重点突出、特色鲜明,优势互补、相互支撑”的学科建设思路,充分发挥传媒领域学科特色和综合优势,形成了以新闻传播学、戏剧与影视学、信息与通信工程为龙头,文学、工学、艺术学、管理学、经济学、法学、理学等多学科协调发展,相互交叉渗透的学科体系。 目前,学校设有6个学部、1个协同创新中心,5个直属学院。新闻传播学、戏剧与影视学两个学科入选国家“双一流”建设学科名单;拥有新闻学、广播电视艺术学2个国家重点学科,传播学1个国家重点培育学科,新闻传播学、艺术学理论、戏剧与影视学3个一级学科北京市重点学科,语言学及应用语言学、通信与信息系统、电磁场与微波技术、动画学4个二级学科北京市重点学科,7个博士后科研流动站,8个博士学位授权一级学科点,41个博士学位授权二级学科点,19个硕士学位授权一级学科点,105个硕士学位授权二级学科点,10个专业硕士类别,87个本科专业。 专业介绍 戏剧与影视学是国家一级学科,学科门类属于艺术学,下设的二级专业有表演、广播电视编导、戏剧影视导演、播音与主持艺术、戏剧影视文学、影视摄影与制作、戏剧影视美术设计、音乐学、作曲与作曲技术理论、音乐表演、录音艺术、视觉传达设计、动画、数字媒体艺术、艺术与科技等。 中国传媒大学是戏剧与影视学一级学科的国家“双一流”世界一流学科建设高校。在2017年教育部第五次学科评估中,中国传媒大学戏剧与影视学一级学科名列全国第一。 研究方向 01(电影学)电影艺术史论 02(电影学)电影创作理论 03(电影学)影视制片

商务英语语料库的建设及应用

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(business english)是指商务场景下所应用到的英语,作为特殊目的英语(english for specific purpose)具有很强的专业性。商务英语跟普通英语(english for general purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有

一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的brown corpus以及lob corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的birmingham collection of english language text以及longman/lancaster english为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。

中国传媒大学研究生学位论文编写规则-中国传媒大学研究生院

中国传媒大学研究生学位论文编写规则(暂行)为规范我校研究生学位论文编写格式,根据国家标准《学位论文编写规则》(GB/T 7713.1—2006),制定本研究生学位论文编写规则。 1学位论文基本要求 硕士学位论文,要求对所研究的课题有新见解或新成果,并对本学科发展或经济建设、社会进步有一定意义,表明作者掌握坚实的基础理论和系统的学科知识,具有从事学术研究或担负专门技术工作的能力。学位论文应在导师指导下,由硕士研究生本人独立完成。 博士学位论文,要求对所研究的课题在材料、角度、观点、方法、理论等方面或某方面有创新性成果,并对学术发展、经济建设和社会进步有较重要的意义,表明作者掌握坚实宽广的基础理论和系统深入的学科知识,具有独立从事学术研究的能力。学位论文应在导师指导下,由博士研究生本人独立完成。 学位论文应当用规范汉字进行撰写,除古汉语研究中涉及的古文字和参考文献中引用的外文文献之外,均采用简体中文撰写。 学位论文必须是一篇系统完整的、有创造性的学术论文。 博士学位论文一般不少于十万字,硕士学位论文一般不少于三万字。论文须用计算机打印,字迹应清晰,标点符号应正确使用。 学位论文须有封面、独创性声明、论文使用授权说明、目录(含论文的章、节、目)、简明中文摘要、英文摘要、文献综述、正文、参考文献、注释(包括引文注释)、致谢词、封底等部分组成。 2学位论文基本结构 学位论文基本结构包括前置部分、主体部分和结尾部分。 2.1前置部分包括: (1)封面 (2)独创性声明 (3)致谢 (4)摘要页 (5)目录页 (6)插图和附表清单((可根据需要)) 2.2主体部分: (1)引言(绪论) (2)正文

语言文字应用研究“十五”科研规划及项目指南

语言文字应用研究“十五”科研规划及项目指南 一、语言文字应用研究的回顾与展望 (一)“九五”期间语言文字应用研究回顾 “九五”期间,我国语言文字应用研究取得多方面的进展:(1)语言文字法制建设研究和立法工作实现了历史性的突破;(2)语言文字规范、标准研制和基础工程建设进一步加强,取得了新的成果;(3)推广普通话、汉字规范化标准化的理论与政策研究逐步深入;(4)中小学语文教学、双语教学、扫盲等引起社会广泛关注;(5)随着对外汉语教学的蓬勃发展,“对外汉语教学”逐步发展成为应用语言学的一个分支学科;(6)语言文字信息处理,由于计算机学界和语言学界的共同努力,取得了可喜的成绩,基本解决了“字处理”(汉字的计算机输入和显示等)的问题,“词处理”(中文自动分词、词性标注等)以及语音识别、语音合成等方面的研究获得了重大进展;(7)领域语言研究、专名术语研究相继展开,发表、出版了一批研究论著;(8)语言习得研究、语言认知研究和病理语言研究等也开始起步;(9)在辞书编纂方面,出版了一批质量较高的辞书,对提高全民族语言文字生活的质量发挥了重要作用;(10)语言文字国情调查即将完成。 “九五”期间,我国语言文字应用研究虽然取得了较大进展,但与社会主义现代化建设、社会语言生活发展的要求和广大人民群众的愿望相比,还存在一些不足和问题,例如:(1)专业人才短缺,经费投入不足;(2)定性研究较多,定量研究较少;(3)采用人工、传统

的研究手段较多,借助现代化手段较少;(4)面向人的研究较多,面向计算机和网络的研究较少;(5)语言规划研究、语言文字规范标准建设等,还存在着明显不足。语言文字应用研究既面临着前所未有的发展机遇,也面临着严峻的挑战。 (二)“十五”期间语言文字应用研究面临的形势与任务 随着改革开放的不断深入,社会主义市场经济体制逐步完善,国际国内的交流日益频繁,社会语言生活空前活跃。语言文字作为人们交际的基本工具,社会对其规范化、标准化的要求越来越高,语言文字工作的基础性地位和作用更加突出,工作任务和工作内容也具有了更加丰富的时代内涵。语言文字工作者和研究人员对此要有充分认识,对新的语言现象要进行跟踪记录和研究,并及时加以引导,使语言生活既规范有序,又充满活力。 《中华人民共和国国家通用语言文字法》已于2000年10月31日经第九届全国人大常委会第十八次会议审议通过,并于2001年1月1日起实行。它的诞生确立了普通话和规范汉字作为国家通用语言文字的法律地位,确定了普通话和规范汉字使用范围,是我国社会主义现代化建设的一件大事,标志着我国语言文字规范化、标准化工作开始走上法制化的轨道。语言文字应用研究要全面贯彻落实《中华人民共和国国家通用语言文字法》,积极、主动地为语言文字规范化、标准化建设服务。 今后五年,是贯彻《中华人民共和国国家通用语言文字法》、加强语言文字基础建设的关键时期,也是为国家信息化发展、现代化建

中传MJC考研难度分析

中传MJC考研难度分析 本内容凯程崔老师有重要贡献 本文系统介绍中传新闻学考研难度,中传新闻学硕士就业,中传新闻学考研辅导,中传新闻学考研参考书,中传新闻学考研专业课五大方面的问题,凯程中传新闻学考研老师给大家详细讲解。特别申明,以下信息绝对准确,凯程就是王牌的中传考研机构! 一、中传新闻学考研难度大不大,跨专业的人考上的多不多? 总体来说,中传新闻学专业招生量大,15年的招生人数为36人,其中包含保送生11人。考研难度不高,每年都大量二本三本学生考取的,据凯程从中国传媒大学内部统计数据得知,中传新闻学考研的考生中95%是跨专业考生,在录取的学生中,基本都是跨专业考的。 在考研复试的时候,老师更看重跨专业学生自身的能力,而不是本科背景。其次,新闻学硕士考试科目里,新闻传播史论和新闻实务本身知识点难度并不大,跨专业的学生完全能够学得懂。即使本科学新闻的同学,专业课也不见得比你强多少(大学学的内容本身就非常浅)。在凯程辅导班里很多这样三凯程生,都考的不错,而且每年还有很多二本院校的成功录取的学员,主要是看你努力与否。所以记住重要的不是你之前学得如何,而是从决定考研起就要抓紧时间完成自己的计划,下定决心,就全身心投入,要相信付出总会有回报。 二、中传新闻学硕士就业怎么样? 中传新闻学硕士专业就业实践多,学生动手能力强,且中传在新闻学领域的名气非常大,校友众多,就业不是问题。 据中国传媒大学就业办公室的老师介绍,中传每年的就业率都保持在95%以上,毕业生整体需求还是比较旺盛的,大部分的专业供需比在1:4以上,每年学生大部分进入全国各地的省市地区的广播、电视、报刊、网络、电影等传媒机构和相关行业。社会对中传的办学水平和人才培养质量也给予很高的评价。 中传新闻学的就业方向如下:传媒机构、科研院所、新闻媒体、党政宣传部门、各类网络媒体、新媒体传播机构、相应政府管理部门以及高等院校等。 三、中传新闻学硕士各细分专业介绍 新闻学硕士专业致力于培养具有扎实理论基础,并适应特定行业或职业实际工作需要的应用型高层次专门人才。其专业方向以及个方向15年招生人数如下: 新闻史方向(15年招3人); 新闻理论方向(15年招5人); 新闻业务方向(15年招16人); 网络新闻及新媒体方向(15年招8人); 报刊理论与实践向(15年招4人)。 以上方向的考试科目是一样的,具体是 ①101思想政治理论 ②201英语一、202俄、203日语三选一 ③712新闻传播史论

相关主题