搜档网
当前位置:搜档网 › 基于句法分析的中文事件抽取方法研究

基于句法分析的中文事件抽取方法研究

基于句法分析的中文事件抽取方法研究
基于句法分析的中文事件抽取方法研究

上海大学

硕士学位论文

基于句法分析的中文事件抽取方法研究

姓名:刘耀华

申请学位级别:硕士

专业:计算机应用技术

指导教师:刘宗田

20090201

层次分析法

语法从表面上看是线性排列的符号序列。 间先后顺序说出或写出的形式。但是语法结构却是有层次性的,层 返回次是指句法单位在组合时所反映出来的不同的先后顺序。 表层的线性关系背后暗含着隐性的层次关系。小的语法单位是 大语法单位的组成部分,大的语法单位是由小的语法单位组合而成 的,本身又可以成为更大语法单位的组成部分。 语法结构的每个层次一般直接包含比它小的两个语法单位,这 两个小的语法单位就是直接成分。每一个直接成分又可以包含更小 的直接成分。 例如: 我们进行社会调查分析过程 |主||____谓_______| |_述 | 宾____ | |_定)中 | 更多例子 层次分析法就是逐层将一个句法单位(联合短语等由多个直接 成分组成的短语除外)切分成两个直接成分,直到不能再切分为止 的句子分析方法。 2、分析过程 层次分析法的分析过程主要包括两个步骤: 层次,第二步是确定结构关系。 返回例如: 他去年去了一趟美国。分析过程 |__||___________________| 主谓关系 |___||______________| 状中关系 |________| |__| 述宾关系 |_| |___| 述补关系更多例子 切分过程中应注意: ①第一步切分非常重要,第一步切分不当,后面便容易全都切 错。

②必须逐层切分,直至分析出每个实词,语素不需要切分。 ③为避免切分过程中的遗漏,一般采用从左到右、从上到下、 逐块切分的分析步骤。 3、层次分析法的图解表示 ①切分法 返回切分法是最常用的方法,将所要分析的短语或句子作为一个整 体,从大到小,逐层切分。 例如: 申奥成功有助于中国的改革与开放。分 析过程 |_ 主 __| |______ 谓 ________________| |主| |谓| |_述_ |______ 宾___________| |__ 定_)_ 中_______| | 联 + 合 | ②组合法 组合法是把所要分析的短语或句子切分到单词,然后从小到 大,依次组合起来。例如: 他弟弟在北京念大学分析过程 |_定中_| |_介宾_| |_述宾_| | |____状中____| |_____主谓______| ③树形图 树形图是把有关的结构分析用竖线和斜线连接起来,从而显示 出句法单位内部的结构关系。例如: S / \ 主语谓语 / \ / \ 偏正述宾

中文分词技术的研究

3 2009209218收到,2010201203改回 33 基金项目:国家级课题资助项目(30800446)。 333刘红芝,女,1980年生,硕士,研究方向:电子信息咨询与服务,计算机网络及数据库技术。 文章编号:100325850(2010)0320001203 中文分词技术的研究 Research on Ch i nese W ord Segm en ta tion Techn iques 刘红芝 (徐州医学院图书馆 江苏徐州 221004) 【摘 要】对中文分词的主要算法进行了研究,阐述了中文分词中存在的困难及其解决方法,最后指出了中文分词的未来研究工作。 【关键词】中文分词,算法,歧义,未登录词,停用词 中图分类号:T P 391 文献标识码:A ABSTRACT T h is paper analyzes the m ain am biguities of Ch inese w o rd segm entati on ,elabo rates difficulties in Ch inese w o rd segm entati on and their so luti ons ,and finally po ints out the existing p roblem s in Ch inese w o rd segm entati on and the future research w o rk 1 KEYWOR D S ch inese w o rd segm entati on ,algo ris m ,am biguity ,unknow n w o rd ,stop 2w o rd 随着因特网上信息给人们带来方便的同时,也存在信息查找不便、不良信息过多等弊端,信息过滤技术应运而生。信息过滤[1]就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息的过程。目前很多信息过滤系统的设计都是基于内容的过滤,即查找信息文本中是否含有特征词库中设置的关键词。这种设计思想符合人们正常的思维习惯,比较容易实现。但是在实际应用中,特别是在处理中文信息的时候由于缺乏中文策略,处理结果很难让人满意。 因此,进行中文信息过滤,首先就要对文本预处理,进行中文分词,将其表示成可计算和推理的模型。中文分词是中文文本过滤的首要基础性工作、难点问题,也是自然语言信息处理中最基本的一步。 1 中文分词技术 将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词;中文分词就是把中文的汉字序列分成有意义的词[2]。分词只是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术。 2 中文分词的必要性 如何让计算机更好地读懂人类的语言,理解人类的思想,更好地让用户快速方便地搜索到自己所需要的资源,中文分词技术的产生是中文搜索质量提高的 至关重要的因素。众所周知,中文文本与英文文本的表示方法有所不同,英文文本中词与词中间都由空格或标点符号隔开,因而词与词之间的界限很明显,可以很容易地获取关键词,而中文文本中词与词则无明显的界限,这就影响了关键词的获取和匹配[3]。 3 分词的主要算法 中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。 现有的分词算法按照是否使用分词词典来分,可分为基于词典的分词算法和基于无词典的分词算法[4]。基于词典的分词算法的分词精度在很大程度上依赖于分词词典的好坏,基于无词典的分词算法不需要利用词典信息,它通过对大规模的生语料库进行统计分析,自动地发现和学习词汇,从分词精度来看,基于词典的分词算法要大大优于无词典的分词算法。311 基于词典的分词算法 基于词典的分词算法主要基于一个词典和一个基本的切分评估规则。早期主要采取机械匹配的方法,但由于缺乏歧义切分的处理,故切分的精度较低,后来随着研究的发展,加入了规则的切分,但规则的制订不仅需要大量的人力而且对系统的开放性有很大的局限,因此后来又引入了从基于统计的分词方法,不仅统计 ? 1? 第23卷 第3期 电脑开发与应用(总173)

层次分析法实例与步骤

层次分析法实例与步骤 结合一个具体例子,说明层次分析法的基本步骤和要点。 【案例分析】市政工程项目建设决策:层次分析法问题提出 市政部门管理人员需要对修建一项市政工程项目进行决策,可选择的方案是修建通往旅游区的高速路(简称建高速路)或修建城区地铁(简称建地铁)。除了考虑经济效益外,还要考虑社会效益、环境效益等因素,即是多准则决策问题,考虑运用层次分析法解决。 1. 建立递阶层次结构 应用AHP解决实际问题,首先明确要分析决策的问题,并把它条理化、层次化,理出递阶层次结构。 AHP要求的递阶层次结构一般由以下三个层次组成: *目标层(最高层):指问题的预定目标; *准则层(中间层):指影响目标实现的准则; *措施层(最低层):指促使目标实现的措施; 通过对复杂问题的分析,首先明确决策的目标,将该目标作为目标层(最高层)的元素,这个目标要求是唯一的,即目标层只有一个元素。 然后找出影响目标实现的准则,作为目标层下的准则层因素,在复杂问题中,影响目标实现的准则可能有很多,这时要详细分析各准则因素间的相互关系,即有些是主要的准则,有些是隶属于主要准则的次准则,然后根据这些关系将准则元素分成不同的层次和组,不同层次元素间一般存在隶属关系,即上一层元素由下一层元素构成并对下一层元素起支配作用,同一层元素形成若干组,同组元素性质相近,一般隶属于同一个上一层元素(受上一层元素支配),不同组元素性质不同,一般隶属于不同的上一层元素。 在关系复杂的递阶层次结构中,有时组的关系不明显,即上一层的若干元素同时对下一层的若干元素起支配作用,形成相互交叉的层次关系,但无论怎样,上下层的隶属关系应该是明显的。 最后分析为了解决决策问题(实现决策目标)、在上述准则下,有哪些最终解决方案(措施),并将它们作为措施层因素,放在递阶层次结构的最下面(最低层)。 明确各个层次的因素及其位置,并将它们之间的关系用连线连接起来,就构成了递阶层次结构。 【案例分析】市政工程项目进行决策:建立递阶层次结构 在市政工程项目决策问题中,市政管理人员希望通过选择不同的市政工程项目,使综合效益最高,即决策目标是“合理建设市政工程,使综合效益最高”。 为了实现这一目标,需要考虑的主要准则有三个,即经济效益、社会效益和环境效益。但问题绝不这么简单。通过深入思考,决策人员认为还必须考虑直接经济效益、间接经济效益、方便日常出行、方便假日出行、减少环境污染、改善城市面貌等因素(准则),从相互关系上分析,这些因素隶属于主要准则,因此放在下一层次考虑,并且分属于不同准则。 假设本问题只考虑这些准则,接下来需要明确为了实现决策目标、在上述准则下可以有哪些方案。根据题中所述,本问题有两个解决方案,即建高速路或建地铁,这两个因素作为措施层元素放在递阶层次结构的最下层。很明显,这两个方案于所有准则都相关。 将各个层次的因素按其上下关系摆放好位置,并将它们之间的关系用连线连接起来。同时,为了方便后面的定量表示,一般从上到下用A、B、C、D。。。代表不同层次,同一层次从左到右用1、2、3、4。。。代表不同因素。这样构成的递阶层次结构如下图。

自然语言理解技术

自然语言理解技术,未来人工智能的核动力 摘要:自然语言理解是人工智能研究重要的领域之一,同时也是目前前沿的难题之一。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是未来人工智能的核动力。因此理解自然语言理解以及自然语言理解技术的含义,阐述自然语言理解的研究及其相关应用,综述自然语言理解技术研究方向变化并对自然语言理解的发展前景进行分析和展望,是十分有意义的。 关键词:自然语言理解技术;智能信息服务; 1.引言: 随着计算机科学的不断发展和成熟,计算机应用开始迈人知识处理、语言理解阶段,人们对计算机的智能提出了新的要求随着社会的日益信息化,人们越来越强烈地希望能更好地同计算机交流。自然语言就是这样一个媒介。 2. 1自然语言理解的含义: 广义的“语言”是任何一种有结构的符号系统。其中, 最重要的两类语言,自然语言和形式语言。而狭义的“语言”是人类在社会牛活中发展出来的用来互相交际的声音符号系统,是“自然语言”。 “自然语言理解”即Natural Language Understanding 俗称人机对话,指的就是使计算机来按照这种语言所表达的意义做出相应反应的机制。它主要研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。2. 1自然语言理解技术的含义: 首先, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。 其次, 自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多

国内中文分词技术研究新进展

国内中文分词技术研究新进展 冯书晓 徐 新 杨春梅 (石河子大学药学院 乌鲁木齐 832002) 摘 要 就开发中文搜索引擎在汉语语言方面的关键技术之一,即中文分词技术进行综述。 关键词 中文搜索引擎 中文分词 文献检索 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大减轻了用户与计算机的工作量;相对来讲,中文的情形就复杂得多。中文的词与词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种技术被称之为 汉语词语切分技术 。根据是否采用词语切分技术,中文搜索引擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊性和复杂性,中文搜索引擎技术还很不成熟,开发中文搜索引擎决不像西文软件的汉化那样简单。在实现中文搜索引擎时,不能照搬国外现成的技术,需要对中文的信息处理技术作专门地研究。自然语言理解领域的应用已经越来越广,但是几乎任何一个基于汉语的系统,都必须经过分词这一步。自动分词系统是中文信息处理中的一个主要组成部分,是中文自然语言理解、文献检索、机器翻译即语音合成系统中最基本的一部分。在搜索引擎中,为了进行中文信息小型化,需要提取关键知识,也就是说首先要分隔出单个的中文词语,然后进行词频统计得到关键词。要开发中文搜索引擎,快速的汉语分词算法和可靠的汉化技术是至关重要的。本文将针对中文分词技术及近年来中文分词技术的发展作一综述。 1 中文分词技术 1.1 中文词的特点 与英文不同,字是汉语的基本独立单位,但是具有一定语义的最小单位却是词。词由单个或多个字构成,一般用得最多的是二字词,其次是单字词,另外还有一些多字词(如成语、专有名词等)。 1.1.1 数量多。汉语中常用的词有 几万条, 现代汉语词典 中收录的词就达 6万个之多。而且,随着社会的发展,不断 地有新词产生。 1.1.2 使用灵活、变化多样,容易产 生歧义。例如同样的两个连续汉字,在有 的句子中构成一个词,而在另外的句子环 境中,却可能不构成词。这给计算机的词 法分析工作带来了极大的困难。 1.1.3 书写习惯。在英文系统中, 词与词之间在书写上用空格隔开,计算机 处理时可以非常容易地从文档中识别出 一个一个的词。而在汉语系统中,书写以 句子为单位,句间有标点隔开,在句内,字 和词则是连续排列的,它们之间没有任何 分隔。这样,如果要对中文文档进行基于 词的处理,必须先要进行词的切分处理, 以正确地识别出每一个词。 1.1.4 其它特点。诸如汉字同音 字、同音异形字等等。 1.2 一般分词方法 目前采用的分词 方法主要有以下几种:最大匹配法、反向 最大匹配方法、逐词遍历法、设立切分标 志法、最佳匹配法、有穷多层次列举法、二 次扫描法、邻接约束方法、邻接知识约束 方法、专家系统方法、最少分词词频选择 方法、神经网络方法等等。除了这些,许 多基于统计的方法也引入到分词过程中。 例如分词与词性标注一体化方法,随机有 限状态算法用于分词,模拟物理研究中结 晶过程的统计方法也被尝试于分词过程。 此外,还有大量的基于统计或规则的汉语 未登录词识别的研究,这里不能一一列 举。但归纳起来不外乎两类:一类是理解 式切词法,即利用汉语的语法知识和语义 知识以及心理学知识进行分词,需要建立 分词数据库、知识库和推理机;另一类是 机械式分词法,一般以分词词典为依据, 通过文档中的汉字串和词表中的词逐一 匹配来完成词的切分。下面笔者就以此 对近年来中文分词技术的进展分类作一 综述。 2 中文分词技术的进展 目前的分词算法多种多样,基本上可 分为两大类:机械性分词和理解性分词 法。后者可谓理想的方法,但在语法分 析、语义分析乃至篇章理解还没有得到解 决之前,其分词实用系统主要采用机械分 词法,但实际上纯机械性分词也无人在 用,一般都使用介于二者之间的某种分词 法。在此,本人称之为综合式分词法,收 录了由作者本人明确指出同时采用了机 械式分词法和理解式分词法的文章。 2.1 机械式分词法 邹海山等在现有 分词技术的基础上,提出了一种基于词典 的正向最大匹配和逆向最大匹配相结合 的中文分词方案,可以高效、准确地实现 中文文档的主题词条的抽取和词频统计。 应志伟等基于一个实际的文语转换系统, 介绍了它的一些处理方法,采用了一种改 进的最大匹配法,可以切分出所有的交集 歧义,提出了一种基于统计模型的算法来 处理其中的多交集歧义字段,并用穷举法 和一些简单的规则相组合的方法从实用 角度解决多音字的异读问题以及中文姓 名的自动识别问题,达到实现文语转换的 目的。陈桂林等首先介绍了一种高效的 中文电子词表数据结构,它支持首字Hasb 和标准的二分查找,且不限词条长度,然 后提出了一种改进的快速分词算法。在 快速查找两字词的基础上,利用近邻匹配 方法来查找多字词,明显提高了分词效 情报杂志2002年第11期 情报检索

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法 很有用,请好好学习之。 北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里 很重要的一个内容,老师上课也会讲到,我在这 里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵:一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓

语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)我们║五个人一组。(2)我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性: 1.在一个层面上分析句子,

层次性不强; 2.对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3. 一些由于句子的层次关系 不同而造成的歧义句子无法分析; 如:照片放大了一点儿。咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。

自然语言检索中的中文分词技术研究进展及应用_何莘

自然语言检索中的中文分词技术研究进展及应用 何 莘1 ,王琬芜 2 (1.西安石油大学机械工程学院,陕西西安710065;2.浙江大学信息科学与工程学院,浙江杭州310058)摘 要:中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 关键词:中文分词;自动分词;分词算法 中图分类号:TP391,G354 文献标识码:A 文章编号:1007-7634(2008)05-0787-05 Research and Application of Chinese Word Segmentation Technical Based on Natural Language Information Retrieval HE Xin 1 ,W ANG Wan -wu 2 (1.School o f Mechanical Engineering ,Xi p an Shiyou University ,Xi p an 710065,China ;2.School o f In f o rmation Science and Engineering ,Zhejiang University ,Hangzhou 310058,China )Abstract :Chinese word segmentation technique is the important foundation that realize the natural language re -trieval,also is the key topic of the research in information retrieval domain.Professional information retrieval sys -te m and search engine both depend on the research achievements of word segmentation technique.This paper in -dexes in the domestic and international famous database,then Chinese word segmentation technique has been ana -lyzed in fa mous search engines is sum marized. Key words :Chinese word segmentation;automatic word se gmentation;word segmentation algorithm 收稿日期:2007-10-23 作者简介:何 莘(1968-),女,河北保定人,工程师,从事信息存储与检索技术、数字资源管理、搜索引擎技术等研究. 1 分词及分词算法 从中文自然语言句子中划分出有独立意义词的过程被称为分词。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位。由于中文词与词之间没有明确的边界,因此,中文分词技术中文信息处理的基础是机器翻译、分类、搜索引擎以及信息检索。中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。现有的分 词算法可分为三大类:基于字符串匹配的分词方 法、基于理解的分词方法和基于统计的分词方法。 111 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个/充分大的0机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 (1)正向最大匹配法(MM 法)。其基本思想 第26卷第5期2008年5月 情 报 科 学 Vol.26,No.5May,2008

中文分词技术研究

分词算法一般有三类:基于字符串匹配、基于语义分析、基于统计。复杂的分词程序会将各种算法结合起来以便提高准确率。Lucene被很多公司用来提供站内搜索,但是Lucene本身并没有支持中文分词的组件,只是在Sandbox里面有两个组件支持中文分词:ChineseAnalyzer和CJKAnalyzer。ChineseAnalyzer 采取一个字符一个字符切分的方法,例如"我想去北京天安门广场"用ChineseAnalyzer分词后结果为:我#想#去#北#京#天#安#门#广#场。CJKAnalyzer 则是二元分词法,即将相邻的两个字当成一个词,同样前面那句用CJKAnalyzer 分词之后结果为:我想#想去#去北#北京#京天#天安#安门#门广#广场。 这两种分词方法都不支持中文和英文及数字混合的文本分词,例如:IBM T60HKU现在只要11000元就可以买到。用上述两种分词方法建立索引,不管是搜索IBM还是11000都是没办法搜索到的。另外,假如我们使用"服务器"作为关键字进行搜索时,只要文档包含"服务"和"器"就会出现在搜索结果中,但这显然是错误的。因此,ChineseAnalyzer和CJKAnalyzer虽然能够简单实现中文的分词,但是在应用中仍然会感觉到诸多不便。基于字符串匹配的分词算法用得很多的是正向最大匹配和逆向最大匹配。其实这两种算法是大同小异的,只不过扫描的方向不同而已,但是逆向匹配的准确率会稍微高一些。"我想去北京天安门广场"这句使用最大正向分词匹配分词结果:我#想去#北京#天安门广场。这样分显然比ChineseAnalyzer和CJKAnalyzer来得准确,但是正向最大匹配是基于词典的,因此不同的词典对分词结果影响很大,比如有的词典里面会认为"北京天安门"是一个词,那么上面那句的分词结果则是:我#想去#北京天安门#广场。 如果用"广场"作为关键字进行检索,那么使用后一个词典分出来的便可检索到,而使用前一个的则不行,而事实上应该是不管搜索北京天安门、天安门广场、天安门、广场都能检索到这篇文档。使用全切分可以实现这个想法,同样是那句使用正向全切分分词结果为:我#想去#北京天安门#北京#天安门#天安门广场#广场,这样不管用"北京天安门"、"天安门广场"、"天安门"、"广场"中的哪一个作为关键字搜索都可以搜索到。采取这种分法会在一定程度上提高分词的准确率,但也会出现问题,例如"我要在上海南站上车"这句采用正向全切分结果为:我#要在#上海#海南#南站,分出海南这个词显然是错误的,这属于交叉歧义。 正如前面所说,基于字符串匹配的分词算法都是依赖于词典的,但是不管再

层次分析法实例与步骤(精)讲课教案

层次分析法实例与步 骤(精)

层次分析法实例与步骤 结合一个具体例子,说明层次分析法的基本步骤和要点。 【案例分析】市政工程项目建设决策:层次分析法问题提出 市政部门管理人员需要对修建一项市政工程项目进行决策,可选择的方案是修建通往旅游区的高速路(简称建高速路)或修建城区地铁(简称建地铁)。除了考虑经济效益外,还要考虑社会效益、环境效益等因素,即是多准则决策问题,考虑运用层次分析法解决。 1. 建立递阶层次结构 应用AHP解决实际问题,首先明确要分析决策的问题,并把它条理化、层次化,理出递阶层次结构。 AHP要求的递阶层次结构一般由以下三个层次组成: ●目标层(最高层):指问题的预定目标; ●准则层(中间层):指影响目标实现的准则; ●措施层(最低层):指促使目标实现的措施; 通过对复杂问题的分析,首先明确决策的目标,将该目标作为目标层(最高层)的元素,这个目标要求是唯一的,即目标层只有一个元素。 然后找出影响目标实现的准则,作为目标层下的准则层因素,在复杂问题中,影响目标实现的准则可能有很多,这时要详细分析各准则因素间的相互关系,即有些是主要的准则,有些是隶属于主要准则的次准则,然后根据这些关系将准则元素分成不同的层次和组,不同层次元素间一般存在隶属关系,即上一层元素由下一层元素构成并对下一层元素起支配作用,同一层元素形成若干组,同组元素性质相近,一般隶属于同一个上一层元素(受上一层元素支配),不同组元素性质不同,一般隶属于不同的上一层元素。 在关系复杂的递阶层次结构中,有时组的关系不明显,即上一层的若干元素同时对下一层的若干元素起支配作用,形成相互交叉的层次关系,但无论怎样,上下层的隶属关系应该是明显的。 最后分析为了解决决策问题(实现决策目标)、在上述准则下,有哪些最终解决方案(措施),并将它们作为措施层因素,放在递阶层次结构的最下面(最低层)。 明确各个层次的因素及其位置,并将它们之间的关系用连线连接起来,就构成了递阶层次结构。 【案例分析】市政工程项目进行决策:建立递阶层次结构

汉语句法分析方法的嬗变

汉语句法分析方法的嬗变 综述:我国古代就有学者对语言进行研究,但我们的研究更多的是音韵、文字等方面,而语法一直是我们研究的弱点,我国的语法研究起步晚,可以说是以《马氏文通》为起点,它奠定了汉语传统语法学的基础。不难发现,我国的语法研究深受西方语言法学研究的影响,当然关于句法分析的研究也是如此。关于汉语句法分析的研究,从20世纪80年代初以来,一直都没有停止过,先后出现了中心词分析法与层析分析法相结合的方法、变换分析法、语义特征分析法、配价分析法、语义指向分析法等汉语句法分析方法。 摘要: 汉语是一门简单而又复杂的语言,为了让我们更好地了解汉语,语言学家想出了一些方法来解释说明语言中的种种现象,我们称之为“句法分析法”。经过许多学者的努力,到目前已经有不少的研究成果了。众多学者站在不同的专业角度研究出了不同的分析方法来解释语言现象。如层次分析法、变换分析法、语义特征分析法、配价分析法等。那关于汉语句法分析的研究进行了这么多年,其中历经了哪些演变?结合所学知识,我对此做了以下分析。 关键词:句法分析、演变、汉语、作用 正文: 汉语是一门简单而又复杂的语言,为了让我们更好地了解汉语,语言学家想出了一些方法来解释说明语言中的种种现象,我们称之为“句法分析法”。所谓句法分析就是指对句子中的词语语法功能进行分析,比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。迄今为止,众多学者已经研究出了许多不同的分析方法来解释语言现象,从句子成分分析法、层次分析法、变换分析法、语义特征分析法、配价分析法到语义指向分析法,句法分析逐步走上兼顾形式和意义的道路,可以说句法分析在自然语言处理领域中具有十分重要的地位。 句子成分分析法(也叫中心词分析法)是我国语言研究中最早使用的一种句法分析法,黎锦熙在《新著国语文法》中首次提出了“六大句子成分说”,为句子成分分析法的产生奠定了基础。对于这句子成分分析法,我们比较熟悉。所谓句子成分分析法是从句法结构的关系意义出发,对句子的成分功能或作用分析的方法,即用各种方法标出基本成分(主语、谓语、宾语)和次要成分(定语、状语、补语)。这种分析方法,分析的对象是句子,认定句子有六个大的句子成分,即所谓的主语、谓语、宾语、定语、状语、补语。在一个句子中,做句子成分的原则上都只能是词,而且分析时,应该先找出全句的中心词作为主语和述语,再看述语是哪一种动词,决定它后面有无连带成分宾语或补足语,最后指出句中所有的附加成分——形容性附加语和副词性补足语。 句子成分分析法的优点是:第一,容易找出句子的脉络;第二,可以分析由中国特色的句子,如兼语句。但是它只能分析单句中的主谓句,不能分析单句中的非主谓句,不能分析复句,也无法分析句组;分析歧义句的能力差,忽视了句子的层次性。 句子成分分析法被语言教学界广泛接受和使用,中小学教学一般采用这种方法来给学生进行句法分析。它对推动汉语教学语法的发展做出了很大的贡献。 在句子成分分析法之后,又一句子分析法出现在我国的语言界——层次分析法。它是美国著名语言学家布龙菲尔德在20世纪30年代提出的一种语言分析方

层次分析法的基本步骤和要点

层次分析法的基本步骤和要点 结合一个具体例子,说明层次分析法的基本步骤和要点。 【案例分析】市政工程项目建设决策:层次分析法问题提出 市政部门管理人员需要对修建一项市政工程项目进行决策,可选择的方案是修建通往旅游区的高速路(简称建高速路)或修建城区地铁(简称建地铁)。除了考虑经济效益外,还要考虑社会效益、环境效益等因素,即是多准则决策问题,考虑运用层次分析法解决。 1. 建立递阶层次结构 应用AHP解决实际问题,首先明确要分析决策的问题,并把它条理化、层次化,理出递阶层次结构。 AHP要求的递阶层次结构一般由以下三个层次组成: ●目标层(最高层):指问题的预定目标; ●准则层(中间层):指影响目标实现的准则; ●措施层(最低层):指促使目标实现的措施; 通过对复杂问题的分析,首先明确决策的目标,将该目标作为目标层(最高层)的元素,这个目标要求是唯一的,即目标层只有一个元素。 然后找出影响目标实现的准则,作为目标层下的准则层因素,在复杂问题中,影响目标实现的准则可能有很多,这时要详细分析各准则因素间的相互关系,即有些是主要的准则,有些是隶属于主要准则的次准则,然后根据这些关系将准则元素分成不同的层次和组,不同层次元素间一般存在隶属关系,即上一层元素由下一层元素构成并对下一层元素起支配作用,同一层元素形成若干组,同组元素性质相近,一般隶属于同一个上一层元素(受上一层元素支配),不同组元素性质不同,一般隶属于不同的上一层元素。 在关系复杂的递阶层次结构中,有时组的关系不明显,即上一层的若干元素同时对下一层的若干元素起支配作用,形成相互交叉的层次关系,但无论怎样,上下层的隶属关系应该是明显的。 最后分析为了解决决策问题(实现决策目标)、在上述准则下,有哪些最终解决方案(措施),并将它们作为措施层因素,放在递阶层次结构的最下面(最低层)。 明确各个层次的因素及其位置,并将它们之间的关系用连线连接起来,就构成了递阶层次结构。 【案例分析】市政工程项目进行决策:建立递阶层次结构 在市政工程项目决策问题中,市政管理人员希望通过选择不同的市政工程项目,使综合效益最高,即决策目标是“合理建设市政工程,使综合效益最高”。 为了实现这一目标,需要考虑的主要准则有三个,即经济效益、社会效益和环境效益。但问题绝不这么简单。通过深入思考,决策人员认为还必须考虑直接经济效益、间接经济效益、方便日常出行、方便假日出行、减少环境污染、改善城市面貌等因素(准则),从相互关系上分析,这些因素隶属于主要准则,因此放在下一层次考虑,并且分属于不同准则。 假设本问题只考虑这些准则,接下来需要明确为了实现决策目标、在上述准则下可以有哪些方案。根据题中所述,本问题有两个解决方案,即建高速路或建地铁,这两个因素作为措施层元素放在递阶层次结构的最下层。很明显,这两个方案于所有准则都相关。 将各个层次的因素按其上下关系摆放好位置,并将它们之间的关系用连线连接起来。同时,为了方便后面的定量表示,一般从上到下用A、B、C、D。。。代表不同层次,同一层次从左到右用1、2、3、4。。。代表不同因素。这样构成的递阶层次结构如下图。

现代汉语句法分析中的变换分析法

现代汉语句法分析中的变换分析法 摘要:对变换分析法在汉语语法学界的发展运用作较全面的分析阐述并对变换现象加以分类,分析变换的方法和原则,阐明变换的作用,归纳分析这方面的研究成果,也指出了变换分析的局限性。关键词:变换分析;句法分析;汉语 我们想要认识和了解语言,就要对其作深一层的分析,要了解其中的规则,句法分析就是必不可少的。从句法的角度来解释说明种种语言现象,就称之为“句法分析”。句法分析经历了长时间的发展,逐渐形成了句子成分分析法、层次分析法、变换分析法、语义特征分析法、配价分析法、语义指向分析法等多种方法。 首先一般比较熟悉的是句子成分分析法,它可以让人一下子把握住一个句子的脉络,但它不大关注语法结构的层次性。由于它的这一局限性,便出现了层次分析法,层次分析法将句法结构的层次性考虑进来,按其构造层次逐层进行分析,但它不能揭示句法结构内部的实词之间的语义结构关系,特别是歧义。要揭示这种隐含在句子里边的实词与实词之间的语义结构关系,就得寻求新的分析手段,于是变换分析法就又适应这种需要而产生了,成为最易于和普遍运用的一种方法。 一、什么是变换分析法 关于变换的思想,早在1942年出版的吕叔湘的《中国文法要略》一书里就有了。之后,吕叔湘在《中国文法要略》中讨论了句子和词组相互转换的问题,但未具体展开。50年代,海里斯和乔姆斯基

分别在结构语言学和生成语法的框架下展开了转换的研究。而继海里斯之后,在中国朱德熙先生在变换分析上作出了重要的贡献。在《语法讲义》中,朱先生充分运用了变换分析的方法来解释许多层次分析法不能解决的问题,在分化歧义句式、层次切分、判断词类以及分化语义角色等方面都发挥了重要作用意义。 变换分析法是通过移位、添加、删除、替换等方法来考察具有内在联系的不同句法结构之间联系的一种分析方法,即按照一定的规则,把甲句变成乙句。它是根据句法格式的相关性,是两种结构不同的句式之间根据依存关系的变换。目的是通过变换分辨句法结构的异同,看清句子结构的特点。朱德熙先生首先提出变换分析法,并在国内最早运用这种理论进行实践。例如: a台上坐着主席团可以转换为: a1主席团坐在台 b 操场上放着电影b1 操场上正在放电影 这两组例句都是“处所名词+动词+助词+名词”,是相同的结构,但在语义关系上还存在区别。 具体的来看,变换分析法可以分为两类来更清楚地加以认识:(1)当句法同义时 1.我打破了杯子。 可变换为: a、杯子被我打破了。 c、我把杯子打破了。 虽然转换成不同的句子格式,但是施事受事都未发生变化,意思

中文分词技术毕业论文开题报告

1 课题概述 随着网络的高速发展,社会的信息化水平不断提高,人们越来越习惯,也越来越依赖从互联网中获取信息。面对当前信息呈现的爆炸性增长趋势,我们迫切地需要优质、准确、快捷、简单、合理的手段对海量信息进行检索,从中获取有效的数据。作为海量信息检索中最首要的预处理手段,分词技术应运而生。 在自然语言处理中,词是最小的能够独立活动的有意义的语言成分。而分词技术指的是将文本拆分成词的一种技术。它属于自然语言处理技术的范畴,是文本分类、数据检索、信息抽取、机器翻译、自动摘要、文本语音输入输出等研究领域的基础所在。 至于中文分词(Chinese Word Segmentation),则是将中文文本中的汉字序列合理切分成一个个单独的词,并对其进行分析处理,然后将文本中的字序列按照一定的规则重新组合成词序列的过程。 众所周知,中文与作为拉丁语系语言代表的英文相比,有着明显的区别。英文以空格作为天然的分隔符,词与词之间的区分很明显,并不需要特殊的分词技术。而中文由于继承了古代汉语的传统,以字作为基本的书写单位,词都处于具体的语句之中,所以并不存在天然的界限。因此,仅仅通过句子或段落间的分隔标志进行切分是不可行的。同时,由于中文语义的复杂性与语法的多变性,大多数英文分词技术不能直接适用于中文分词。 尽管如此,中文分词技术依然是中文信息处理的基础与关键所在。作为自然语言处理与信息检索领域的研究热点,中文分词技术不断地发展,并被广泛应用于信息检索、搜索引擎、机器翻译、中文校对、文本语音输入输出等方面。而近年来对中文分词技术的需求与要求的不断提高,也在一定程度上刺激了中文分词技术的发展。 目前,中文分词技术正在逐渐迈向成熟。但是在其关键技术上,依然有改进的空间。本课题的目的即在于,在前人的研究基础上,通过对中文数据检索中的分词检索机制进行研究,以期初步实现一种可行的中文分词技术,使之具备一定的实用意义与理论价值。 2 国内外发展现状

现代汉语语法的句法分析

《现代汉语语法研究》第三讲现代汉语语法的句法分析这里的句法是指语法的句法结构平面。词语与词语按照一定的方式组合起来,构成一定的句法结构,对句法结构进行分析,就是句法分析。在这一讲里,我们主要讲三个问题: 1、句法结构的结构类型 2、句法结构的结构成分 3、句法结构的分析一、句法结构的结构类型1、句法结构的分类词语与词语按照一定的方式组合起来,构成一定的句法结构。根据构成句法结构的词语的性质和结构方式,我们可以把句法结构分成不同的类型。由实词与实词构成的句法结构,根据实词与实词之间不同的结构方式分为不同的类。主要有:联合结构、偏正结构、动宾结构、中补结构、主谓结构、连动结构、兼语结构、同位结构、方位结构、量词结构。由实词与虚词构成的句法结构,根据虚词的标志特征分为不同的类。主要有:“的”字结构、介词结构、比况结构、“所”字结构这些不同的结构,从结构形式上讲又可以分为两类:复合式和附加式。(1)、复合式由实词与实词构成的句法结构,其中联合结构、偏正结构、动宾结构、中补结构、主谓结构、连动结构、兼语结构、同位结构是复合式。 ①偏正结构由修饰语和中心语两部分组成,一前一后。如:“他的哥哥”“明天回来”②动宾结构两部分构成,前一部分是动词,后一部分是动词涉及的对象。例如:“考大学”“想念亲人”③中补结构

两部分组成,后一部分补充说明前一部分,中补短语的中心语通常是谓词性词语,如:“跑得快”(中心语为动词)“好得很”(中心语为形容伺)④主谓结构两部分组成,前一部分是主语,是被陈述的对象,后一部分是谓语,是陈述前一部分的。如:⑤兼语结构由一个动宾短语和一个主谓短语套叠而成,动宾短语的宾语兼作主谓短语的主语。如:⑥连动结构由不止一个动词性词语连用,隐含同一个主语,各部分之间没有关联词语,没有语音停顿,也没有联合,偏正、主谓、补充等关系,这样的短语叫连动短语。如:⑦联合结构由两个或两个以上的部分组成,各部分之间具有并列、顺承、选择、递进等关系。如:“城市乡村”“我和你”⑧同位结构两部分组成,这两部分从不同的方面称说同一个人或物。构成同位的两项词语必须是两个不同的词语,而且必须是复指关系,即在同一个句法位置上指同一个对象。如:“古城西安”、“通讯员小王”。(2)、附加式由实词与虚词构成的句法结构都是附加式的,由实词与实词构成的方位结构、量词结构也可看成附加式。①方位结构由方位名词附加在其他词或短语的后面组成,表示处所,范围或时间。如:“教室里”“操场上”“整洁的房间里”“毕业前”“前进中”“会议结束之前””吃完饭后”②量词结构由数词或代词加上量词组成,如:“一个”“五次”“这件”“那位”③“的”字结构由结构助词“的”

现代汉语语法分析的五种方法

北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里很重要的一个内容,老师上课也会讲到,我在这里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵: 一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)????????我们║五个人一组。 (2)????????我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性:

1.????????在一个层面上分析句子,层次性不强; 2.????????对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3.????????一些由于句子的层次关系不同而造成的歧义句子无法分析; 如:照片放大了一点儿。???咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。 基本精神: 1.????????承认句子或句法结构在构造上有层次性,并在句法分析上严格按照内部的构造层次 进行分析; 2.????????进行分析时,要明确说出每一个构造层面的直接组成成分;3.????????分析时只管直接成分之间的语法结构关系,不管间接成分之间的语法结构关系或句 法结构中实词与实词之间的语义结构关系; 优越性: 1.????????注意到了句子构造的层次性; 如:??他??刚??来???????我们??便宜??他了 ?????│ │__│?????????│???│___│

相关主题