搜档网
当前位置:搜档网 › 基于规则和统计的日语分词和词性标注的研究

基于规则和统计的日语分词和词性标注的研究

第24卷第1期2010年1月

中文信息学报

JOURNALOFCHINESEINFORMATIONPROCESSING

V01.24,No.1

/an.,2010

文章编号:1003-0077(2010)01-0117—06

基于规则和统计的日语分词和词性标注的研究

姜尚仆1’2,陈群秀1’2

(1.清华大学信息科学与技术国家实验室,北京100084;2.清华大学计算机科学与技术系,北京100084)

摘要:日语分词和词性标注是以日语为源语言的机器翻译等自然语言处理工作的第一步。该文提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法作为基本框架,在其中加入了基于规则的词语的邻接属性作为特征。在小规模测试集上的实验结果表明,这种方法分词的F值达到了98.2%,分词加词性标注的F值达到了94.8%。该文所采用的方法已经成功应用到日汉机器翻译系统中。

关键词:人工智能;机器翻译;日汉机器翻译系统;日语分词;日语词性标注;联合分词

中图分类号:TP391文献标识码:A

StudyonJapaneseWordSegmentationandPOS

TaggingBasedonRulesandStatisticsJIANGShangpul”.CHENQunxiul’2

(1.NationalLaboratoryforinformationScienceandTechnology,TsinghuaUniversity,Beijing100084。China;

2.DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)

Abstract:Wordsegmentationandpart—of-speechtaggingisthefirststepofJapanesenaturallanguageprocessingtasks,suchasmachinetranslationinwhichJapaneseisthesourcelanguage.Inthispaper,aJapanesewordsegmen—tationandPOStaggingapproachbasedonrulesandstatisticsisproposed.AdoptingasingleperceptronbasedjointwordsegmentationandPOStaggingalgorithmasthebasicframework,thismethodiscombinedwiththefeaturesofadjacencyattributeswhicharederivedbyheuristicrules.TheexperimentonasmalltestdatasetshowsthatthenewapproachachievesanF-scoreof98.2%onwordsegmentation,and94.8%onbothwordsegmentationandPOStag—ging.ThisworkhasalreadybeenappliedintotheJapanese-Chinesemachinetranslationsystemsuccessfully.

Keywords:artificialintelligence;machinetranslation;Japanese_Chinesemachinetranslationsystem;Japanesewordsegmentation;JapanesePOStagging;jointwordsegmentation

1引言

规则和统计相结合的研究方法是当前计算语言学界主流的研究方法,是今后发展的方向。本文对基于规则和统计的日语分词和词性标注进行了研究,提出了一个准确率较高的基于规则和统计的日语分词和词性标注算法。

日语分词和词性标注是以日语为源语言的机器翻译系统的第一个模块,是其重要组成部分。日语分词和词性标注还被广泛应用于日语的各种自然语言处理的任务中。因此,日语分词和词性标注算法的研究有着重要的意义。和中文类似,日语的词语之间没有明显的分隔符,日语词法分析也包括了分词和词性标注两个部分。

对于序列标注,近年来提出了很多算法,包括HMM[¨、ME[争引、CRFs[43和感知器‘53等。中文分词和词性标注通常被看成一类序列标注问题,而采用字标注的方法,例如对每个字标注B/I[63或者B/M/E/S【73来实现词语切分。然而,在日语分词中,这种方法并不能取得很好的效果[8],这一是由于日

收稿日期:2009—05—30定稿日期:2009—11—05

基金项目:国家863计划重点资助项目(2006AA010109)

作者简介:姜尚仆(1985一),男,硕士生,主要研究方向为自然语言处理和机器翻译;陈群秀(1947一),女,教授,主要研究方向为自然语言处理和机器翻译。

万方数据

相关主题