搜档网
当前位置:搜档网 › PageRank模型在中文情感词极性判别中的应用

PageRank模型在中文情感词极性判别中的应用

2010年10月

第33卷第5期

北京邮电大学学报

JournalofBeijingUniversityofPostsandTelecommunications

Oct.2010

V01.33No.5

文章编号:1007?5321(2010)05-0141-04

PageRank模型在中文情感词极性判别中的应用

李荣军,王小捷,周延泉

(北京邮电大学计算机学院,北京100876)

摘要:针对倾向性分析任务中的基础性工作——情感词的极性判断工作,提出了一种基于PageRank模型的情感词极性判断方法.由待判别情感词和少量种子情感词构成图中的结点,利用知网(HowNet)语义资源计算词语间的语义相似度,进而得到图中结点间边的权重.通过PageRank模型的引入,综合利用有标种子情感词和无标待判别情感词实现对无标情感词的极性判别.与传统的基于HowNet的情感词判别方法相比,PageRank模型的引入使情感词判别的准确率平均提高10%左右,充分验证了所提方法的可行性.

关键词:自然语言处理;语义倾向分析;PageRank模型;知网

中图分类号:TP391文献标志码:A

SemanticOrientationComputingUsingPageRankModel

LIRong-jun,WANGXiao—jie,ZHOUYan-quan

(SchoolofComputer,BeijingUniversityofPostsandTelecommunication8,Beijing100876,China)

Abstract:Fordeterminingthepolarityofsentimentwords,analgorithmbasedonPageRanktechnologyisproposed.Agraphisconstructedwhosenodesconsistofunlabeledsentimentwordsandafewsentimentseeds,andtheweightsbetweeneachtwonodesbasedonthesemanticsimilarityofHowNetarealsogained.WiththePageRanktechnologyonthoseseedsthepolarityoftheunlabeledsentimentwordscanbeobtained.ComparedwiththemethodsbasedonHowNettojudgingpolarityofsentimentwords,theproposedalgorithmofcombiningPageRanktechnologyshowsitseffectivenessby10%increaseofthepre—cision.

Keywords:naturallanguageprocessing;semanticorientation;PageRankmodel;HowNet

O引言

文本的情感倾向性分析在人机交互、问答系统、舆论监督、人性检索等领域有广泛应用,已成为当前自然语言处理领域研究的热点问题.词汇的倾向性(极性)识别任务作为倾向性分析系统中的基础性工作,更得到了极大关注.

情感词极性判别方法可分为2类:基于大规模语料库的统计方法和利用人工构建的语义知识库计算相似度方法.

基于统计的方法主要利用在大规模语料中挖掘出的语言学规则或习得的机器学习模型对词汇的情感极性进行判别.例如,文献[1—2]以情感词间的连接关系作为特征来推断情感词在某领域内的极性;文献[3]依靠在特殊关系句型中的词同现规则,对评价词的情感极性作出判断;文献[4]预先挑选若干具有较明确极性信息的形容词构成种子词集合,通过计算待测词与褒、贬种子极性词之间的点态互信息差值(SO-PMI)来确定待测词汇的极性;语义知识库的建立,给极性分析工作的开展以极大支持.

收藕日期:2010-02-05

基金项目:国家自然科学基金项目(90920006);国家教育部博士点基金项目(20090005110005)

作者简介:李荣军(1982一),男,博士生,E-mail:lirongjun2002@bupt.edu.en;王小捷(1969一),男,教授,博士生导师万方数据

万方数据

万方数据

万方数据

PageRank模型在中文情感词极性判别中的应用

作者:李荣军, 王小捷, 周延泉, LI Rong-jun, WANG Xiao-jie, ZHOU Yan-quan

作者单位:北京邮电大学,计算机学院,北京,100876

刊名:

北京邮电大学学报

英文刊名:JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS

年,卷(期):2010,33(5)

参考文献(10条)

1.Page L;Brin S;Motwani R The PageRank citation ranking:bringing order to the web 1999

2.朱嫣岚;闽锦;周雅倩基于HowNet的词汇语义倾向计算[期刊论文]-中文信息学报 2006(01)

3.Rao D;Ravichandran D Semi-supervised polarity lexicon induction 2009

4.Andreevskaia A;Bergler S Mining WordNet for fuzzy sentiment:sentiment tag extraction from WordNet glosses 2006

5.Hu Minging;Liu Bing Mining and summarizing customer reviews 2004

6.Turney P Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews 2002

7.Popescu A;Etzioni O Extracting product features and opinions from reviews 2005

8.Kanayama H;Nasukawa T Fully automatic lexicon expansion for domain-oriented sentiment analysis 2006

9.Hatzivassiloglou V;McKeown K Predicting the semantic orientation of adjectives 1997

10.吴琼;谭松波;张刚基于图排序模型的跨领域倾向性分析算法 2009

本文链接:https://www.sodocs.net/doc/761888234.html,/Periodical_bjyddx201005030.aspx

相关主题