搜档网
当前位置:搜档网 › 关于新闻和微博的大规模情感分析

关于新闻和微博的大规模情感分析

关于新闻和微博的大规模情感分析
关于新闻和微博的大规模情感分析

关于新闻和微博的大规模情感分析

摘要

报纸和微博用来表达对最近报道的新鲜实体(任务、地点、事情)的观点。我们创造一个以打分的形式存在的系统,此系统用来指示文本语料库中的对每一个有区别的实体的积极和消极的观点。我们的系统包括一个与每一个相关实体的观点相联系的情感识别阶段和一个对同一类中每一个其他相关实体打分的情感聚集和评分阶段。最后,我们评估这种基于新闻和微博大规模语料库的这种打分技术的意义。

1.简介

新闻有好坏之分,但却很少有中立的情况。尽管在机器的操控下对于自然语言文本的充分理解发展得很好,但是对简单情感核心的相关性的数据分析可以提供一些令人惊奇的、有意义的的理解,这些理解都是关于最近的新闻消息如何影响重要的实体的。

在这篇论文中,我们将论述基于Lydia文本分析系统[1、2、3、4、5]顶部的对于新闻和微博实体大规模情感分析的发展。我们决定成千上万的所追踪的实体的公共情感和这种情感如何随着时间变化。我们鼓励读者学习我们在https://www.sodocs.net/doc/7d16226406.html,/sentimen上对于所喜欢的新闻实体的历史情感分析,同时对在https://www.sodocs.net/doc/7d16226406.html,/sentiment发布的日常情感分析提出意见和建议。在第六部分,我们将在系统的证明论文中给出几个我们分析的例子。

在这篇论文中,我们将讨论关于情感分析系统的几个部分,包括:

*情感字典的算法结构——我们的情感索引精密地依赖于对有积极和消极含义的形容词的参考频率的追踪。我们找到一种方法,将有积极和消极意义词的候选列表扩展为在词汇网络中建立的基于情感分析的同义词和反义词的全面的情感词典。我们用情感的交替次数来决定候选词的受欢迎程度和消除含义模糊的词。我们将呈现精密的算法和执行结果。

*情感索引规划——构造能够反映并列情感词意义的数据索引是很重要和微妙的。我们提出了一种用情感词和实体的并列以及以频率权重来衡量的用幸福水平来给实体情感打分的插入的技术。

*意义的评估——我们提供了情感评估合理性的证据,此情感评估与现实世界的几个级别的时间相联系,这些事件包括(1)专业篮球和篮球比赛的结果,(2)股票市场目录的表现,和(3)季节的影响。乐观统计表明我们的分析者能够准确地测量出公共情感。我们还提出轶事一样的证据用来证明我们的分析。

最后,我们讨论可能的应用和我们工作的意义。

2.相关工作

自然语言的情感分析是一个正在成长的大规模领域。特别是关于我们任务先前的相关工作

自然分配给我们这两个小组。第一个小组是关于自动收集情感字典的技术。第二个是关于整个文档进行情感分析(总体上或者部分的)的系统的技术。

2.1 具有决定性的语义方向的词

Hatzivassilogou和McKeown假设词性相同的形容词可以用“和”来区分,而词性相反的用“但是”来区分。从小的种子列表开始,这种信息过去常常用来将形容词分为两个集合,比如最大的约束条件是满意的。

Wiebe像评价渐变的等级一样来评估形容词的词性。数据模型将形容词根

据其语气和语义方向将其分成几个集合。这种渐变的形容词的使用对主观性的决定起着重要的作用。数据模型用来预测形容词的渐变性。

Kim和Hovy评价观点持有者(实体),此观点持有者通过扩展种子列表在词汇网络中产生积极和消极词的列表。他们假设一个词的同义词(反义词)有相同的(相反的)词性。一个词的同义词所占的比例属于用于测量其词性强弱的词性列表,而另一些则被认为是中立的或者词义不清的入口。当主题附近包括的词在这个句子中时就会产生最好的结果。

2.2情感分析系统

已经建立起来的几个系统用于在产品的综述中对观点进行量化。Pang、Lee和Vaithyanathan执行对电影综述中的情感分析。他们的结果表明机器学习技术比简单技术方法效果更好。对于词性级别的正确性他们大概能达到83%。在第[11]部分,他们确定了在一篇综述中哪些句子具有用于提高情感分析的主观因素。在这个系统中我们不做区别,因为我们认为事实和观点都对关于新闻实体的公共情感有影响。

自人们都不同意整体文档情感以后,Nasukawa和Yi[12]认为局部情感比整体文档情感更加据有说服力。他们集中于辨别这些情感表达的方向和决定这些情感的目标。浅显的语法分析辨别目标和情感表达;后者用目标来评估并与目标相联系。我们的系统也进行局部情感分析,但是是为了加快和变形:在相同的句子中,我们将情感归于所有并列的实体而不是某一特殊的目标。在[13]部分里,他们用特征词追踪器来进行追随。在给定的项目中,特征追踪器辨认局部或者是项目的属性。比如电池和摄像头是照相机的特征。

3.情感词典的产生

情感分析取决于在语料库和方向上我们对一个情感词的辨别能力。我们为七个情感规模(常规、健康、犯罪、运动、商业、政治、媒体)依次进行定义。我们选择这些规模是基于我们用对意见和情感的区别标准来区别新闻规模的辨认度。扩大情感词典的数量可以使更多的精力放在分析特殊目标的现象上,但是在人类屏幕上潜在着大量的消耗。为了避免这个,我们发明了一种将小规模的种子情感词扩展为充分的词典的算法。

3.1贯穿于路径分析的词典算法

在第二部分详细介绍过的先前的系统通过电脑词典-词汇网络[14]对同义词的递归查询的办法已经将种子列表扩展为词典.。这种方法的缺陷在于同义词会随着距离而一直减弱。第一组数据将会显示通过词汇网络同义词的链接四种方法如何从好变成坏的。

为了抵消这些问题,情感词的产生算法扩展了一系列以同义词和反义词查询的种子词,如下:

*我们将一个词性(积极或者消极)与每个词和查询的同义词和反义词两方面同时联系在一起,就像同义词[15,16]从它父母那里继承词性,反之反义词继承相反的词性。

*一条路径的意义随着它在种子词中深度和广度的作用而减弱,就像[9,17,18]所描述的。词W的意义在深度d上以指数(W)=1/cd(c是常数,c>1)形式减少,最后每个词的分数是整天所接收路径上所有分数的综合。

表1:每个形容词的情感词典的构成

*在积极和消极词之间转换的路径像是伪造的。因此我们的算法运行两次迭代。第一次计算每个词的先前分数,就像上面所描述的那样对每个先前的词进行评估。当计算明显的情感交替和跳跃时,第二次迭代重新列举路径。跳跃越少,这条路径越值得信任。最后的分数只考虑哪些跳跃值在我们预设的关口之内的路径。

*词汇网络用含义对同义词/反义词进行排序,先采用在列表中更加普通的含义。既然这些指定的分数服从正态分布,他们自然转换为z-分数。大多数的词位于中间模糊的分配地带,这意味着他们不能被以积极和消极的范围连续的分开。一些词义模糊的词被丢弃,只取既不极端也不词义扭曲的词的前X%。

表1展示了算法产生和形容词每个阶级的情感词典的构成

3.2性能评估

我们通过两种不同的方式评估了我们的情感词库的生成。第一种方法我们称为un-测试。前缀“un-”和“im-”通常是负面情感的术语。因此形式为X和unX 的术语应当出现在情感频谱上不同的两端,就像“能胜任的”和“不能胜任的”。表格2记录了部分拥有同极性的配对(正面术语和负面术语)。因此这个比率越低越好。我们的结果显示,以查全率为代价的精确度提高需要我们:

(1)限制通道情绪交替的数量,和

(2)删除少数对义性词语正在增长的部分。

表格2:为使词库扩展,对精确度和查全率的权衡作为拉动阈值(阈值:一个领域或一个系统的界限称为阈,其数值称为阈值)和算法的少数对义性词语的一部分。

表格3:算法生成和人为收录的词库的比较。

我们还比较了我们的情感词典和那些由Wiebe[19]获得的词汇,就像表格3的报告。我们算法生成的词库和手动收录的词库高度一致。进一步的,我们发现我们算法生成的极性经常是健全的,即使它们来源不同[19]。比如,负面情感词库PolMauto包含像“bullish(看涨的)”,“agile(敏捷的)”和“compassionate (富于同情心的)”等明确的积极性词汇,而正面情感词库PolPman包含像是“strenuous(紧张的)”,“uneventful(平凡的)”和“adamant(固执的)”等词汇。

4.对情感数据的解释和评分

我们使用我们的情感词库来标记所有的情感词汇和我们语料库(语料库:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源)中的相关存在。每当情感词汇前面有一个否定修饰时,我们扭转该词的极性。当一个词前有修饰语时,我们增加/减少了它的极性强度。因此,不好=-1;好=+1;非常好=+2。

我们的情感分析其忽略了那些当被检测到是另一篇的复制品时的文章[1]。这可以防止在多家报刊上同时发表的新闻文章比其他的文章在情感上有更大的影响力。因为我们的系统每天都处理大量的文本,所以速度考量阻止了我们去进行仔细的剖析。取而代之的是,我们使用实体的同现,在同一个句子里的情感词汇意味着情感与实体相关联。这并不总是准确的,特别是在复杂的句子里。尽管如此,我们处理的文本的量还是能够使我们生成精确的情感评分。

我们需要几个步骤来聚合不同名字的实体引用。通过使用代词分辨技术,与其说我们能够确定更多的实体/情感同现,不如说能够确定其在原始新闻文本里的存在。进一步的,Lydia的共同参考集识别系统[4]将交替参考资料联系起来,比如George W.Bush和George Bush都是在以George W.Bush为眉头词的单个同义词组内。这巩固了属于一个单一实体的情感。

4.1极性评分

(极性:现代心理学认为情感具有二极性,冯特"情感三维度说"就说明情感有愉快与不愉快,兴奋与压抑,紧张与松弛三对不同性质)

表格4:维数关联使用月度数据。

我们使用未加工的情感评分来追踪两个随时间的过去而变化的趋势: ·极性:与情感相关联的实体是积极的还是消极的?

·主观性:实体获得了多少(任何极性的)情感?

主观性表明情感出现频率的比例,而极性则表明积极的情感参照占所有的情感参照的百分比。

我们首先关注极性。我们使用全部时间区间内的所有实体的情感数据来评估世界极性:

我们只使用那一天的情感数据来评估实体极性:

表格4表明了各种情感指数之间的相关系数。一般来说,成对指数正相关,但相关性不是很强烈。这是一件好事,因为这显示了每个分指数测量不同的东西。总体指数是所有指数的集合,因此体指数都呈正相关。

4.2主观性评分

主观性的时间序列反映了与一个实体相关联的情感数量,无论是积极还是消极的情绪。一段时间内阅读所有的新闻文本以及计算其中的情感给了我们一个世界平均主观性水平的分量。我们使用所有时间区间内的所有实体的情感数据来评估世界主观性:

我们只用当天的情感数据来评估实体主观性:

5.新闻VS.博客

关于博客和报纸的争论以及被讨论的人群都相当的不同[2]。表格5在2006年7月分别地列出了在报纸和博客上评价最积极的人。美国投资者沃伦·巴菲特积极性情感参照

总体情感参照

世界极性= 当天的积极性情感参照

当天的总体情感参照

实体极性= 总体情感参照

总体参照

世界主观性=

当天的总体情感参照 当天的总体参照 实体主观性=

和F-1赛车手司机费尔南多·阿隆索被认为是在博客和报纸上都反响很积极的人。其他的运动员(拉斐尔·纳达尔,莎拉波娃)也在博客的正面影响人物排名前列。因为新闻和博客的百分率的评级没有直接的可比性,因此我们在这儿按照纯粹的积极和消极情感来报道我们的结果。

表格5:在新闻(左)和博客(右)影响最积极的人物。

表格6:在新闻(左)和博客(右)中影响最消极的人物。

表格6列出了在报纸和博客上影响最消极出现的人。国际的(斯洛博丹·米洛舍维奇,扎卡里亚斯·穆萨维)和国内的犯罪人物(约翰·A·穆罕默德,莱昂内尔·泰特,乔治·瑞恩)同时在博客和报纸上被认为是失败者。愤怒的球迷们的博客透露出他们对某些体育明星(萨米·索萨,罗艾萨,瑞奇·威廉姆斯)的极度不满。

最有趣的是某些有争议的美国政治人物的截然不同的命运。一些(如哈里特·迈尔斯,阿尔·夏普顿)被认为在报纸上影响负面而在博客上有正面影响,而其他人(如查尔斯·舒默,爱德华·肯尼迪)则被认为只在博客上有负面影响。这些显然反映了博客作者们、或者主流媒体的政治偏见。

6.总结

有许多有趣的方向我们可以去探索。我们对如何让情感随着人群、新闻资源或者地理位置改变非常感兴趣。通过扩大我们对新闻实体的空间分析[1]而得到的情感地图(情感是一种关于个人感情状态的一种复杂的心理生理经历,是内在生理机制与外在环境刺

激共同作用的结果。情感具有时间性、空间性、社会性,是影响传播活动的关键因素),我们可以对给定的实体进行有利的地理区或不良的意见的确定。我们也在研究关于情感指数预测未来流行趋势或市场走势变化的程度的分析。

参考文献:

[1] Mehler, A., Bao, Y., Li, X., Wang, Y., Skiena, S.:Spatial analysis of news sources. IEEE Trans.Visualization and Computer Graphics 12 (2006)765–772

[2] Lloyd, L., Kaulgud, P., Skiena, S.: Newspapers vs. blogs: Who gets the scoop? In: Computational Approaches to Analyzing Weblogs (AAAI-CAAW 2006). Volume AAAI Press, Technical Report SS-06-03.(2006) 117–124

[3] Lloyd, L., Kechagias, D., Skiena, S.: Lydia: A system for large-scale news analysis. In: String Processing and Information Retrieval (SPIRE 2005). Volume Lecture Notes in Computer Science, 3772. (2005) 161–166

[4] Lloyd, L., Mehler, A., Skiena., S.: Identifying co-referential names across large corpra. In: https://www.sodocs.net/doc/7d16226406.html,binatorial Pattern Matching (CPM 2006). VolumeLecture Notes in Computer Science, 4009. (2006)12–23

[5] Kil, J., Lloyd, L., Skiena, S.: Question answering with lydia. Proc. 14th Text Retrieval Conference (TREC2005) (2005)

[6] Godbole, N., Srinivasaiah, M., Skiena, S.: Large-scale sentiment analysis for news and blogs (demonstration). In: Proc. Int. Conf. Weblogs and Social Media (ICWSM 07). (2007)

[7]Hatzivassiloglou, V., McKeown, K.R.: Predicting the semantic orientation of adjectives.In:Proc.8th Conf.on European chapter of the Association for Computational Linguistics, Morristown, NJ, USA,Association for Computational Linguistics (1997)174–181

[8]Wiebe, J.: Learning subjective adjectives from corpora. In:Proc.17th Nat.Conf.on Artificial Intelligence an 12th Conf. on Innovative Applications of Arti?cial Intelligence, AAAI Press / The MIT Press (2000)735–740

[9] Kim, S.M., Hovy, E.: Determining the sentiment of opinions. In: Proceedings of the Coling Conference.(2004)

[10] Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up?Sentiment classification using machine learning techniques. In: Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP). (2002) 79–86

[11] Pang, B., Lee, L.: A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. In: Proceedings of the ACL. (2004)271–278

[12] Nasukawa, T., Yi, J.: Sentiment analysis: Capturing Second International Conferences on Knowledge Capture. (2003) 70–77

[13] J. Yi, T. Nasukawa, R.B., Niblack, W.: Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques. In: 3rd IEEE Conf. on Data Mining (ICDM’03).

(2003)423–434

[14] Miller, G.A.: Wordnet: A lexical database. Communications of the ACM 38(11) (1995) 39–41

[15] Andreevskaia, A., Bergler, S.: Mining wordnet for a fuzzy sentiment: Sentiment tag extraction from wordnet glosses. In: EACL. (2006)

[16] Esuli, A., Sabastiani, F.: Determining term subjectivity and term orientation for opinion mining. In: EACL.(2006)

[17] Ide, N.: Making senses: Bootstrapping sense-tagged lists of semantically-related words. In: CICLING.(2006)

[18] Wiebe, J., Mihalcea, R.: Word sense and subjectivity. In: ACL. (2006)

[19] Wiebe, J.: Learning subjective adjectives from corpora.In: AAAI/IAAI. (2000) 735–740

[20]有道翻译以及互动百科提供的资料

[21]论文《主观性文本的情感极性分析研究》作者:杜德斌(2009)

[22]《文本情感分析综述》作者:赵妍妍+,秦兵,刘挺

课程及作业心得(李文琦 201002410110):

1、作业分工、遇到的困难,知识点等等。

(1)分工:1至3.1节:刘晓磊;3.2节至最后:李文琦

(2)遇到的困难:对许多文章内用词词义不理解;翻译出来的句子读不通顺,理解有困难;想查找的知识点在网络上搜不到,手头也没有参考书籍等等。(3)知识点:情感分析词库的产生、算法及评估,情感极性和主观性,对博客和报纸的情感极性分析的比较。

2、谈谈你们对“检索无处不在”的理解。

检索,早已渗透到了我们生活的边边角角,我们的学业、工作甚至普通娱乐都需要有检索的参与。最简单的例子,完成这篇文章的翻译就需要用到检索来查找知识点,否则单靠我们个人很难将翻译完成。下载一首歌曲,需要检索;出门旅游查询地点以及火车票,需要检索;寻找毕业论文资料,需要检索……

检索为我们的生活提供了极大的便利,让我们得以在最短时间内以最高效率掌握所需的相关信息,避免了重复研究和走弯路。我们有理由相信,在科技发展的推动下,由于检索在日常生活中所占分量越来越重,在不久的将来,检索的范围将会通过万维网从个人电脑、手机发展到各种各样的数字设备中,让我们真正感受到身处于信息时代的便利。我个人来说,是深切盼望着那一日的到来的。

课程及作业心得:(刘晓磊201002410129)

1、作业分工、遇到的困难,知识点等

初看到作业形式,便决定了要做课业材料翻译,并不是因为它只需简单的翻译不用过多的查阅资料和进行建设性的思考,而是想通过材料翻译进一步了解最新的关于信息检索的一些知识和学习一下别人从哪些方向上进行研究和拓展的。

经商量和仔细查看,我(刘晓磊)和李文琦从众多的资料里面选择了时下最流行的关于报纸和微博的情感分析的论文,通过翻译这篇论文,一是想学习影响

范围甚大的报纸和微博情感分析的相关知识,二是想在他们的基础上看看能不能在一定程度上于信息检索方面对我们有所启发。怀着这样的目标,我们进行了翻译工作。我负责前两页的翻译,搭档负责后两页,然后我们再进行整合修改,尽量做到“通达雅”,然后一起通过图书馆、报刊、网络等方式查阅相关资料。

在整个翻译过程中,遇到的问题主要是一些专有名词的翻译,有些单词知其意,但是在信息检索这个领域却有着属于它的专有意义,比如seed sentiment 。再者就是相关资料的查找,在国内的网站中很多的相关论文找不到,对于想进一步进行了解造成了极大的障碍。

这篇论文所涉及的主要知识点分布在情感词库的建立和发展,情感词的算法,通过哪些指标来评估算法的优越性,如何划分情感词的积极性和消极性,如何通过情感词来分析微博和新闻。

2.对于“检索无处不在”的理解:

正是因为信息的无处不在导致了检索的无处不在,细微到生活中的每一件小事,不管是动态的消息还是静态的数据等都是信息,而我们想要知道这些就必须经过一定的检索,检索是一个发现认识的过程,它建立在一定的流程,算法基础上,对事物进行探索然后以一定的方式反映给需求者。

理论来源于实践,现在我们所学习的检索这门课程就是日常生活中的经验和事例抽象出来的理论,如要知道未来几天的天气预报,我们会通过各种媒介进行检索,其结果通常是按照准确度和实效性进行排列的,这就是整个信息检索,而这种信息检索的活动充斥着我们的的生活,不论工作、学习还是生活,处处离不开信息,离不开检索。应对于现在的信息爆炸,检索的方式也更加多样和便利化,尽量做到人性化,提高其准确性。我们有理由相信现在的信息检索技术能信息世界中为我们更好的服务。

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.sodocs.net/doc/7d16226406.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.sodocs.net/doc/7d16226406.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.sodocs.net/doc/7d16226406.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.sodocs.net/doc/7d16226406.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比 如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体, aspect/属性,opinio n/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素

、 (entity 体, 输入文木 holder/?点持有者,time/ 时 |i 图i情感分析五要素 举例如下图: 我觉得华为手机非常牛逼。(华为手机* 图2情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可 以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实 体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、 「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

文本情感分析论文总结

文本情感分析 赵妍妍,秦兵,刘挺- 软件学报, 2010 - https://www.sodocs.net/doc/7d16226406.html, 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。 情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者) 1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。 2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评 价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。 3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做 序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4.组合评价单元的抽取: 主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类 1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于 分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语 特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1.情感信息检索 2.情感信息归纳 基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。 基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源 1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析), 国内的COAE。 2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料, Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。 3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英 文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

中文微博情感分析评测结果(2012)

2012年CCF自然语言处理与中文计算会议 中文微博情感分析评测结果 1.提交结果编号 本次评测共有34支队伍提交53组有效结果,提交结果编号及所属参评单位对应情况如表1所示。 表1 提交结果编号与参评单位对照表 提交结果编号参评单位 1 北京工商大学 2 北京工商大学 3 北京航空航天大学计算机学院 4 北京航空航天大学计算机学院 5 北京理工大学海量语言信息处理与云计算应用工程技术研究中心1 6 北京理工大学网络搜索挖掘与安全实验室 7 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 8 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 9 大连理工大学 10 大连理工大学 11 广东工业大学DMIR实验室 12 哈尔滨工业大学语言技术研究中心网络智能研究室 13 哈尔滨工业大学语言技术研究中心网络智能研究室 14 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 15 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 16 哈尔滨工业大学(威海) 17 海军工程大学信息安全系 18 黑龙江大学计算机科学技术学院 19 湖南工业大学计算机与通信学院 20 湖南工业大学计算机与通信学院 21 湖南科技大学外国语学院 22 华侨大学计算机科学与技术学院 23 华侨大学计算机科学与技术学院 24 华中科技大学 25 南京大学计算机科学与技术系自然语言处理研究组 26 南京理工大学 27 南京理工大学 28 清华大学计算机系智能技术与系统国家重点实验室信息检索组 29 清华大学计算机系智能技术与系统国家重点实验室信息检索组 1参评队伍联系人为刘全超 2参评队伍联系人为王金刚

面向微博文本的情感分析模型研究

面向微博文本的情感分析模型研究 随着互联网和移动通讯的飞速发展,人们参与网络活动越来越频繁,微博每天都产生了大量数据,其包含了用户对事物的情感表达和 评论分析,如何从这些信息中挖掘出情感倾向有着巨大的价值。因此,本文对微博文本展开了情感分析模型的研究。通过调研国内外文献,目前对于情感分析模型的研究主要有情感词典方法、机器学习方法和深度学习方法。本文通过爬取微博数据,对这三种方法进行对比实验,寻找最优的情感分析模型。基于传统情感词典方法的研究。利用波森情感词典,将文本数据分词后遍历词典并加权得到其情感极性,然后 在此基础上利用添加情感副词的方式提升情感词典的效果。情感词典方法的优点是速度快,易于判断主观情感比较明确的句子,但是其缺 点是针对不同场景的迁移能力弱,并且人工构建针对某一领域的情感词典耗时耗力。基于机器学习方法的研究。首先对文本数据进行数据预处理,将经过预处理后的数据分词结果通过Word2vec中Skip-gram 方法转化为词向量,同时利用腾讯开源词向量进行对比输入,然后利 用主流的机器学习分类方法(Logistic回归、随机梯度下降法、朴素贝叶斯、支持向量机、随机森林、XGBoost)进行有监督学习,最后对比每种模型的测试集混淆矩阵,发现腾讯开源词向量训练的模型效果均优于Word2vec方法训练出来的词向量。在这些方法中,随机森林、XGBoost这类利用集成思想方法训练的模型效果远远优于单一的分类模型。虽然机器学习方法模型的准确率对比传统情感词典有了很大的提升,但是不足之处是每个训练器都涉及到大量的调参,并对于不同

业务场景的迁移能力不强,机器学习方法已经发展到了瓶颈。基于深度学习方法的研究。通过对经典的多层感知机神经网络、循环神经网络、卷积神经网络和自注意力机制进行对比实验,各类深度学习模型的准确率比情感词典和机器学习的准确率有了较大的提升,其中自注意力机制模型在测试集的准确率达到了91.12%。通过对所有模型进行对比实验,发现自注意力机制所训练的模型无论在训练速度上还是在模型测试集的准确率等方面均优于其他模型。并且它利用序列内部的自我关注,加快了模型收敛的速度。所以,自注意力机制的模型是情感分析任务中综合表现效果最好的模型。

文本情感分析_赵妍妍

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.sodocs.net/doc/7d16226406.html, Journal of Software, Vol.21, No.8, August 2010, pp.1834?1848 https://www.sodocs.net/doc/7d16226406.html, doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563 ? by Institute of Software, the Chinese Academy of Sciences. All rights reserved. ? 文本情感分析 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨 150001) Sentiment Analysis ZHAO Yan-Yan+, QIN Bing, LIU Ting (Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: E-mail: yyzhao@https://www.sodocs.net/doc/7d16226406.html, Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834?1848. https://www.sodocs.net/doc/7d16226406.html,/ 1000-9825/3832.htm Abstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信 息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分 析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前 沿进展进行概括、比较和分析. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯 的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进. 因此,互联网(如博客和论坛)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息. 这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等.基于此,潜在的用 户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐 于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集 和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息.情感分析(sentiment analysis)技术应 ?Supported by the National Natural Science Foundation of China under Grant Nos.60803093, 60975055 (国家自然科学基金); the National High-Tech Research and Development Plan of China under Grant No.2008AA01Z144 (国家高技术研究发展计划(863)) Received 2009-08-14; Revised 2009-12-25; Accepted 2010-03-11

开题报告(文献综述)-在线评论分析系统的情感分析

开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告 论文题目在线评论分析系统的情感分析开题报告内容: 一、选题的背景及意义 近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。 然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行 收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。 文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。进入21 世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。目前

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。 情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。 1 基于统计机器学习法 随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

相关主题