搜档网
当前位置:搜档网 › 微博挖掘研究综述

微博挖掘研究综述

微博挖掘研究综述
微博挖掘研究综述

微博挖掘研究综述

Microblog Mining

Abstract: As an applied web style that has been mushrooming in recent years, microblog has driven a revolution, via its strong impact and rising amount of its users while it came into being. Nowadays, the relative technology research in microblogmining realm is concerned by researchers around the globe. This paper, combined with current researches, summarizes the background and current research progresses of microblogmining. It also gives the global overview of microblogmining from information selection, social network analysis, microblog content, topic and users’ behavior aspects.

Key words: microblog; data mining

摘要: 微博作为近几年新兴的一种网络应用形式,在诞生不久就以强大的影响力和迅速攀升的用户数量引发了一场“革命”。目前微博挖掘领域的相关技术研究得到了国内外学者的广泛关注,本文结合已有研究,将微博挖掘相关的研究背景以及目前研究现状进行概述,从微博信息的筛选,微博信息的社会网络分析,微博内容、主题、用户行为挖掘等方面纵观微博挖掘研究的全景。

关键词: 微博;数据挖掘

1 研究背景

近几年,随着web2.0时代的到来,微博服务迅速流行。微博作为近几年新兴的一种网络应用形式,以强大的影响力和迅速攀升的用户数量引发了一场“微革命”。它是一个基于用户关系的信息分享、传播以及获取平台。用户可以通过网络、手机以及各种智能联网的客户端发送文字,并实现即时分享[1]。国外最大的微博服务提供商Twitter每天产生超过5500万条微博,用户访问数超过1.8亿,注册用户超过1亿。国内的微博服务也快速兴起,以新浪微博、腾讯微博为代表,目前很多主流的互联网门户都已经提供了微博服务,用户数量飞快增长。微博形式服务的流行,很大程度上是由于它满足了普通网民便捷、快速地获取、分享、交流信息的需求。在微博平台上,用户可以发布自己所感兴趣的话题、转发、评论他人的微博内容,可以关注(收听)其他用户(其他用户的消息)等等,一系列的社会化性质活动使得微博成长为一个巨大的社会化网络,2010 年我国最大的50起网络舆情案例中约1/4是由微博发起的,微博已成为企业和网民互动沟通的新平台[2]。用户生成内容成为主流模式,信息的传播更加便捷,这也契合当代人们快节奏的生活方式[3]。

由于微博用户数量大、数据更新快、数据资源丰富,以及它的网络弱关系等性质,其巨大的信息量和扩散范围使得微博成为一个实力强劲的社会化媒体。这就使微博的研究价值和商业价值大幅上升。例如,民众在微博上的声音会影响一个新产品的发布情况以及日后的销量,大众的评价也为公司对产品的改进起到指导性的作用,微博的数据可以广泛应用于品牌评价、商业预测、竞争情报收集、影响消费决策和进行客户关系管理。随着微博的普及,越来越多的用户开始关注微博的搜索功能,部分企业用户也开始关注微博的数据挖掘功能[2]。同时,微博上也存在大量的垃圾信息,据报道,Twitter上40%的微博对一般用户而言是无意义的。因此,如何区分微博中的有用信息和垃圾信息,如何更好的分析、利用微博中的有用信息,对微博信息进行

深入挖掘,成为一个新兴的研究课题。

在计算机网络和通信等学科领域,微博的信息数据特征是近年来关注的主要问题,很多微博研究都基于网络信息数据测量分析展开。微博信息数据是指微博数据中心中存储的各类数据,主要包括:微博用户档案、微博用户关系、微博消息、热点话题等[1],它是此类研究方法的基础。主要研究的问题如下:

1) 基于微博用户的研究。主要研究用户的行为特征及用户的影响力。

2) 基于微博用户关系的研究。主要研究用户关系网络的基本属性、关系网络生成和演进、微博人员关系挖掘、微博用户人际关系特点。

3) 基于微博内容的研究。主要研究微博消息内容特点、消息活跃时间特点、微博热点话题特点。

4) 基于微博消息传播的研究。主要研究微博消息传播的特点,微博消息传播影响力。

微博研究方法,以分析微博信息数据为基础,致力于发现微博中的各种规律和特点。它可以分为两个阶段:信息数据获取和信息数据分析。在信息获取阶段,主要任务是获取大量微博信息数据,主要采用三种方法:基于微博第三方应用程序接口(ApplicationProgramming Interface,API)编程实现微博信息爬取,利用网络爬虫在微博网页上爬取关键字信息,利用网络数据采集设备直接获取微博服务网络传输数据。在数据分析阶段,主要任务是对微博信息数据进行特征提取和分析,挖掘出微博中的关键特征,采用的主要方法包括统计学数据分析方法、复杂网络分析方法、数据分类及挖掘方法等。

2 微博信息的筛选

微博具有低门槛、创新的交互方式、以及原创性三大特征[4],在这种迅速的信息传播过程中,要想筛选有用信息,首先信誉度是筛选信息的核心依据,判别信誉度便成为了信息筛选的核心问题。可采用官方对博主进行授权以及衡量一个博主以前信息的可靠性来计算其累计信誉的方式对信息进行筛选。同时,对于不同的信息需要不同的处理,首先构造结构的数据集,然后通过多种流程对这些数据进行改造,把它们集中到数据库,通过滤掉重复的内容、对数据进行结构化改造,变成统一的对象模型后再提取关键字和打上标签,集中相似的信息流,为用户达到信息筛选的效果[4]。

3 微博信息的社会网络分析

社会网络结构是在社会行动者之间实际存在或者潜在的关系模式。社会网络分析方法将现实复杂网络中的个体和复杂关系抽象成节点、线以及方向,综合利用多种算法,不仅能够测量行动者个体及他们所处的网络成员之间错综复杂的关系和连结,还能对他们之间的互动模式进行可视化建模。社会网络分析方法一般从密度、中心性、凝聚子群以及结构洞4个角度进行分析[5],已广泛运用于在线社会网络等多种社会化媒体的研究中,广大的微博用户及其相互间的交互关系(回贴、关注、好友、圈子等)构成了一个庞大的社会网络结构。社会网络结构的方法更能从整体上把握社交网络的总体特征和用户交互情况,而从以往的研究中也证实社会网络的分析方法在微博中的运用是可行和相对成熟的。

袁园、孙霄凌等以新浪微博为研究平台,随机抽取部分用户及其关注对象数据作为研究样本,通过共链关系建立社会网络结构,利用社会网络分析并辅以聚类分析方法对该样本进行整体网络分析、内部子结构分析和角色位置分析,进而从微博关注数据中挖掘用户关注对象的分布及对象间的关联性[6]。通过共链分析,结合社会网络分析方法和聚类分析,分析结果可以充分显示微博社区社会关系中存在的一些规律。

3

图1微博明星共链社群图

同时由于微博上包含了大量专家学者、研究人员,其分众聚类可形成学术圈,并且在微博上学术信息更新快,信息可公开获取,尤其是第三方应用让学术信息容易被计算机自动获取和分析,所以利用微博信息,可进行相应的社会网络分析,为学术研究起到预测作用。

例如预测学科热点便是利用微博信息进行社会网络分析的案例,盛宇在《基于微博的学科热点发现、追踪与分析——以数据挖掘领域为例》一文中,基于新浪微博,进行了学科热点研究的实例验证[7]。他提出基于微博的热点发现(信息采集和预处理、发现学科热门词汇、发现学术意见领袖)、热点追踪(热点关键词微博跟踪、关注学术领袖)以及热点分析的预测学科热点三大步骤,并对关键词“数据挖掘”进行了相应分析。

张韦全,陈京民选取“腾讯微博”中“今日热点”里面的热点话题“央行再度加息0.25%”对微博参政群体进行实证研究,以社会网络分析方法为基础,应用UCINET软件对微博参政群体进行密度、中心性、凝聚子群以及结构洞的挖掘,实验发现微博参政群体存在参政领袖以及子群现象,参政领袖对群体具有更大的影响,子群现象对微博参政群体成员之间的交流起着积极作用[8]。

4 微博信息的数据挖掘

微博内容的分析是微博现状研究的一个重要关注点,研究者大体上是根据微博话题分类或根据微内容的发布主体分类。微内容根据微博话题可以分为常规的微博内容和特殊时期的微博内容[2]。

由于微博信息量的巨大,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变。在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模。从国内外研究现状可以看出,对微博信息的挖掘还处于起步阶段。

微博文本与正式文本有很多不同的地方。第一,微博最大的特点就是文本长度短。不同微博系统对微博

4

文本的字数限制不尽相同,以新浪微博为例,限定一个微博文本的字数不多于140个字符,更多的微博文本只是一个句子甚至一个短语。这一特点给微博文本处理造成了严重的数据稀疏问题。第二,微博文本的文法通常是非正式的,语言是口语化的。为了提高交流速度,微博文本中缩写和拼写错误很常见,还经常掺杂着一些新近流行的网络语言和表情符号。第三,半结构化。除了文本内容,微博文本还包含一些元数据,例如,作者、发布时间、转发数量、收藏数量、评论等信息。第四,微博文本通常是某对话线索中的一个发言或回复。第五,显著的意图性和主观性。第六,大量的省略和指代[9]。单条微博表达的意思一般不完整,并且通常微博书写都较随意,从而使得从微博中抽取信息点的难度比从正规文本,例如新闻,抽取的难度大。每条微博可认为是一个文本片段(通常只有一句话),携带的信息量不大,这种短文本结构会加大其主题挖掘的难度,以上这些特性决定了微博挖掘不能简单地套用传统的文本挖掘的方法。

4.1 微博文本内容挖掘

微博的使用人群数量基数大,状态信息更新频繁、信息传播迅速。并且微博平台媒介用户占有率相对集中,因此基于微博数据的分析研究成为了十分值得关注的研究方向。微博消息内容包括微博消息和微博热点话题,其消息的传播具有速度快、范围广的基本特征。微博在消息传播方面表现出来的主要特征如下:

1) 在传播方式上,大部分微博消息的传播方式为两步(two_step)传播[10],也就是说信息并非直接传播给大众,而是通过媒介(中介)把消息传播大众,中介在消息传播过程中起到重要作用;

2) 在传播范围上,微博信息传播范围与微博消息发布者拥有的粉丝数量无关[11],只要消息被转发,则最终消息接收者的数量变化不大,这一点说明转发在消息传播过程中的表现出了巨大的力量;

3) 从时间方面分析,微博消息传播的速度很快[11],有一半的消息会在一个小时之内被转发,75%在一天之内转发,只有10%在1 个月之后才被转发;

4) 围绕一个话题的微博数量与时间呈线性增加的关系,这是因为微博具有社会媒体的公共传播效应;

5) 谣言在微博中的传播与传播节点的度分布和有效传染率相关[12],该属性对于抑制谣言在微博中的传播具有重要作用。

HAN Ruixia[13]介绍了微博平台的特点与基本概念,KANG Shulong[14]针对新浪微博研究了其群体结构与度分布特征。WANG Rui[15]通过数据分析解释了用户好友数量与用户状态受关注程度之间的关系,但其中并没有介绍数据来源,而新浪微博API仍处于测试阶段,不但内容开放不全面,而且查询结果返回最大数量与调用频率方面也存在诸多限制,难以实现全面的数据获取。周立柱等[16-18]提出了一套依赖网络爬虫抓取网页内容并根据一定的规则提取页面中的有用信息的思路,但因为没有涉及登录模式,因此也难以运用在新浪微博的数据获取过程中。

Java等对微博的概念和作用进行了总结和探讨,介绍了微博的即时性、共享性、快速传播等特点,并从各个角度统计了微博在近年来的使用增长情况[19]。文章根据用户之间的关系,阐述了哪一类用户会分享相同的微博信息。Kwak等讨论了微博的出现,作为一种社交网络或者是一种新闻媒介,对世界的影响[20]。并全面统计和剖析了从Twitter出现的三年来,Twitter的所有相关数据,包括Twitter的日发布量、发布总量、使用人数等。Ellen则对微文本(microtext)进行了特征分析,认为微文本具有“短”、“文法不规范”和“半结构化”等特点[21]。这些工作对研究者了解并把握微博文本的特征提供了重要依据。

早期与微博文本相关的工作集中在语言分析方面[9],Shen等从Twittwer、饭否网和叽歪网下载了976348篇微博文本,采用TFIDF算法对中文微博文本语言进行了初步的分析和统计[22]。而Locke等则将命名实体识别引入到微博文本的研究中[23]。文章采用分类的方法,将命名实体分为三个不同的类别(人名,地名,机构名),Locke指出,微博文本由于具有与普通文本许多不同的特征,所以在进行特征选择时,应该选择微博文本所特有的特征,再进行分类。实验证明,该方法取得了一定程度的提高。

微博形式的短文本由于其特征不足,需要填补其特征信息。S.Bharath等人以Twitter特定领域中的部分用户个人信息以及所发的文本作为特征样本,将短文本划分到预定义的分类之中[24]。Liu Zitao提出了一种新

5

的微博短文本特征抽取方法[25],在不同的对话中选取大信息量的词语,并且通过如“知网”来拓展词语的语义特性。实验表明,这种方法能够有效地提高分类准确率。

对微博文本的信息抽取工作,其目标类似于对普通文本的信息抽取。特殊的是,由于微博文本长度较短,在对其进行处理时,通常是先将同一话题的一批微博文本聚类到一起,再抽取用户所需的信息。B.Sharifi等首先提出了从与某一话题相关的众多微博中自动的抽取出具有概括性总结的方法[26]。文章中使用了PR(Phrase Reinforcement)算法,找到包含某一话题出现次数最多的短语作为总结句。然后B.Sharifi等将上述文章的方法应用到了从https://www.sodocs.net/doc/481989390.html,网站上挖掘到的特定领域的微博资源。实验结果显示,系统的效果和人工的效果很相近。Petrovi’c等将事件检测技术融入到微博文本中,文章提出的方法的处理速度好于目前大多数的事件检测系统[27]。王永恒等人提出了一种海量短文本聚类方法,结合频繁词集与语义信息,以并行聚类的方式实现对海量短文本的聚类[28]。对于微博短文本特征的稀疏,Hu Xia等人提出通过搜索引擎拓展短文本的上下文,以丰富短文本特征[29]。时睿等人则将名词集合作为特征,从语义角度计算短文本间的相似度,以判别微博主题含义[30]。而Sakaki等借助用户行为特征,对网络微博文本进行实时监控,从而在第一时间使用户了解近期内发生的热点事件[31]。实验结果表明,该实时事件检测系统的效果较好。Zhao等对Twitter文本进行与话题相关的关键词抽取[32]。他们提出了一种基于上下文的PageRank算法,根据相关度,对与话题相关的关键词排序,最终抽取关键词。

话题的识别是微博挖掘中的重要课题,可通过分析词频变化的方法来发现微博信息中的热门话题[33]。对微博信息使用分词技术,可提取出微博中出现的词语及词语组合,作为候选话题集合。如果在短时间内某词组的词频得到了显著提高,那么便可认为该词组是热门话题。同时,该方法可以在一定程度上过滤噪声———部分非话题词组的词频通常不会有太大的变化。但是,由于现有的分词技术对普遍口语化、多新词的短文本处理效果不够理想,话题识别的精度将受到影响。

阳锋、冯时等认为,与博客、论坛等传统社会化媒体相比,微博客内容具有许多新的特点,其中实时性和多模态性是2个主要特点[34]。针对该特点,他们提出了微博接口的集成模型、多模态数据下载模型,并对面向微博数据流的观点倾向进行相应分析,根据微博语言构建新的情感词典,并提出观点倾向性计算的优化策略。据此,设计并实现了一个面向微博数据流的、集即时下载各模态信息和分析观点倾向于一体的观点挖掘原型系统MICA(microblog item crawling and analyzing),设计并使用WeiBoAPI(微博编程集成应用接口)从腾讯、新浪等网站实时抓取微博数据,针对其中文本内容进行情感倾向性分析,针对其中的图像数据进行特征抽取,并为进一步的多模态观点挖掘打下基础。

林大云设计了基于Hadoop的微博信息挖掘系统[35]。其系统设计分为四个模块:数据获取,数据存储,数据挖掘和数据展示。该系统针对单一节点在分析微博海量数据的性能瓶颈问题,利用分布式和虚拟化技术的优势,将微博信息获取和相关数据分析进行有机整合,实现了一个基于Hadoop的微博信息挖掘平台。

6

图2基于Hadoop的微博信息挖掘系统框架结构

把Hadoop应用于数据挖掘领域,国内外学者也有所探索,程苗、陈华平提出了一种基于数据分割技术和遗传算法的混合算法DS-PGA[36],该算法结合了数据分割技术的分布式处理和遗传算法的全局搜索最优解的优点,使得改进后的算法更适合在分布式计算环境中执行。张圣针对云计算环境下的关联规则挖掘算法展开研究[37],对Apriori算法进行了改进,给出了改进的算法在Hadoop中的Map/Reduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。

张国安、钟绍辉提出了一种基于K-MEAN聚类的用户层面的挖掘方法[38],通过对用户评论和用户转发的微博文字信息进行分词及词性标注,统计词性,进行聚类,并使用相关相似性计算词组距离,获得用户的关注的层面及聚类结果,从而为用户的推荐做准备。

廉捷、周欣等提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案[39]。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题,实现新浪微博数据高效全面的获取。新浪微博API数据抓取程序流程图如下图所示。

7

图3新浪微博API数据抓取程序流程图

在新浪微博API调用的返回数据形式中,JSON相比XML方式返回效率更高、处理速度更快,对于特殊字符的解析能力也更强,是程序使用API调用方式的首选。与基于API 的数据获取相比,基于网络爬虫的页面解析方案效率与性能相比API 都有明显差距,还要解决额外的程序模拟登录问题。但页面解析技术可以为今后的数据分析获取更加完整的数据集。通过2套方案的结合可以实现新浪微博数据全面高效的抓取和解析,从而为针对新浪微博的网络结构分析、用户行为与群体特征分析、网络话题发现、跟踪、与预测等研究提供了完善的数据保障。

情感分析也是微博文本挖掘中的一项重要内容。在微博文本中,时常有表情符号出现,这种现象给微博的情感分析工作带来了困难。Read等阐述了在情感分类问题中处理表情符号的问题[40]。文章指出,利用Twitter API可以获得大量的表情符号,而表情符号所表示的含义一般都是很明显的。

除了对表情符号的处理外,微博文本的情感分析工作主要是由机器学习方法来处理。Go等首次提出了对微博文本进行情感分析的思想[41]。文章采用无监督指导的三种机器学习方法(朴素贝叶斯、最大熵和支持向量机),将表情符号也加入到选取的特征中,取得了超过80%的分类准确率。接着Go等在他们前期工作的基础上,加入在文本中识别出的讽刺或反语句作为新特征,提升了情感分类的效果[42]。最后,Go等对微博文本的情感分析研究工作进行了总结,包括使用的机器学习方法,选取特征的方法,以及错误的分析方法示例。

4.2 微博主题挖掘

基于微博主题挖掘的微博内容推荐有以下三个难点:第一,用户的活跃程度低;第二,数据的稀疏性和不对称性;第三,用户兴趣的动态变化。王晟,王子琪提出,由于微博数据稀疏和用户兴趣动态变化等特点,将传统推荐算法应用于微博推荐时,效果并不理想,他们提出了一种基于贝叶斯个性化排序(Bayesian personalizedranking,BPR)的微博推荐算法,对用户进行个性化微博推荐[43]。BPR 的主要思想是,利用贝叶斯最大后验估计求出微博对之间的全序关系,从而获得用户对微博的个性化排序。该基于贝叶斯个性化排

8

序的微博推荐算法以微博对的形式提取微博系统中的隐式信息,对这些微博对进行学习,从而得到用户对不同微博的兴趣值。根据每条微博发出的时间,估计每条微博对的可信度。发出时间越接近的微博对,它的可信度就越高,并且对用户的兴趣值影响就越大。在新浪微博的真实数据上进行实验和评测,结果表明该基于贝叶斯个性化排序的微博推荐算法相比于对比算法,在进行微博推荐时有更好的效果。

张晨逸、孙建伶在研究LDA(latent Dirichlet allocation)的基础上,结合微博的特性,综合考虑了微博的联系人关联关系和文本关联关系,提出了一种挖掘微博主题的新模型MB-LDA(MicroBlog- latent Dirichlet allocation)来辅助进行微博的主题挖掘[44]。采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题。

李劲、张华等研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法[45]。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档; 基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配( LDA) 话题模型进行扩展以建模微博之间的跟帖关系; 最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。

图4BTopicMiner 系统架构

BTopicMiner包含五个基本组成部分:微博爬虫、索引器、基于Web 的用户配置界面、热点话题挖掘引擎和用户推荐。微博爬虫负责自动从互联网爬取微博并进行语义分析及话题新闻的挖掘;索引器词条化微博内容并在离线库中对已经词条化的词项建立索引;基于Web的用户配置界面允许用户订阅他们感兴趣的热点话题;热点话题挖掘引擎负责从微博中挖掘话题新闻,挖掘出来的热点话题基于用户兴趣进行排序;用户推荐负责将挖掘出来的热点话题转换成XML格式的RSS提要发送给感兴趣的用户。算法可以较准确地自动提取微博中的热点话题,同时自动计算出的热点话题词汇与人工选取的热点话题词汇的语义相似度超过75%。

9

4.3 微博用户挖掘

微博最显著的特点是信息传递速度得到了极大增强,这归功于微博独特的用户关系和交互模式所决定的信息传递机制。微博的用户关系源自于twitter创造的一种“followee-follower”的机制,这种机制的核心是在用户与用户之间建立一种单向跟随关系。用户可以跟随其他用户,被跟随的用户就是跟随用户的“followee”,同时用户也可以被其他用户跟随,跟随的用户叫做被跟随用户的“follower”。而follower 的跟随动作不需要followee的允许。用户发布的信息会以广播的方式呈现给每位跟随者,然后跟随者可以转发或者评论收到的信息,而跟随者转发的信息又可以被跟随者的跟随者继续转发和评论,由此实现信息的传递[46]。

图5微博影响力和微博功能的关系图

由于微博的特性,在利用微博信息进行商业活动的过程中,发掘信息的主动发布者,即核心用户以及发现用户行为规则,不仅有利于微博企业了解用户的行为,而且能够为核心用户提供个性化服务,进行新产品推销、广告投递等商业活动。微博用户大致可以分为两大类——普通用户和精英用户[47],精英用户又分为四类,分别是媒体( media) 、名人( celebrities ) 、博主( bloggers ) 和组织机构( formalorganizations) 。分析微博各类用户的特征能够指导微博管控研究的开展。针对用户的微博特征主要包括用户的行为特征和用户的影响力特征。所以,对微博的用户信息及用户与用户之间的关系信息进行数据挖掘来了解用户的特征,发现核心用户是非常必要和有意义的。

用户的行为特征主要表现如下。

1) 用户关注倾向方面[48]。精英用户之间的关注关系,具有很强的同质性; 普通用户更倾向于关注名人,其次是媒体。

2) 用户关注的话题方面[49,50]。在国外新闻类的话题最受关注,在国内关注度高的话题多是一些笑话、话题讨论、图片等,另外不同类型用户关注的话题内容有差异。

3) 用户发布微博的习惯方面。研究表明用户发表微博的数量与其粉丝数量之间存在一定的关系[49],通常当粉丝数量比较少的用户基本不发布消息,粉丝数量在100到1000之间时,用户发布的微博数量的变化平滑,

10

而当粉丝数量大于5000时,发布的微博数量的变化将会是数量级上的。

4) 用户转发习惯方面。国外用户[48]更喜欢自己直接发表消息,而不喜欢转发,倾向于转发精英用户的消息; 国内用户[50]更喜欢转发,有50.24%的消息都是转发消息。

5) 用户参与话题讨论方面[49]。一半以上的用户都会参与话题讨论,并且其中有部分用户会参与多个话题的讨论。

根据上海交通大学舆情研究实验室统计数据显示,2010年72起社会舆情热点事件中,微博首次曝光的事件为22起。而且,大部分社会舆情事件中均有微博的介入,其中微博起到重要作用的事件高达33%[51]。可以看出,微博已经一定程度上担负起媒体的作用,而微博上热点事件的快速传播往往归功于相应领域的“意见领袖”,对微博上意见领袖与用户行为的挖掘是具有传播意义的。

平亮、宗利永基于社会网络理论[52],结合微博用户之间的“关注”与“被关注”信息传播的网络拓扑关系,从点度中心性、中间中心性和接近中心性3个方面对微博社会网络的中心性进行分析。王晓光以“新浪微博”为研究样本,研究微博的基本结构、信息传播一般模式[53],考察微博用户的基本行为特征和关系特征,分析微博影响力的相关变量,最终建立出影响力回归方程。以上两篇文献均采用主观性随机抽样的办法来获取数据,在数据获取方面具有局限性,而且仅对微博结构或其网络中心性进行了研究分析,而未进行诸如发掘内部规则等方面的研究,不能为微博企业的改进提供实质性的帮助。

图6微博社会网络的关联图

G. Eysenbach等[54]应用爬虫系统,从Twitter上收集数据,并对微博用户进行情绪、转发等方面的分析,研究表明:Twitter能即时提供信息内容,易被用户所重视。采用数据收集系统,从Twitter上获取数据,在数据获取方面具有合理性,但是仅进行了频数分析,而未进行更深入的研究,未能提供更多实质性的研究成果。

何黎、何跃等[55]通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并对微博网络进行核心用户发掘。该方案利用C5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征;利用相关性理论,对用户的关注数、微文数和被关注数3项信息进行分析,从而得到普通用户的相关信息。利用Apriori算法,以发现普通用户潜在的行为规则,可推算出用户采取某项行动后会在置信度水平下做出何种反应;利用Girvan and Newman’s算法进行社区挖掘,将微博网络进行细分,再利用点

11

度中心度来衡量用户在社区中的重要程度,发现各个社区的核心用户,以揭示在微博中进行个性化营销的可行性。

研究结果表明:微博中的名人具有关注数小、被关注数大的特征;用户趋向于通过关注他人和积极发布微博文章两种方法来提高被关注度;愿意公布性别或自我描述的用户,通常愿意公布地址和发布博文,而不愿意公布地址、性别或自我描述的用户,通常不愿意公布其他两项;对微博网络进行核心用户挖掘并进行个性化营销是可行的。

4.4 微博搜索

由于微博搜索对微博内容本身的理解仅停留在关键词阶段,目前的微博搜索基本上是传统网页搜索的简单克隆,缺乏对微博内容的挖掘整理,只提供了基于关键字的搜索接口,无法满足用户快速从微博中获取信息的需要。

刘晓华、韦福如等提出构建基于语义分析的微博搜索[56],讨论了微博语义搜索所面临的挑战及对策,介绍了一种参考实现框架及相关的语义分析技术,特别是面向微博的语义角色标注技术,以帮助用户从海量的、书写通常不规范的微博中有效地获取信息。参考架构如图所示,该架构由爬虫、单个微博处理模块、多个微博处理模块、索引4个部分构成。

图7多微博处理流程

和现有的微博搜索引擎不同,基于语义分析的微博搜索利用一系列的自然语言处理和文本挖掘模块从微

12

博中获取各类兴趣点,例如命名实体、事件、情感等。这些兴趣点进一步被索引,以支持分类浏览和高级搜索。从大量的微博中提取出信息点,以搜索和分类浏览的方式允许用户快捷地访问这些信息点。

5 总结与展望

目前微博信息挖掘技术研究得到了国内外学者的广泛关注,尽管微博信息挖掘的相关理论、技术及应用已经得到了一定的发展,但仍旧处于研究的起步阶段。鉴于微博的不断发展、变化以及对微博信息挖掘的重大意义,针对微博挖掘的探讨领域尚有很多,在微博文本内容挖掘技术、微博个性化推荐以及微博用户聚类等方便面仍具有广阔的前景以及发展空间。

References:

[1] 王晶,朱珂,汪斌强. 基于信息数据分析的微博研究综述[J]. 计算机应用,2012,07:2027-2029+2037.

[2] 闫幸,常亚平. 微博研究综述[J]. 情报杂志,2011,09:61-65+70.

[3] 王露. 2011年微博研究综述[J]. 新闻世界,2012,06:181-182.

[4] 李爽. 从微博中挖掘有用信息[J]. 网络与信息,2011,06:8.

[5] 张韦全,陈京民. 基于社会网络挖掘的微博参政群体实证研究[J]. 计算机与现代化,2012,05:67-70.

[6] 袁园,孙霄凌,朱庆华. 微博用户关注兴趣的社会网络分析[J]. 现代图书情报技术,2012,02:68-75.

[7] 盛宇. 基于微博的学科热点发现、追踪与分析——以数据挖掘领域为例[J]. 图书情报工作,2012,08:32-37.

[8] 张韦全,陈京民. 基于社会网络挖掘的微博参政群体实证研究[J]. 计算机与现代化,2012,05:67-70.

[9] 张剑峰,夏云庆,姚建民. 微博文本处理研究综述[J]. 中文信息学报,2012,04:21-27+42.

[10] KU L W,HUANG T H,CHEN H H. Using morphological and syntactic structures for Chinese opinion analysis[C]//Proceedings

of the 2009 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA: Association for Computational Linguistics,2009:1260-1269.

[11] KIM S M,HOVY E.Automatic detection of opinion bearing words and sentences [C]/ / Proceedings of the Second

International Joint Conference on Natural Language Processing.Jeju Island: [s.n.],2005:61-66.

[12] TURNEY P, LITTMAN M L. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM

Transactions on Information Systems, 2003, 21(4): 315-346.

[13] HAN Ruixia. The influence of microblogging on personal public participation [C] / / Proceedings of the 2010 IEEE 2nd Symposium

on Web Society, SWS 2010. Beijing, China: Association for Computing Machinery, 2010: 615 - 618.

[14] KANG Shulong, ZHANG Chuang. Complexity research of massively microblogging based on human behaviors[C]//2010 2nd

International Workshop on Database Technology and Applications, DBTA2010. Proceedings. Wu han, China: IEEE Computer Society, 2010:1 - 4.

[15] WANG Rui, JIN Yongsheng. An empirical study on the relationship between the followers. number and influence of microblogging

[C] // Proceedings of the International Conference on E-Business and E-Government, ICEE 2010. Guangzhou, China: IEEE

Computer Society, 2010: 2014 - 2017.

[16] 周立柱, 林玲. 聚焦爬虫技术研究综述[J]. 计算机应用,2005, 25( 9) : 1965 - 1969.ZHOU Lizhu, LIN Ling. Survey on the

research of focused crawling technique [J] .Journal of Computer Applications, 2005, 25( 9) : 1965 - 1969. (in Chinese)

[17] 张彦超, 刘云. 基于自动生成模板的Web 信息抽取技术研究[J]. 北京交通大学学报, 2009, 33(5) :40 - 45.ZHANG Yanchao,

LIU Yun. Study of web information extraction technology based on automatically generated template[J]. Journal of Beijing Jiaotong University, 2009, 33( 5) : 40 - 45.(in Chinese)

[18] 欧健文, 董守斌. 模板化网页主题信息的提取方法[J].清华大学学报:自然科学版, 2005, 45( 09) : 1743 - 1747.OU Jianwen,

DONG Shoubin. Topic information extraction from template web pages [J]. Journal of Tsinghua University: Science and Technology, 2005, 45(09): 1743 -1747.(in Chinese)

[19] A.Java,X.Song.Why We Twitter:Understanding Microblogging Usage and Communities. Proceedings of Joint 9th WEBKDD and

1st SNA-KDDWorkshop’07 . 2007

13

[20] Haewoon Kwak,Changhyun Lee, Hosung Park,etal.What is Twitter, a Social Network or a News Media?. Proceedings of

WWW2010 . 2010

[21] J.Ellen. All about microtext: A working definition and a survey of current microtext research within artificial intelligence and

natural language processing. Proceedings of ICAART-11.

[22] Y.Shen,C.Tian,S.Li,et al.The Grand Information Flows in Micro-blog. Journal of Information & Computational Science. 2009

[23] B.Locke. Named Entity Recognition: Adapting to Microblogging. 2009

[24] Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, and Murat Demirbas. 2010. Short text classification in twitte r

to improve information filtering. In Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval(SIGIR '10). ACM, New York, NY, USA, 841-842

[25] Liu Zitao. Short text feature selection for micro-blog mining[C]// Shen Hengtao, Zhang Yanchun. Proceedings of International

Conference on Computational Intelligence and Software Engineering. Wuhan; IEEE, 2010:1-4.

[26] B.Sharifi,M.- A.Hutton,J.Kalita. Summarizing Microblogs Automatically. Proceedings of NAACLHLT’ 2010.

[27] S.Petrovi′c,M.Osborne,https://www.sodocs.net/doc/481989390.html,vrenko. Streaming First Story Detection with application to Twitter. Proceedings of HLT-NAACL’

2010.

[28] 王永恒,贾焰,杨树强. 海量短语信息文本聚类技术研究[J]. 计算机工程,2007,14:38-40.

[29] Xia Hu, Lei Tang, and Huan Liu. 2011. Enhancing accessibility of microblogging messages using semantic knowledge. In

Proceedings of the 20th ACM international conference on Information and knowledge management (CIKM '11), Bettina Berendt, Arjen de Vries, Wenfei Fan, Craig Macdonald, Iadh Ounis, and Ian Ruthven (Eds.). ACM, New York, NY, USA, 2465-2468.

[30] 时睿,封化民. 一种基于名词的微博语义计算方法[J]. 北京电子科技学院学报,2011,04:16-22+29.

[31] T.Sakaki,M.Okazaki,Y.Matsuo. Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors. WWW2010. 2010

[32] W. Zhao, J. Jiang, J. He, etal. Topical Key phrase Extraction from Twitter. Proceedings of the 49th Annual Meeting of the

Association for Computational Linguistics. 2011

[33] Michael Mathioudakis and Nick Koudas. 2010. TwitterMonitor: trend detection over the twitter stream. In Proceedings of the 2010

ACM SIGMOD International Conference on Management of data (SIGMOD '10). ACM, New York, NY, USA, 1155-1158.

[34] 阳锋,冯时,王琳,李任斐,王大玲,于戈. MICA:一个面向微博数据流的观点挖掘原型系统[J]. 计算机研究与发

展,2011,S3:405-409.

[35] 林大云. 基于Hadoop的微博信息挖掘[J]. 计算机光盘软件与应用,2012,01:7-8.

[36] 程苗,陈华平. 基于Hadoop的Web日志挖掘[J]. 计算机工程,2011,11:37-39.

[37] 张圣. 一种基于云计算的关联规则Apriori算法[J]. 通信技术,2011,06:141-143.

[38] 张国安,钟绍辉. 基于微博用户评论和用户转发的数据挖掘[J]. 电脑知识与技术,2012,27:6455-6456.

[39] 廉捷,周欣,曹伟,刘云. 新浪微博数据挖掘方案[J]. 清华大学学报(自然科学版),2011,10:1300-1305.

[40] J.Read. Using emoticons to reduce dependency in machine learning techniques for sentiment classification. Proceedings of the ACL

Student Research Workshop. 2005

[41] A.Go,R.Bhayani,L.Huang. Twitter Sentiment Analysis. CS224N Final Project Report. 2009

[42] A.Go,R.Bhayani,L.Huang. Exploiting the Unique Characteristics of Tweets for Sentiment Analysis. CS224N Project Report. 2009

[43] 王晟,王子琪,张铭. 个性化微博推荐算法[J]. 计算机科学与探索,2012,10:895-902.

[44] 张晨逸,孙建伶,丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展,2011,10:1795-1802.

[45] 李劲,张华,吴浩雄,向军. 基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J]. 计算机应用,2012,08:2346-2349.

[46] 刘清,彭赓,王苹. 基于主成分分析法的微博影响力评估方法及实证分析——以“新浪微博”为例[A]. Wuhan University、

University of Science and Technology of China、Jimei University、Northwest A&F University、Scientific Research Publishing and Engineering Information Institute.Proceedings of Conference on Web Based Business Management(WBM 2012)[C].Wuhan University、University of Science and Technology of China、Jimei University、Northwest A&F University、Scientific Research Publishing and Engineering Information Institute:,2012:4.

[47] 王晶,朱珂,汪斌强. 基于信息数据分析的微博研究综述[J]. 计算机应用,2012,07:2027-2029+2037

[48] KU L W,HUANG T H,CHEN H H. Using morphological and syntactic structures for Chinese opinion analysis[C]//Proceedings

of the 2009 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA: Association for Computational Linguistics,2009:1260-1269.

14

[49] KIM S M,HOVY E.Automatic detection of opinion bearing words and sentences [C]/ / Proceedings of the Second

International Joint Conference on Natural Language Processing.Jeju Island: [s.n.],2005:61-66.

[50] 路斌,万小军,杨建武,等. 基于同义词词林的词汇褒贬计算[C]//第七届中文信息处理国际会议论文集.北京: 电子工业

出版社,2007:17-23.

[51] 朱宏,王丽. 微博时代的意见领袖探析[A]. Jiangxi University of Finance and Economics、Shanghai Second Polytechnic University、

Capital University of Economics and Business、Beijing Jiaotong University、Bohai University、Jiujiang University、Scientific Research Publishing.Proceedings of the 2011 International Conference on Information ,Services and Management Engineering(ISME 2011)(Volume 3)[C].Jiangxi University of Finance and Economics、Shanghai Second Polytechnic University、Capital University of Economics and Business、Beijing Jiaotong University、Bohai University、Jiujiang University、Scientific Research Publishing:,2011:3.

[52] 平亮,宗利永. 基于社会网络中心性分析的微博信息传播研究——以Sina 微博为例[J].图书情报知识,2010(6):92-97.

[53] 王晓光. 微博客用户行为特征与关系特征实证分析——以“新浪微博” 为例[J].竞争情报,2010,54(14):66-70.

[54] CHEW C,EYSENBACH G. Pandemics in the age of twitter: content analysis of tweets during the 2009 H1N1 outbreak[J]. PLOS

One,2010(S) : 1-13

[55] 何黎,何跃,霍叶青. 微博用户特征分析和核心用户挖掘[J]. 情报理论与实践,2011,11:121-125.

[56] 刘晓华,韦福如,段亚娟,周明. 基于语义分析的微博搜索[J]. 山东大学学报(理学版),2012,05:38-42.

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

国内微博研究现状综述_王莹莉

国内微博研究现状综述* 王莹莉 张 敏 【摘 要】本文采用文献计量和社会网络分析方法,从时间分布、期刊分布、作者分布以及研究主题等方面,对微博研究现状进行统计分析。目前,微博研究在传播特征及运作机制上已有一定基础,但对于微博发展至关重要的用户交互行为,基于用户关系的信息组织和聚合共享,以及如何引导和规范集体智慧方面,还尚未形成系统的研究框架。 【关键词】微博 研究现状 文献计量 统计分析 Abstract:Using the methods of bibliometrics and social network analysis,the article makes a statisticalanalysis on the research status of microblogs from the aspects of time distribution,journal distribution,authordistribution and research topics.At present,the research on microblogs mainly focuses on the communicationfeatures and operation mechanism,rather than on users interactions,information organizations andaggregation sharing,and guidance and regulations of the collective wisdoms. Key words:microblog research status bibliometrics statistical analysis 1 前言 作为Web2.0时代新兴起的一类开放式互联网应用,微博是一种非正式的迷你型博客。在维基百科中,它被描述为“一种允许用户及时更新简短文本(通常少于140字)并可以公开发布的博客形式。它允许任何人阅读或者只能由用户选择的群组阅读”。[1]自2007年以来,微博以便捷的发布方式,即时、畅通的交流模式以及低门槛的平台设计等优势在全球得到了迅速的普及和发展,中国互联网络信息中心(CNNIC)发布的《第28次中国互联网络发展状况统计报告》指出,截至2011年6月底,微博用户数呈现“爆发”式增长,半年增幅高达208.9%,从2010年底的6 311万增至1.95亿,成为用户增长最快的互联网应用模式[2]。 随着微博用户的迅猛增长,微博研究日益受到学者关注。本文基于2007~2011年有关微博研究论文的统计分析,从文献增长、期刊分布、作者分布以及主题分布等方面进行全面剖析,揭示当前微博研究状况及存在问题。 2 数据选取与处理方法 本文数据来源于CNKI《中国期刊全文数据库》,以“微博”为检索词,限定关键词字段,检索出关于微博研究的论文共532篇(截至2011年8月25日),剔除不相关及重复文献后,最后用于统计分析的有效文献为487篇。 笔者利用Excel对检索结果进行分类汇总,转化为规范化的易处理格式,并建立相应的数据库,然后结合文献计量学和社会网络统计分析方法,对所检索论文的年代、期刊、作者和主题等方面进行分析,最后利用Ucinet软件进行可视化展示,得出相关结论。 3 统计结果分析 3.1 论文的年代分布 对某一学科或领域的论文年度发文量进行统计分析,可以了解该学科或领域研究的发展历程和研究热度,揭示研究的纵向规律[3]。近年来我国微博研究的年度发文量如表1所示。 *本文为国家社会科学基金项目“网络学术社区的信息聚合与共享模式研究”(项目编号:11CTQ038),西南大学中央高校基本科研业务费专项资金项目“面向一体化虚拟学习环境的信息资源整合与协同服务机制研究”(项目编号:SWU0909507)的研究成果。

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

微博现状讲解

北京航空航天大学 微博分析 1 综述 随着网络的快速发展和普及。微博作为一个信息分享、获取以及传播的平台,以其快速传播、实时搜索等特点,已成为当代人们抒发情感,分享信息,获取资源必不可少的工具。 本文主要对近两年国内微博信息搜索发展和应用情况进行分析。 2 微博使用现状 2.1 微博使用情况 根据中国物联网信息中(CNNIC)公布的《第35次中国互联网发展状况统计报告》,截止2014年12月,我国网民规模6.7亿,使用微博用户2.49亿,网民使用率38.4%,相较2013年底下降7.1%(如图 2-1所示)。而CNNIC《第35次中国互联网发展状况统计报告》中“2013年-2014年中国网民各类互联网使用过的使用率统计表”(如表1所示)显示同为交流沟通类应用中即时通信应用使用率增长率10.4%,微博应用使用率下降11.4%,电子邮件应用下降 2.9%,由以上数据不难看出微博、电子邮件等交流沟通类应用使用率出现下降的主要原则在于其在即时通信上的劣势导致。 图2-1 2013年-2014年微博客/手机微博客用户国模及使用率(数据来源:CNNIC)

北京航天航空大学 表 1 2013年-2014年中国网民各类互联网使用过的使用率统计 2.2 微博信息检索 2.2.1 微博信息检索概况 尽管2013年-2014年网民对微博的使用率存在下降的趋势,但微博自身快速传播、实时搜索等特点依然使微博在信息检索中存在一定优势。 根据中国物联网信息中(CNNIC)发布的《2014年中国网民搜索行为研究报告》,截止2014年6月,95.4%的搜索用户通过综合搜索网站搜索信息,除此之外搜索用户在购物网站、视频网站、资讯类网站、微博上进行搜索的比例分别达到78.5%、75.2%、57.2%和57.1%(如图 2-2所示)。而随着手机的快速发展,网民从PC 端向手机端持续转移,更多的人使用手机进行搜索,而用户实际微博搜索的比率则为58.1%高于PC端48.8(如图2-3所示)。

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘(DM,DataMining)又被称为数据库知识发现(KDD,Knowledge Discovery in Databases),它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念 数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类 分类(Classification)又称监督学习(Supervised Learning)。监

督学习的定义是:给出一个数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(Classification Model),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。 决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集,规则集用来分类。 规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性-值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规则,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是相同的。 朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C=c j︱d),然后我们考察哪个类c j对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是

针对微博用户信息的数据挖掘分析

针对微博用户信息的数据挖掘分析 数据挖掘 什么是数据挖掘?百度百科上定义,数据挖掘是“一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法”。简单来说,就是通过一定的分析,找出大量的数据中隐藏的一些特殊的相关性或者规律,并由这些规律挖掘出一些事物的特性。数据挖掘被广泛运用于企业的运营和发展中,企业常常通过对源自客户的大量的数据的分析,以获取客户的特性,由此尽可能应和客户的需求,从而能够在市场上博取更多消费者的青睐,以更具竞争力。 分类分析、聚类分析和关联分析是数据挖掘的三大主要任务。在本项目中,重点运用到了聚类分析,并辅以关联分析。聚类分析主要任务是确立某一个对象属性作为标准(如空间坐标、时间等),然后根据数据对象在该属性上的相近程度或密集程度,将数据对象分成不同的簇,使得相比之下在同一个簇中的对象具有很高的相似性,并由此导出规则;而关联分析则是根据对象的属性,得出对象与其他对象之间隐含的关联,并得出规律,以便达到以下目的:给出某一个对象的某一种属性,便可知道该种情况包含了其他哪些对象的哪些属性。聚类和关联分析在文章接下来会有更加详细的描述 异常分析、特异群组分析和演变分析是数据挖掘的另外三大任务,在这里我们不作详细描述。 微博数据分析 网络社交平台已经是现代人的生活中不可缺少的一部分,脸书、推特、人人、QQ、微博、微信等等类似的社交平台层出不穷,而这样的社交平台中无疑蕴含着大量的信息。企业可以分析这些数据,大致提取出用户的特征和生活规律,了解客户的需求,以便更好的利用这个平台,扩展业务,从而获取更大的盈利。对这些企业来说,这无疑是一个巨大的商机。 本项目的工作 “基于空间轨迹和发博特点的微博用户特征数据分析”的主要任务是通过分析微博用户所发过的大量的微博中的时间及空间坐标,来得出用户的工作地/居住地、活动性、消费水平(消费偏好)、职业、亲子状况(孩子年龄)等特征及偏好,并最终提取出上述各种属性的关系,运用关联分析勾画出该用户的立体形象。下面,本文将对用户的活动性(及工作地/居住地)这一属性的分析及其相对应的数据挖掘分析,及其后续改进工作进行重点描述,并对关联规则的初步应用简要提及。 1、用户活动性、工作地/居住地 我们用活动性来衡量一个用户的活跃程度,即判断该用户是尝尝四处奔波,还是喜欢老

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

微博营销研究文献综述 2

学年论文 题目微博营销研究文献综述_ 二级学院管理学院 专业市场营销 班级 11级市场2班 学生姓名陈小东学号11108990802 指导教师李巍 成绩 时间 2015年1月

微博营销研究文献综述 摘要:自从2006年twitter的诞生,再到如今的FACEBOOK、新浪微博、腾讯微博,微博的发展脚步从未停止,人们对微博的利用开发也从未停止。微博草根性很强,且广泛分布在桌面、浏览器、移动终端等多个平台上,有多种商业模式并存,或形成多个垂直细分领域的可能。营销嗅觉灵敏的企业当然不会放过这个微博这个全世界最便捷的传播工具的营销机会。随着科技的进步,手机移动应用的普及,微博用户将持续的增长,在不久的未来微博营销将以更低的成本为企业带来更大的收益。本文从微博营销的含义、特点基本概述讲解入手,再分析微博营销的优势,然后指出微博营销的发展趋势,最后做出总结。通关这几个方面对微博营销模式进行研究。 关键词:微博;营销;网络;发展趋势;企业 一、引言 微型博客,是基于用户关系的信息分享、传播、获取的平台,是个人化的社会媒体。用户写微博的方式,通过web,wap以及手机客户端,即时通讯等,发布的字数是140字左右的文字更新信息,可即时的推送到粉丝那里。在国外,微博的鼻祖——Twitter早就成为了营销推广的一种重要手段,据一组调查数据显示,世界100强大企业中就有73家在Twitter上安了家。作为较早进驻Twitter进行品牌营销的企业,戴尔可以称得上是这个领域的高手。据悉,从2007年3月开始使用Twitter企业平台进行营销以来,戴尔已获得了超过700万美元的销售收入。目前戴尔已在Twitter 建立了35个帐号,并依功能分成了六大类,每个账号皆由专人负责管理,像一个一对多的在线客服窗口,让客户能得到丰富而实时的讯息。另外一些知名企业,如全球最大的电子消费品零售商百思买、福特汽车、可口可乐、星巴克和肯德基等,也纷纷在Twitter上开辟营销试验田,并且有所斩获。09年8月“新浪微博”的推出,使中国也陷入微博热中,与国外相比,目前中国企业的微博营销仍处于始发阶段,还不够成熟,需要更系统的方法论的引导,也需要在实践中探寻更多的经验。

数据挖掘_Twitter Users by Month Added(每月新增微博用户数量统计)

Twitter Users by Month Added(每月新增微博用户数 量统计) 数据摘要: This dataset is a list of the number of user counts by the month in which the account was created collected from tweets sent between March 2006 and March 2010. Each user profile includes a timestamp for when the account was created. This dataset counts the number of users who created accounts and sorts them by year and month. Since the full scrape does not cover 100% of users, the total number of users is estimated by looking at the minimum and maximum user id number for each month. The coverage of the scrape is then calculated from this estimated number of users. 中文关键词: 微博用户,每月新增,数据集,社会网络分析, 英文关键词: Twitter Users,Month Added,dataset, Social Network Analysis,

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

关于微博营销研究的文献综述

学院: 专业:*** 班级: 学生姓名:**** 学号:*** 完成日期:

关于微博营销研究的文献综述 【摘要】随着中国计算机的普及和发展,微博已经成为了每个网民都不会感到陌生的词语之一,许多企业也开始看到新的营销商机,与之相应的是企业加大了自身在微博营销上的投入。因此,对于微博营销这个领域的研究显得尤为必要,但是到目前为止,学术界对微博营销暂时还没有系统、完整的研究成果。本文通过总结国内外学者之前对微博营销的研究过程、方法和相关成果,从微博的发展阶段、微博营销的定义、特点、商业价值、基本形式和操作模式、微博营销组合策略以及存在的问题等多方面加以分析和归纳。 【关键词】微博营销微博商业价值 【正文】 一、引言 随着我国互联网开放和普及程度的逐渐提高,微博,作为一种网络媒体,其受众群体和影响力日益扩大,而微博在中国的飞速发展也引起了企业和学者的关注,从而促使了企业开始重视利用微博进行相关的营销以及学者加深对于该领域的研究。然而,对微博营销的研究却跟不上微博的发展脚步。目前国内外学者对于微博营销的研究主要是停留在它所具备的商业价值以及如何进行具体操作上。

下面从几个方面对微博营销的研究进程进行归纳总结。 二、微博营销的定义 朱建在《微博营销》一文中说到,微博,顾名思义就是微型微博,新浪微博、腾讯微博、搜狐微博长度均在140个字符以内,网易微博在163个字符以内。在微博的平台上,人们可以随时随地分享所见所闻,无需标题和文章构思,瞬间的灵感即可便捷地发布,并被病毒式地分享传播。微博营销概念有人界定为是一种全新的以Web2.0 为基础的新媒体营销模式,企业可以通过利用长度在140 字以内的微型微博,快速宣传企业新闻产品文化等,形成的一个固定圈子的互动交流平台。(周合强,《微博营销现状与发展态势初探》)“微博营销是一种较新的网络营销方式,是随着微博的迅速发展而产生的营销方式微博营销以微博作为营销平台,每一个听众(粉丝)都是潜在营销对象”。(韦婉辰,《浅析网络营销策略之微博营销》)“微博营销是随着微博的火热,随即催生的一种网络营销模式。(翟莉,《微博时代的营销观念阐述》。) 三、微博营销的优势 在蔡江伟的《新时代微博营销》一文中,微博营销的特点被归结为四点:其一,它打破了时空的限制。用户不受时间、地点、写作格式的限制,可以将许多零碎的时问利用起来,同时利用微博实时传播身边的第一手信息,迅速及时地进行突发事件的现场报道。其二,极强的交互性。微博更注重于‘内容分享’,它既能保证以个人为中心进行即时信息发布,同时又可以随时随地与外界联系。其三,平民化

基于matlab的数据挖掘技术研究【文献综述】

毕业论文文献综述 信息与计算科学 基于matlab的数据挖掘技术研究 数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(nachine learning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。 数据挖掘有很多种技术和计算方法,包括决策树方法(decision tree)、人工神经网络方法(artificial neural metwork,ANN)、聚类分析、模糊集合方法、遗传算法(genetic algorithm)、模拟退火算法(simulated annealing,SA)、进化式程序设计(evolutionary programming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。 聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。 基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法

微博营销模式研究[文献综述]

目录 摘要 (2) 1.1 引言 (3) 2.1 主体部分 (3) 2.1.1 不断发展的网络营销 (3) 2.1.2 微博及微博营销概念概述 (3) 2.1.3 微博营销的优势 (4) 2.1.4 微博营销的发展机遇 (4) 2.1.5 目前中国企业在进行微博营销所存在的障碍 (5) 2.1.6 中国企业进行微博营销的方法思考 (5) 3.1 总结 (6) 参考文献 (7)

摘要 自从2006年twitter的诞生,再到如今的FACEBOOK、新浪微博、腾讯微博,微博的发展脚步从未停止,人们对微博的利用开发也从未停止。微博草根性很强,且广泛分布在桌面、浏览器、移动终端等多个平台上,有多种商业模式并存,或形成多个垂直细分领域的可能。营销嗅觉灵敏的企业当然不会放过这个微博这个全世界最便捷的传播工具的营销机会。随着科技的进步,手机移动应用的普及,微博用户将持续的增长,在不久的未来微博营销将以更低的成本为企业带来更大的收益。 本文分别从网络营销、微博营销概述、微博营销的优势、微博营销的发展机遇、中国企业在进行微博营销所存在的障碍、中国企业进行微博营销的方法思考六个方面对微博营销模式进行了研究。 关键词:微博;营销;网络;发展机遇;营销模式。

微博营销模式研究 商务管理系 09市场营销专业0903班林冰心 指导老师:卢锡慧 一、引言部分 微型博客,是基于用户关系的信息分享、传播、获取的平台,是个人化的社会媒体。用户写微博的方式,通过web,wap以及手机客户端,即时通讯等,发布的字数是140字左右的文字更新信息,可即时的推送到粉丝那里。在国外,微博的鼻祖——Twitter早就成为了营销推广的一种重要手段,据一组调查数据显示,世界100强大企业中就有73家在Twitter上安了家。作为较早进驻Twitter进行品牌营销的企业,戴尔可以称得上是这个领域的高手。据悉,从2007年3月开始使用Twitter企业平台进行营销以来,戴尔已获得了超过700万美元的销售收入,目前戴尔已在Twitter建立了35个帐号,并依功能分成了六大类,每个账号皆由专人负责管理,像一个一对多的在线客服窗口,让客户能得到丰富而实时的讯息。另外一些知名企业,如全球最大的电子消费品零售商百思买、福特汽车、可口可乐、星巴克和肯德基等,也纷纷在Twitter上开辟营销试验田,并且有所斩获。 09年8月“新浪微博”的推出,使中国也陷入微博热中。营销嗅觉灵敏的企业当然不会放过这个微博这个全世界最便捷的传播工具的营销机会。随着科技的进步,手机移动应用的普及,微博用户将持续的增长,在不久的未来微博营销将以更低的成本为企业带来更大的收益。与国外相比,目前中国企业的微博营销仍处于始发阶段,还不够成熟,需要更系统的方法论的引导,也需要在实践中探寻更多的经验。 二、主体部分 (一)不断发展的网络营销 邱碧珍认为网络营销是企业整体营销战略的一个组成部分,是为实现企业总体经营目标所进行的,以互联网为基本手段营造网上经营环境的各种活动。[1]网络营销虽然是直复营销各种方式中出现的最晚的一种,但却是发展最为迅猛,生命力最强的一种。2010年7月15日,中国互联网络信息中心(CNNIC)在京发布了《第26次中国互联网络发展状况统计报告》。CNNIC《报告》显示,截至2010年6月底,我国网民规模已经突破4亿关口,达到了4.2亿,较2009年底增加3600万人。互联网普及率攀升至31.8%,与2009年底相比提高了2.9个百分点。[2] 在中国互联网网民数不断增加的同时,互联网新技术也层出不穷,BLOG,WEB2.0,Ipv6等新技术正在或者已经开始实用。网络营销由搜索引擎营销到网络播客营销、论坛营销到博客营销、贴吧营销、网络视频营销、电子杂志营销再到如今的微博营销,可以说,网络营销的方式、手段变的越来越多样化,效果愈加明显,企业也对其更加重视与关注。微博的兴起与发展为企业创造了又一种网络营销模式。 (二)微博及微博营销概述 1、微博——异军突起的新型网络营销方式 百度百科对微博的定义:微博,即微型博客,是一种允许用户及时更新简短文本(通常少于200字)并可以公开发布的博客形式。它允许任何人阅读或者只能由用户选择的群

微博使用动机与行为特征研究综述

微博使用动机与行为特征研究综述 微博使用动机与行为特征研究综述 内容摘要:本文从全面了解用户使用微博的动机与行为特征的目的出发,对现有关于微博使用动机、行为特征、动机与使用间的关系的文章进行回顾和分析,发现现有研究大多将动机与行为割裂开来进行研究,而将动机与行为用模型的方式建立联系的研究还相对较少,将用户按照不同的年龄或使用目的区分开来研究使用动机与行为特征间联系的文献则更少,因此未来还可以从动机与行为的关系模型、不同年龄尤其是老年人对于微博的使用动机与行为等方面展开对微博的进一步研究。 关键词:微博使用动机行为特征 引言 目前,已有大量的文献研究与微博相关的内容,这些研究涵盖了人们使用微博的动机、在微博上的行为特征、微博本身的功能和特性、微博的内容、微博在传播、企业、教育、政治方面的应用等,本文通过对现有关于微博使用动机、行为特征、动机与使用间的关系的文章进行回顾和分析,发现现有的研究中已经通过统计分析、问卷调查等方法发现了很多人们使用微博的动机;对于人们的微博行为也运用统计分析的方法进行了描述。但是现有的研究大多是将动机与行为特征割裂开来研究,将两者结合起来进行研究的文献还相对较少。另外,现有研究已有很多专门针对年轻人(大学生)对于微博的使用动机与行为的研究。但是对于新的网络群体—老年人微博使用的动机与行为特征研究的文献则较少。还有,关于人们长期使用微博的过程变化模型和不同阶段影响用户行为变化的因素的研究也还较少。未来的研究可以围绕这些方面展开。 现有关于微博的研究涉及范围非常广泛,关于微博研究的文章数量也非常多,本文在进行文献搜索时,以2013年8月10日为结束点,搜索截至目前已公开发表的文章和会议论文,采取以下方法:英文文献,在EBSCO,Elsevier ScienceDirect,ACM电子期刊数据库中以

相关主题