搜档网
当前位置:搜档网 › 基于机器学习的文本分类技术研究进展

基于机器学习的文本分类技术研究进展

基于机器学习的文本分类技术研究进展
基于机器学习的文本分类技术研究进展

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.sodocs.net/doc/8112897569.html,

Journal of Software, Vol.17, No.9, September 2006, pp.1848?1859 https://www.sodocs.net/doc/8112897569.html, DOI: 10.1360/jos171848 Tel/Fax: +86-10-62562563

? 2006 by Journal of Softwar e. All rights reserved.

?

基于机器学习的文本分类技术研究进展

苏金树1, 张博锋1+, 徐昕1,2

1(国防科学技术大学计算机学院,湖南长沙 410073)

2(国防科学技术大学机电工程与自动化学院,湖南长沙 410073)

Advances in Machine Learning Based Text Categorization

SU Jin-Shu1, ZHANG Bo-Feng1+, XU Xin1,2

1(School of Computer, National University of Defense Technology, Changsha 410073, China)

2(School of Mechantronics Engineering and Automation, National University of Defense Technology, Changsha 410073, China)

+ Corresponding author: Phn: +86-731-4513504, E-mail: bfzhang@https://www.sodocs.net/doc/8112897569.html,

Su JS, Zhang BF, Xu X. Advances in machine learning based text categorization. Journal of Software,

2006,17(9):1848?1859. https://www.sodocs.net/doc/8112897569.html,/1000-9825/17/1848.htm

Abstract: In recent years, there have been extensive studies and rapid progresses in automatic text categorization,

which is one of the hotspots and key techniques in the information retrieval and data mining field. Highlighting the

state-of-art challenging issues and research trends for content information processing of Internet and other complex

applications, this paper presents a survey on the up-to-date development in text categorization based on machine

learning, including model, algorithm and evaluation. It is pointed out that problems such as nonlinearity, skewed

data distribution, labeling bottleneck, hierarchical categorization, scalability of algorithms and categorization of

Web pages are the key problems to the study of text categorization. Possible solutions to these problems are also

discussed respectively. Finally, some future directions of research are given.

Key words:automatic text categorization; machine learning; dimensionality reduction; kernel method; unlabeled

data set; skewed data set; hierarchical categorization; large-scale text categorization; Web page

categorization

摘要: 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速

的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和

评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及

Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进

行了展望.

关键词: 自动文本分类;机器学习;降维;核方法;未标注集;偏斜数据集;分级分类;大规模文本分类;Web页分类

中图法分类号: TP181文献标识码: A

? Supported by the National Natural Science Foundation of China under Grant Nos.90604006, 60303012 (国家自然科学基金); the

National Research Foundation for the Doctoral Program of Higher Education of China under Grant No.20049998027 (国家教育部高校博

士点基金)

Received 2005-12-15; Accepted 2006-04-03

苏金树等:基于机器学习的文本分类技术研究进展1849

随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别.文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用.20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例[1].

基于机器学习文本分类的基础技术由文本的表示(representation)、分类方法及效果(effectiveness)评估3部分组成.Sebastiani在文献[1]中对文本分类发展历程及当时的技术进行了总结,主要内容包括:(1) 文本关于项(term)或特征的向量空间表示模型(VSM)及特征选择(selection)与特征提取(extraction)两种表示空间降维(dimensionality reduction)策略,讨论了χ2,IG,MI,OR等用于特征过滤的显著性统计量及项聚类和隐含语义索引(LSI)等特征提取方法;(2) 当时较成熟的分类模型方法,即分类器的归纳构造(inductive construction)或模型的挖掘学习过程;(3) 分类效果评估指标,如正确率(precision)、召回率(recall)、均衡点(BEP)、Fβ(常用F1)和精度(accuracy)等,以及之前报道的在Reuters等基准语料上的效果参考比较.

然而,互联网中分布传播的海量电子化文本所显现出的种类多样、分布偏斜、关系复杂、更新频繁及标注困难等新的特征,给近年来面向互联网海量信息处理需求的文本分类带来了巨大挑战.文献[1]对分类技术用于解决上述问题时在不同程度上遇到的扩展性差、语料缺乏及精度降低等困难和问题的论述不够,也无法涉及近几年技术的发展以及信息检索、机器学习和数据挖掘等领域权威学术会议及刊物上讨论的重要问题和成果.

本文介绍基于机器学习文本分类技术的最新研究,重点讨论文本分类在互联网信息处理等实际应用中所面临的问题及进展,从相关问题、现状和趋势等方面进行归纳和评论.第1节介绍基础技术的研究动态.第2节讨论现阶段文本分类面向实际应用挑战的主要研究问题及最新进展.最后给出全文的总结和相关技术的展望.

1 文本分类基础技术研究动态

近年来,将文本简化为所谓的BOW(bag of words),在特征处理和统计学习算法的基础上获得对文本语义内容及类别信息的估计与预测,已经成为文本分类的标准模式.通过统计理论和语言学(linguistics)两种途径进行的文本表示和分类模型的研究也得到进一步拓宽或发展,相关领域的技术也在文本分类中得到新的应用.

1.1 文本表示

VSM仍是文本表示的主要方法,相关研究仍然集中在以什么语义单元作为项及计算项的权重两个问题上.大部分工作仍以词(或n-gram)作为项,以项的频率为基础计算权重,如tf×idf等[1].值得注意的是,Debole提出了有监督的权重STW,利用项的显著性统计量(如用χ2等)来平衡其权重[2];文献[3,4]等也使用类似的方法.相对使用tf×idf权重,某些统计量的引入使得SVM及线性分类等方法的分类效果有了不同程度的提高.

除VSM以外,还有人提出基于项概率分布、基于二维视图等模型.Bigi认为,任意文本d和类别c均可视为所有项的一个概率分布P(t i,d)和P(t i,c),i=1,…,|T|( T为所有项或特征的集合),称为项分布概率表示.通过度量分布间的Kullback-Leibler距离(KLD)相似性的分类方法,获得优于VSM表示下线性方法的效果[5].项分布概率模型本质上仅是在项的权重计算和规格化(normalization)上与VSM不同.Nunzio使用可视的二维表示方法,将所有项的信息压缩到由局部能量和全局能量构成的二维平面上,采用启发式算法进一步计算后,在某些测试集上得到了很高的准确性[6];然而,方法仅是在小数据集上进行了测试,实际应用效果还需要进一步加以验证.

还有一些工作希望通过借鉴自然语言处理的技术考虑被BOW忽略的语义单元间的联系,因此,词义及短语等复杂的项被应用到分类方法的文本表示中.但到目前为止,这些表示方法在分类效果上还没有明显的优势,而且往往需要比较复杂的语言预处理,在分类时影响了分类器的吞吐速度[7,8].到目前为止,非VSM的表示在理论上的合理性及面对实际应用的可扩展性还需要深入验证,适合它们的分类方法比较单一,而且未得到广泛的应用.

1850 Journal of Software软件学报 V ol.17, No.9, September 2006

1.2 表示空间降维

相关研究主要集中在降维的模型算法与比较,特征集与分类效果的关系,以及降维的幅度3个方面.

关于降维的模型和算法,很多研究仍按照传统的思路:(1) 用概率统计方法度量并比较项关于类别分布的显著性,如BNS(bi-normal separation)[9]等;(2) 从信息熵角度研究项分布相似性的项聚类方法,如基于全局信息(GI)[10]等;(3) 隐含语义分析途径,即通过矩阵的不同分解和化简来获取将向量语义或统计信息向低维空间压缩的线性映射,如差量(differential)LSI[11,12]等.一些新颖的研究思路包括:(1) 多步骤或组合的选择方法,即首先用基本的特征选择方法确定初始的特征集,然后以某种标准(如考虑其他项与初始集特征的同现(co-occurrence)等[13])进行特征的补充,或者综合其他因素(如依第2种显著性选择标准[13,14]或考虑线性分类器系数值大小[15]等)进行冗余特征的删减;(2) 尝试借鉴语言学技术进行的研究有从手工输入的特征中学习特征信息[16]及基于WordNet[17]的特征提取等方法,但方法所产生的效果都不理想.

必须考虑降维对分类的影响,即关注分类器效果指标随特征数目增加的变化趋势.很多文献中[9?14,18,19]比较一致的现象是:合理的降维方法会使多数分类器都呈现出随特征数量增加,效果快速提高并能迅速接近平稳;但若特征数目过大,性能反而可能出现缓慢降低.这表明:降维不仅能大量降低处理开销,而且在很多情况下可以改善分类器的效果.Forman及Yang等人分别从有效性、区分能力及获得最好效果的机会等方面对不同的特征选择方法进行了广泛比较.从结果来看:BNS,χ2,IG等统计量及组合方法具有一定的优势;另外,不同分类器倾向于接受不同的特定降维方法[9,13,18,19].常用的特征提取与特征选择算法的效果在不同情况下互有高低或相当[1,10,20].虽然选择方法因为复杂度较低而应用更为广泛,但提取得到的特征更接近文本的语义描述,因此有很大的研究价值.

降维尺度的确定常用经验估算方法,如给定特征数的经验值(PFC)或比例(THR);或者考虑统计量阈值(MVS)或向量空间稀疏性(SPA)等因素.Soucy给出特征数与文本数成比例(PCS)的方法,并在精度标准下与其他4种方法做了比较,得出了MVS>PCS>SPA>PFC>THR的结论[21],传统的标准值得重新审视.

1.3 机器学习分类方法

分类方法研究的主要目标是提高分类效果,实用的系统还必须兼顾存储和计算能力受限等条件下,学习过程的可扩展性和分类过程的吞吐率(速度)[22?24].近年来,采用多(multiple)分类器集成学习(ensemble learning)的方法被普遍接受;而支持向量机(SVM)仍然代表了单重(single)方法的发展水平.

SVM的应用是文本分类近年来最重要的进展之一.虽然SVM在大数据集上的训练收敛速度较慢,需要大量的存储资源和很高的计算能力[24?28],但它的分隔面模式有效地克服了样本分布、冗余特征以及过拟合(over-fitting)等因素的影响,具有很好的泛化(generalization)能力.有关文献的比较均显示:相对于其他所有方法,SVM占有效果和稳定性上的优势[28?32].近年来又有很多文献[1]中未涉及的一些模型或方法被提出或应用,有的还获得了较好效果,如最大熵模型[33,34]、模糊理论[35,36]、项概率分布的KLD相似性[5]、二维文本模型[6]以及基于等效半径的方法(SECTILE)[26]等(见表1),但它们仍局限于惯用的相似性度量的分类模式.

Bayes、线性分类、决策树及k-NN等方法的能力相对较弱,但它们的模型简单,效率较高,这些方法的修正和改进引起了人们持续的关注.Wu指出分类器关于数据分布的假设是影响分类效果的重要因素,当模型不适合数据集特点时,性能就可能变得很糟糕.这种模型偏差在弱分类方法中尤为突出,他给出了一种灵活的基于错误矫正的启发式改进策略[25];GIS方法将样本聚集成不同的实例集(instance set),每个实例集的质心称为推广实例(GI),以GI的集合代替样本集合后减少了实例,使得k-NN方法的在线速度大为改善,分类效果也有所提高[37];Tsay利用与GIS相反的思路,他增加类别的数目,实质上为原类别选择多个质心,部分地克服了单个质心难以适应样本稀疏的弱点[38];Tan使用推拉(drag-pushing)策略对Bayes和基于质心的方法进行了改进[39];Chakrabarti的SIMPL方法利用Fisher线性判别分析将文本表示投影到低维空间后,再进行决策树的构造[24].可以看出,多数分类模型和方法的研究,更侧重在特定测试集上效果基本相当的情况下,获得计算开销上相对SVM的优势.

苏金树 等:基于机器学习的文本分类技术研究进展

1851

集成学习,也称为多重学习或分类器组合,主要通过决策优化(decision optimization)或覆盖优化(coverage optimization)两种手段将若干弱分类器的能力进行综合,以优化分类系统的总体性能.决策优化对于不同的分类器均采用完整的样本集进行训练,测试时,通过对所有分类器的决策进行投票或评价(如MV(majority voting),W (weighted)MV 及WLC (weighted linear combination)等[1,40]),确定整个系统输出的类别;Bennett 将特定分类器看作可靠性的指示(reliability indicator);系统利用概率方法综合不同分类器的输出确定最后的决策[41];Xu 和Zhang 提出一种将SVM 与Rocchio 算法进行串行集成方法的思想,即在Rocchio 算法快速处理全部文本向量后, SVM 对部分感兴趣的类别进行误差校正,用较低的计算代价换取重要类别的精度[42];覆盖优化对同一种学习采用不同的训练子集,形成参数不同的单分类器,这些单分类器决策的某种综合(如WMV 等)决定每测试样本的分类,如Bagging 和Boosting 等方法[43];在Boosting 方法的迭代过程中,每一轮都关注上一轮的分类错误,用于提升较弱的分类方法并获得了优于SVM 的结果,AdaBoost.MH 和AdaBoost.MR 等具体算法都有着广泛的应用[44].

Table 1 Properties and effectiveness for most of the categorization models or methods

表1 主要分类模型或方法的性质和效果 Model or method ① Examples of algorithm or

Implementation ②

CR ③HD ④Bi ⑤Best rept eff.⑥Remark ⑦ Probabilistic Na?ve Bayes (NB)

√ 0.773 Easy, highly depend on data distribution Decision tree (DT) ID3, C4.5, CART √

√0.794 Decision rule DL-ESC, SCAR, Ripper, Swap-1 √

√0.823 Often used as base-lines, relatively weak Regression LLSF, LR, RR [45] √

0.849 Effective but computing costly On-Line Winnow, Windrow-Hoff, etc. √

0.822 Linear Centroid-Based Rocchio (and it’s enhancements)

√ 0.799 Weaker but simple and efficient Neural networks Perceptron, Classi, Nnet √

0.838 Not widely used TC Instance-Based k -NN √

0.856 Inefficient in online classification SVM SVM light , LibSVM [46,47] √√

0.920 State of arts effectiveness MV, Bagging √N/A Not widely used and tested yet Ensemble learning WLC, DCS, ACC, adaboost √

0.878 Boosting methods effective and popular STRIVE [41]

√ 0.875 Complex in classifier construction Ensemble learning SVM with Rocchio ensemble [42]

√+0.019* *Improvement in a small Chinese corpus Maximum entropy Li. KAZAMA [33,34]

√ 0.845 Effective but not widely used Fuzzy Liu, Widyantoro [35,36]

√ 0.892* *Only accuracy reported Term prob. distri. KLD based [5]

√ 0.671* *Better than Rocchio in the same test Bidimensional Heuristic approach [6]

√√0.871 Not extensively confirmed MD and ER based SECTILE [26]

√ >0.950* *Only tested in a Chinese corpus,estimated Wu’s Refinement Rocchio/NB refined [25]

√ 0.9/0.926 A little complex in training Tsay’s refinement Rocchio refined [38]

√ +0.018* *Improvement, a Chinese corpus Gener. instance set GIS-R GIE-W [37]

√ 0.860 More efficient than k -NN in testing Dragpushing RCC, RNB [27,39]

√ 0.859 Easy and computationally efficient Linear discri. proj. SIMPL [24]

√√>0.880* *Estimated form reported data LS kernel [48] With SVM

√√0.903 Need expensive matrix processing Word seq. kernel [49] With SVM

√√0.915 Complex and time spending in training String kernel [50,51] With SVM √

√0.861* *Estimated form reported data 表1中数字角标表示的是:① 模型方法;② 算法实例或实现;③ 是否class ranking 方法(输出测试文本关于每个类的相对形似性参考值或排序);④ 是否hard-decision 方法(输出测试文本的类别标记);⑤ 是否是二值(binary)方法(方法接受或拒绝当前类,输出±1);⑥ (reuters-21578子集上)报道的最好分类效果(平均的BEP,F 1或精度值,测试条件不同,结果仅供参考);⑦ 评注.表1的前两部分给出了上述以及文献[1]中涉及的部分方法的主要特征及其在Reuters-21578某些子集上(或个别其他语料)上所报道的最好效果指标(平均的BEP,F 1或精度值).由于测试集合和测试条件的差异,指标的数值仅作为方法效果的参考,不能完全作为方法效果间比较的 依据.

1852 Journal of Software软件学报 V ol.17, No.9, September 2006

1.4 评估方法

信号检测领域中的ROC(receiver operating characteristics)曲线,近年来介入到对分类器的效果评估和优化[41,52?54]中.对类别c,表2是其测试结果的邻接表.设TPR=TP/(TP+FN),FRP=FP/(FP+TN),随着分类器阈值参数的调整,ROC空间(TPR,FPR)中的曲线不但能直观地反映分类器的性能,曲线下面积AUC(area under curve)更可以量化分类器接受正例的倾向性.另外,ROC空间对样本在类别间的分布不敏感,可以反映错误代价(error cost)等指标的变化,具有特别的优势[52].有效地将ROC曲线用于分类器的评价、比较及优化,成为近期的一个热点.

Table 2The contingency table for category c

表2 类别c测试结果邻接表

Expert judgments

Category c

True False

Positive TP FP

Classifier judgments

Negative FN TN

在理论方面,Li和Yang认为关于训练数据的误差及复杂性惩罚使分类器能力间的比较明朗化.通过对常见分类方法进行形式化分析,他们将与分类器获得最优效果条件和标准等价的损失函数(loss function)分为训练损失(training loss)和模型复杂度两部分,从优化的角度给出了一种分类器之间相互比较的方法[45].

方法间的实验比较常在基准语料上进行.Reuters是重要的基准语料,其中在Reuters-21578[55]版本上进行了最多的测试.常见的语料还包括OHSUMED,20 Newsgroups,WebKB及AP等[1,39].文献[28]给出了Reuters-21578子集的相对难度分析和参考.RCV1(reuters corpus volume I)是最新整理和发布的较完全的“官方”语料,它改进了之前语料的一些缺点,以适应多层分类、数据偏斜及分类方法扩展性等研究的需要.语料的构建对文本分类研究有着非常重要的促进和参考作用,文献[31]给出了RCV1的语料加工技术及部分方法的参考性能.中文分类的公开语料大多处于建设中,特别是经过加工的基准语料相对缺乏,Tan公开了一个较新的加工中文分类语料TanCorp及一些分类方法的参考性能[39].

2 主要挑战和研究进展

基于机器学习的文本分类技术经过20多年的不断发展,特别是直接从机器学习等领域借鉴最新的研究成果,已能较好地解决大部分具有数据量相对较小、标注比较完整及数据分布相对均匀等特点的问题和应用.但是,自动文本分类技术的大规模应用仍受到很多问题的困扰,如:单是刻画文本间(非线性的)语义联系的问题,都被认为没有很好地得以解决.近年来面临的主要挑战来自于互联网上Web等海量信息的处理,其主要特征是:(1) 大规模的类别体系给分类器训练带来扩展性的困难;(2) 建立分类器时所获得的样本相对于海量的未知数据非常有限,模拟样本的空间分布变得困难,这可能带来过拟合(overfitting)及数据偏斜的问题;(3) 文本和类别的更新频繁,在力求对每个类别获得更多的样本时,存在标注瓶颈的问题;(4) 类别间的关系也更加复杂,需要有更好的类别组织方法;(5) Web文本是一种半结构化(semi-structured)的数据,其结构信息(如链接关系、主题等)可能对分类提供某些帮助.综合来看,我们认为文本分类技术现阶段主要面临非线性、数据集偏斜、标注瓶颈、多层分类、算法的规模扩展性及Web页面分类等几个关键的问题.下面主要论述解决这些关键问题可能采取的方法.

2.1 非线性问题及核方法

多数文本分类问题的线性可分性[29]并未得到理论上的证明,用线性的模型表达复杂的语义内容必然会带来许多误差,非线性的方法仍是处理复杂问题的重要手段.SVM方法用二元核函数K(x,y)计算高维空间H中的内积(x,y是文本表示向量)[29],以应对(降维后的)项空间上不可分的文本分类问题,表达了模型中的非线性变换.SVM是使用核方法(kernel method)或者核技术(kernel trick)的典型代表,核方法也是SVM取得成功的主要因素之一.

苏金树 等:基于机器学习的文本分类技术研究进展

1853

在核方法中,通过较复杂的非线性映射φ将项空间的非线性问题变换到高维特征空间H ,就有可能在H 中运用线性方法,使问题便于处理和建模;事实上,φ的显式构造可能未知或很复杂,但求解过程中却只需利用显式的核函数K 简单计算H 中的内积,使得复杂的非线性变换在计算上可行[56].目前,核方法在机器学习领域炙手可热,成为在已有线性算法基础上研究非线性问题的重要途径,如Zaragoza 将核技巧运用到线性文本分类方法中,此时,仅需将线性决策函数中的内积用核函数K 进行替换,得到

∑∑====|

|1~||1~~)(),(),()(Tr Tr i i i i i i K f x x x x x φφαα, 其中:Tr 是训练样本集合;x i 是训练样本的表示(i =1,…,|Tr |);x 是待测样本的表示[57].

进一步的研究表明:核方法的效果与核函数的选择密切相关,总是希望它能反映样本相似性的本质.常见的核函数有RBF,Gauss 及sigmoid 核等[29].在文本分类中,由于文本空间的特殊性,采用数值核函数获得的分类性能还不能令人满意.因此,新的基于文本语义的核函数成为一个研究重点.文献[48]讨论了基于矩阵分解的隐含语义(LS)核函数;文献[49?51]中使用语法驱动的字符串核及词序列(word sequence)核,直接将文本作为字或词的有序串来计算核;文献[58]讨论了核函数的合成对分类的影响,给出了能够提高分类效果的某些合成条件.核方法的本质是通过核函数引入文本语义相似性的度量,常具有很高的分类准确性(见表1),但计算开销也较高.

2.2 数据集偏斜

通过对机器学习领域的很多研究,发现数据集关于类别的分布往往是偏斜(skewed)或称不均衡的,即类别间样本的数量可能存在数量级的差距,这是导致分类效果很不理想的一个重要因素.在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类.在文本分类特别是互联网信息的分类中,大量存在数据偏斜的情况.尤其是在采用二值分类策略时,对某一类,正例的样本可能只占所有样本比例很小的一部分[59].Yang 进行了SVM,NB 及k -NN 等方法在样本分布受控情况下的健壮性及分类效果与数据分布之间关系的对比[30],结果表明:SVM 和k -NN 对样本分布的健壮性要好于NB 等方法,这印证了SVM 的泛化性能及NB 对类别先验概率的依赖性,但所有方法在稀有类别上的准确性均很低.

解决数据偏斜问题的主要对策有:(1) 重取样(re-sampling),可以适当屏蔽大类的信息量或提高小类的分类错误代价[60];(2) 采用新的分类策略,如单类(one-class)SVM 以原点作为未知类别的中心,构造包围训练样本的分隔面,从而将问题转化为等价的不受类别分布影响的两类问题[61];文献[62]讨论了在仅有少量正例情况下SVM 的训练;文献[63]中提出的NKNN 方法改进了k -NN 在偏斜数据集上的效果;(3) 采用更好的效果评估方法,如ROC 曲线或代价曲线等在数据偏斜情况下能够更准确地评估分类器的整体性能[52,59];(4) 在数据偏斜的情况下,特征也很重要,可以分别通过优化特征选择框架或改进特征选择方法获得分类器对小类别特征的重 视[9,64?66].目前,所有的方法都还不能将对稀有类别的识别水平(约0.5左右或更低的BEP)整体提高到实际可以接受的程度,相关的研究仍需要进一步的深入.

2.3 标注瓶颈

学习算法需要大量的标注样本,但已标注的样本所能提供的信息有限;另一方面,容易获得(如通过互联网)的未标注样本数量相对于标注样本较多,且更接近整个样本空间上的数据分布.提供尽可能多的标注样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题.因此,如何用少量的已标注样本和大量的未标注样本训练出一个好分类器,逐渐引起人们的关注.Nigam 首先利用基于期望最大化(EM)的方法从未标注样本中学习,利用测试样本改进了Bayes 分类器的分类效果[67];另一种用于未标注文本学习的方法是直推(transductive inference),使得分类器首先通过对已标注样本的学习仅对当前的少量未知样本进行误差最小的预测,而暂不考虑对未来所有实例预期性能的最优性.之后,将这些样本加入到学习过程中来,以改进分类器的效果;Jaochims 使用了直推式支持向量机TSVM 进行文本分类[68],文献[69]中进行了改进;文献[70]中讨论了直推式Boosting 文本分类;文献[71,72]采用合作训练(co-training)的方法,使用未标注的样本进行e-mail 与文本的分类,其思想是从两个视角将样本的特征划分为两个信息充足的子集,分别在两个子集上建立分类器,利用标注样本进行合作学习.另外,文献[73]仅使用正例样本和未标注样本进行学习;文献[74]中利用了SVM 主动

1854 Journal of Software 软件学报 V ol.17, No.9, September 2006

(active)学习.上述方法在标注样本较少的情况下对提高分类器的性能有很大的帮助(见表3),虽然部分地缓解了标注瓶颈问题,但也以大量迭代为代价.另外,不同的从未标注样本学习方法之间,还没有在同一标准下的比较性工作.

Table 3 Effectiveness of some learning-from-unlabeled methods

表3 一些从未标注样本学习方法的效果 Method/Competitor

Data set Labeled/ Training set Unlabeled Effectiveness/ Effectiveness Remark 20/20 10000 ≈0.36/0.21 20NG 500/500 10000 ≈0.66/0.54 EM/NB [67]

4/4 2500 ≈0.55/0.39 Accuracy, estimated from figures WebKB 9/9 3957 0.624/0.572 TSVM/SVM [68]

Ohsumed 120/120 10000 0.535/0.486 Macro-Average BEP TBoosting/Boosting [70]

RWCP 100/100 1000 0.602/0.479 Macro-Average F1 Co-Train with SVM [72]

N/A 9/9 1200 ≈0.62/0.77 Accuracy, comparing with startup Active Learn/Inactive [74]Reuters-21578 22/22 978 ≈0.46/0.69 Average BEP

2.4 多层分类

通常所讨论的分类问题中,类别间是孤立的,认为它们之间没有相互联系,称之为单层(flat)分类.而在类别较多且关系复杂的情况下,如互联网丰富的Web 信息的管理等一大类应用,就需要更好的多层信息组织方式.多层(hierarchical)分类是指多层类别关系下的分类问题[75?81],面对的类别间存在类似于树或有向非循环图的多层分级类别结构,可以更好地支持浏览和查询,也使得部分规模较大的分类问题通过分治的方法得到更好的解决.

多层分类一般采用big-bang 或自顶向下基于级别两种策略,前者在整个分类过程中使用同一个分类器,即将处于类别树结构上的所有叶节点类别看成平等的类,这本质上还是一种单层分类,不能很好地应用类别间的关系;后者可为不同的级别训练不同的分类器,枝节点的分类器只关心当前的不同分枝[77].Sun 等人讨论了基于类别相似度和类别距离的多层分类效果评估方法,给出了用于说明在不同级别上调度分类器的规范语言[77?79]. Ruiz 的博士论文中介绍了早期提出的几种多层分类方法,并给出自己的HME(hierarchical mixture of expert)模型[75].Huang 等人介绍了用于从Web 语料中建立多层分类器的LiveClassifer [82].

多层分类中,类别关系的复杂和相互干扰以及不同类别层次间分类错误的传播都可能对分类器的准确性评估造成影响,仅有Sun 在文献[83]中考虑了这种影响.对于同一个标签(类别)集合,单层分类设置下的多标签(multi-label,即每个文档可能属于多个类别)分类与多层类别设置下的分类在效果上也需要有一个比较,这些问题目前还都没有得到很深入的研究.

2.5 算法的可扩展性

面对互联网海量和复杂的文本内容信息,大规模的文本分类已经成为一个紧迫的需求.大规模的文本分类面对的是庞大的类别数量和训练样本数,这给文本分类带来两个问题:首先,算法的计算时间和存储随类别和样本数量的增长关系;其次,算法是否可以在较大规模下保持有效.目前认为,多层分类是解决算法时间可扩展性的好办法.Yang 的分析和实验表明:分类方法的可扩展性依赖于样本数、类别层次的拓扑结构及类别关于层次的分布,在多层分类中的不同类别层次样本分布满足幂定律(power law)的条件下,SVM 及k -NN 等算法的复杂

性为h ·O ()~h ·O ().其中,h 和N 5.10

N 20N 0分别是类别的层次数和首层的文本数,扩展性可以满足对OHSUMED 全 部14 321个类别及233 445个样本语料的处理[22].然而,Liu 等人指出:大规模的文本分类通常要面对成千上万个类别、较深的类别分级结构及关于类别的偏斜样本分布等状况,目前的算法是否能够有效地扩展到如此大规模的分类依然是一个开放的问题.他首先研究了在大规模分类设置下SVM 的性能,发现对Yahoo! Directory 的24万多个实际类别下的近80万篇文档,其效果远远不能令人满意(几乎所有类的准确率和召回率均下降到0.3以下)[84];他的另一个研究结果表明:SVM 大规模的多层分类的计算要远少于单层分类,而对k -NN 和NB 的计算量则相反,但三者的分类效果都很差[23].至今,还没有分类方法的准确性随类别规模变化关系的研究,也未见上

苏金树等:基于机器学习的文本分类技术研究进展1855

述问题的有效解决办法.大规模的文本分类是一个值得开展深入研究的领域.

2.6 Web页面分类

传统上所讨论的文本分类一般面向文本内容的本身,在文本的预处理阶段会将文本中所包含的如HTML 标签(tag)、主题及超链接等结构信息清除[1].然而,在面向互联的信息,特别是Web页面的分类中,文本中所包含的这些结构化信息会提供文本归属的丰富信息,如可以考虑测试样本中所含超链接指向文本的类别,借以印证内容分类器的决策[85,86];利用超链接中的锚词(anchor word)或其周围的词语(扩展锚词)作为特征来表达超链接所指向的文本[86?89];利用超链接和HTML标签等信息所表现出的结构和拓扑信息来刻画文本间的联系[86,90]以及用核函数来表达超链接[58]等.这些工作在各自不同的语料上取得的分类效果都较不使用结构信息有所提高.利用结构信息的工作并不都是有效的,如将所链接文本的词当作本地词来处理的方法则降低了分类器精度,Yang指出,这是由于对语料上超链接与类别间关系模式的假设不当所致[86,91].目前,如何恰当地表示这些结构化信息以及自动地学习它们的统计模式,仍是一个开放的问题.

3 总结

本文从文本表示和降维、分类方法以及评估手段等方面总结了基于机器学习的文本分类基础技术近年来的研究进展,重点讨论了近期所面临的一些实际应用需求和数据特点的问题及最新成果,并对将来的一些研究工作进行了展望.

文本分类技术有着广泛的应用,逐渐趋于实用.但随着相关应用的发展及需求的不断提升,仍有很多值得研究的问题,例如:解决大规模分类应用问题的途径和方法;可靠、有效及快速的在线分类;结合自然语言领域的研究,基于语义度量的数据模型和分类方法;缓解样本标注瓶颈以及样本数据分布带来的影响等.随着机器学习和数据挖掘领域理论和技术研究的深入,针对不同实际应用和数据的特征,特别是互联网内容处理和其他一些大规模复杂应用中数据模型、类别规模和性能瓶颈等问题,将成为文本分类相关研究和应用的重点和主要突破的方向.

References:

[1] Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys, 2002,34(1):1?47.

[2] Debole F, Sebastiani F. Supervised term weighting for automated text categorization. In: Haddad H, George AP, eds. Proc. of the

18th ACM Symp. on Applied Computing (SAC-03). Melbourne: ACM Press, 2003. 784?788.

[3] Xue D, Sun M. Chinese text categorization based on the binary weighting model with non-binary smoothing. In: Sebastiani F, ed.

Proc. of the 25th European Conf. on Information Retrieval (ECIR-03). Pisa: Springer-Verlag, 2003. 408?419.

[4] Lertnattee V, Theeramunkong T. Effect of term distributions on centroid-based text categorization. Information Sciences, 2004,

158(1):89?115.

[5] Bigi B. Using Kullback-Leibler distance for text categorization. In: Sebastiani F, ed. Proc. of the 25th European Conf. on

Information Retrieval (ECIR-03). Pisa: Springer-Verlag, 2003. 305?319.

[6] Nunzio GMD. A bidimensional view of documents for text categorisation. In: McDonald S, Tait J, eds. Proc. of the 26th European

Conf. on Information Retrieval Research (ECIR-04). Sunderland: Springer-Verlag, 2004. 112?126.

[7] Moschitti A, Basili R. Complex linguistic features for text classification: A comprehensive study. In: McDonald S, Tait J, eds. Proc.

of the 26th European Conf. on Information Retrieval Research (ECIR-04). Sunderland: Springer-Verlag, 2004. 181?196.

[8] Kehagias A, Petridis V, Kaburlasos VG, Fragkou P. A comparison of word- and sense-based text categorization using several

classification algorithms. Journal of Intelligent Information Systems, 2003,21(3):227?247.

[9] Forman G. An extensive empirical study of feature selection metrics for text classification. Journal of Machine Learning Research,

2003,3(1):1533?7928.

[10] Chen W, Chang X, Wang H, Zhu J, Tianshun Y. Automatic word clustering for text categorization using global information. In:

Myaeng SH, Zhou M, Wong KF, Zhang H, eds. Proc. of the Information Retrieval Technology, Asia Information Retrieval Symp.

(AIRS 2004). Beijing: Springer-Verlag, 2004. 1?11.

1856 Journal of Software软件学报 V ol.17, No.9, September 2006

[11] Chen L, Tokuda N, Nagai A. A new differential LSI space-based probabilistic document classifier. Information Processing Letters,

2003,88(5):203?212.

[12] Kim H, Howland P, Park H. Dimension reduction in text classification with support vector machines. Journal of Machine Learning

Research, 2005,6(1):37?53.

[13] Rogati M, Yang Y. High-Performing feature selection for text classification. In: David G, Kalpakis K, Sajda Q, Han D, Len S, eds.

Proc. of the 11th ACM Int’l Conf. on Information and Knowledge Management (CIKM-02). McLean: ACM Press, 2002. 659?661. [14] Makrehchi M, Kamel MS. Text classification using small number of features. In: Perner P, Imiya A, eds. Proc. of the 4th Int’l Conf.

on Machine Learning and Data Mining in Pattern Recognition: (MLDM 2005). 2005. 580?589.

[15] Mladenic D, Brank J, Grobelnik M, Milic-Frayling N. Feature selection using linear classifier weights: Interaction with

classification models. In: Jarvelin K, Allan J, Bruza P, Sanderson M, eds. Proc. of the 27th ACM Int’l Conf. on Research and Development in Information Retrieval (SIGIR-04). Sheffield: ACM Press, 2004. 234?241.

[16] Fernandez J, Montanes E, Diaz I, Ranilla J, Combarro EF. Text categorization by a machine-learning-based term selection. In:

Galindo F, Takizawa R, Traunmuller R, eds. Proc. of the Database and Expert Systems Applications (DEXA-04). Zaragoza: Springer-Verlag, 2004. 253?262.

[17] Chua S, Kulathuramaiyer N. Semantic feature selection using WordNet. In:Yao J, Vijay VR, Wang GY, eds. Proc. of the

IEEE/WIC/ACM Int’l Conf. on Web Intelligence (WI 2004). Beijing: IEEE Computer Society, 2004. 166?172.

[18] Yang Y, Pedersen JO. A comparative study on feature selection in text categorization. In: Fisher DH, ed. Proc. of the 14th Int’l

Conf. on Machine Learning (ICML-97). Nashville: Morgan Kaufmann Publishers, 1997. 412?420.

[19] Gabrilovich E, Markovitch S. Text categorization with many redundant features: Using aggressive feature selection to make SVMs

competitive with C4.5. In: Brodley CE, ed. Proc. of the 21st Int’l Conf. on Machine Learning (ICML-04). Banff: Morgan Kaufmann Publishers, 2004. 41.

[20] Bekkerman R, Yaniv RE, Tishby N, Winter Y. Distributional word clusters vs. words for text categorization. Journal of Machine

Learning Research, 2003,3(2):1183?1208.

[21] Soucy P, Mineau GW. Feature selection strategies for text categorization. In: Xiang Y, Chaib-Draa B, eds. Proc. of the 16th Conf.

of the Canadian Society for Computational Studies of Intelligence (CSCSI-03). Halifax: Springer-Verlag, 2003. 505?509.

[22] Yang Y, Zhang J, Kisiel B. A scalability analysis of classifiers in text categorization. In: Callan J, Cormack G, Clarke C, Hawking

D, Smeaton A, eds. Proc. of the 26th ACM Int’l Conf. on Research and Development in Information Retrieval (SIGIR-03). Toronto: ACM Press, 2003. 96?103.

[23] Liu TY, Yang Y, Wan H, Zhou Q, Gao B, Zeng HJ, Chen Z, Ma WY. An experimental study on large-scale web categorization. In:

Ellis A, Hagino T, eds. Proc. of the 14th Int’l World Wide Web Conf (WWW-05). Chiba: ACM Press, 2005. 1106?1107.

[24] Chakrabarti S, Roy S, Soundalgekar M. Fast and accurate text classification via multiple linear discriminant projections. Int’l

Journal on Very Large Data Bases, 2003,12(2):170?185.

[25] Wu H, Phang TH, Liu B, Li X. A refinement approach to handling model misfit in text categorization. In: Davis H, Daniel K,

Raymoind N, eds. Proc. of the 8th ACM Int’l Conf. on Knowledge Discovery and Data Mining (SIGKDD-02). Edmonton: ACM Press, 2002. 207?216.

[26] Wang J, Wang H, Zhang S, Hu Y. A simple and efficient algorithm to classify a large scale of text. Journal of Computer Research

and Development, 2005,42(1):85?93 (in Chinese with English abstract).

[27] Tan S, Cheng X, Wang B, Xu H, Ghanem MM, Guo Y. Using dragpushing to refine centroid text classifiers. In: Ricardo ABY,

Nivio Z, Gary M, Alistair M, John T, eds. Proc. of the ACM SIGIR-05. Salvador: ACM Press, 2005. 653?654.

[28] Debole F, Sebastiani F. An analysis of the relative hardness of reuters-21578 subsets. Journal of the American Society for

Information Science and Technology, 2004,56(6):584?596.

[29] Joachims T. Text categorization with support vector machines: Learning with many relevant features. In: Nedellec C, Rouveirol C,

eds. Proc. of the 10th European Conf. on Machine Learning (ECML-98). Chemnitz: Springer-Verlag, 1998. 137?142.

[30] Yang Y, Liu X. A re-examination of text categorization methods. In: Gey F, Hearst M, Rong R, eds. Proc. of the 22nd ACM Int’l

Conf. on Research and Development in Information Retrieval (SIGIR-99). Berkeley: ACM Press, 1999. 42?49.

苏金树等:基于机器学习的文本分类技术研究进展1857

[31] Lewis DD, Li F, Rose T, Yang Y. RCV1: A new benchmark collection for text categorization research. Journal of Machine

Learning Research, 2004,5(3):361?397.

[32] Forman G, Cohen I. Learning from little: Comparison of classifiers given little training. In: Jean FB, Floriana E, Fosca G, Dino P,

eds. Proc. of the 8th European Conf. on Principles of Data Mining and Knowledge Discovery (PKDD-04). Pisa: Springer-Verlag, 2004. 161?172.

[33] Kazama J, Tsujii J. Maximum entropy models with inequality constraints: A case study on text categorization. Machine Learning,

2005,60(1-3):159?194.

[34] Li R, Wang J, Chen X, Tao X, Hu Y. Using maximum entropy model for Chinese text categorization. Journal of Computer

Research and Development, 2005,42(1):94?101 (in Chinese with English abstract).

[35] Liu WY, Song N. A fuzzy approach to classification of text documents. Journal of Computer Science and Technology, 2003,18(5):

640?647.

[36] Widyantoro DH, Yen J. A fuzzy similarity approach in text classification task. In: Proc. of the 9th IEEE Int’l Conf. on Fuzzy

Systems (Fuzz-IEEE 2000), Vol.s 1 and 2. San Antonio: IEEE Computer Society, 2000. 653?658. https://www.sodocs.net/doc/8112897569.html,/ 692028.html

[37] Lam W, Lai KY. Automatic textual document categorization based on generalized instance sets and a metamodel. IEEE Trans. on

Pattern Analysis and Machine Intelligence, 2003,25(5):628?633.

[38] Tsay JJ, Wang JD. Improving linear classifier for Chinese text categorization. Information Processing and Management, 2004,40(2):

223?237.

[39] Tan S, Cheng X, Ghanem MM, Wang B, Xu H. A novel refinement approach for text categorization. In: Otthein H, Hans JS,

Norbert F, Abdur C, Wilfried T, eds. Proc. of the 14th ACM Conf. on Information and Knowledge Management (CIKM-05).

Bremen: ACM Press, 2005. 469?476.

[40] Wei YG, Tsay JJ. A study of multiple classifier systems in automated text categorization [PH.D. Thesis]. Chiayi: College of

Engineering National Chung Cheng University, 2002.

[41] Bennett PN, Dumais ST, Horvitz E. The combination of text classifiers using reliability indicators. Information Retrieval, 2005,8(1):

67?100.

[42] Xu X, Zhang B, Zhong Q. Text categorization using SVMs with Rocchio ensemble for internet information classification. In: Lu X,

Zhao W, eds. Proc of the3rd Int’l Conf on Networking and Mobile Computing (ICCNMC-05). Springer-Verlag, 2005. 1022?1031.

[43] Aas K, Eikvil L. Text categorization: A survey. Technical Report, NR 941, Oslo: Norwegian Computing Center, 1999.

[44] Schapire RE, Singer Y. BoosTexter: A boosting-based system for text categorization. Machine Learning, 2000,39(2-3):135?168.

[45] Li F, Yang Y. A loss function analysis for classification methods in text categorization. In: Fawcett T, Mishra N, eds. Proc. of the

ICML 2003. Washington: AAAI Press, 2003. 472?479.

[46] Chang CC, Lin CJ. LIBSVM: A library for support vector machines. 2002. https://www.sodocs.net/doc/8112897569.html,.tw/~cjlin/libsvm

[47] Joachims T. Making large-scale SVM learning practical. In: Scholkopf B, Burges C, Smola A, eds. Advances in Kernel Methods—

Support Vector Learning. Cambridge: MIT Press, 1999. 169?184.

[48] Cristianini N, Shawe-Taylor J, Lodhi H. Latent semantic kernels. In: Brodley C, Danyluk A, eds. Proc. of the 18th Int’l Conf. on

Machine Learning (ICML-01). Williams College: Morgan Kaufmann Publishers, 2001. 66?73.

[49] Cancedda N, Gaussier E, Goutte C, Renders JM. Word sequence kernels. Journal of Machine Learning Research, 2003,3(6):

1059?1082.

[50] Lodhi H, Saunders C, Shawe-Taylor J, Cristianini N, Watkins C. Text classification using string kernels. Journal of Machine

Learning Research, 2002,2(2):419?444.

[51] Leslie C, Kuang R. Fast kernels for inexact string matching. In: Scholkopf B, Warmuth MK, eds. Proc. of the 16th Annual Conf. on

Learning Theory and 7th Kernel Workshop (COLT/Kernel 2003). Washington: Springer-Verlag, 2003. 114?128.

[52] Fawcett T. ROC graphs: Notes and practical considerations for researchers. Technical Report, HPL-2003-4, Palo Alto: HP

Laboratories, 2003.

[53] Yu K, Yu S, Tresp V. Multilabel informed latent semantic indexing. In: Proc. of the ACM SIGIR-05. Salvador: ACM Press, 2005.

258?265.

1858 Journal of Software软件学报 V ol.17, No.9, September 2006

[54] Lachiche N, Flach P. Improving accuracy and cost of two-class and multi-class probabilistic classifiers using ROC curves. In:

Fawcett T, Mishra N, eds. Proc. of the 20th Int’l Conf. on Machine Learning (ICML-01). Washington: AAAI Press, 2003. 416?423.

[55] Lewis DD. Reuters-21578 text categorization test collection. Distribution 1.0. 1997. https://www.sodocs.net/doc/8112897569.html,/resources/

testcollections/reuters21578/readme.txt

[56] Muller KR, Mika S, Ratsh G, Tsuda K, Scholkopf B. An introduction to kernel-based learning algorithms. IEEE Trans. on Neural

Networks, 2001,12(2):181?202.

[57] Zaragoza HH, Ralf. The perceptron meets Reuters. In: Proc. of the NIPS 2001 Machine Learning for Text and Images Workshop.

2001. https://www.sodocs.net/doc/8112897569.html,/456556.html

[58] Joachims T, Cristianini N, Shawe-Taylor J. Composite kernels for hypertext categorisation. In: Brodley C, Danyluk A, eds. Proc. of

the 18th Int’l Conf. on Machine Learning (ICML-01). Williams College: Morgan Kaufmann Publishers, 2001. 250?257.

[59] Chawla NV, Japkowicz N, Kotcz A. Editorial: Special issue on learning from imbalanced data sets. Sigkdd Explorations

Newsletters, 2004,6(1):1?6.

[60] Estabrooks A, Jo TH, Japkowicz N. A multiple resampling method for learning from imbalanced data sets. Computational

Intelligence, 2004,20(1):18?36.

[61] Manevitz LM, Yousef M. One-Class SVMs for document classification. Journal of Machine Learning Research, 2001,

2(1):139?154.

[62] Brank J, Grobelnik M. Training text classifiers with SVM on very few positive examples. Technical Report, MSR-TR-2003-34,

Redmond: Microsoft Research, 2003.

[63] Tan S. Neighbor-Weighted k-Nearest neighbor for unbalanced text corpus. Expert Systems with Applications, 2005,28(4):667?671.

[64] Castillo MDd, Serrano JI. A multistrategy approach for digital text categorization from imbalanced documents. SIGKDD

Explorations Newsletter, 2004,6(1):70?79.

[65] Zheng Z, Wu X, Srihari R. Feature selection for text categorization on imbalanced data. SIGKDD Explorations, 2004,6(1):80?89.

[66] Forman G. A pitfall and solution in multi-class feature selection for text classification. In: Brodley CE, ed. Proc. of the 21st Int’l

Conf. on Machine Learning (ICML-04). Banff: Morgan Kaufmann Publishers, 2004. 38.

[67] Nigam K. Using unlabeled data to improve text classification [Ph.D. Thesis]. Pittsburgh: Carnegie Mellon University, 2001.

[68] Joachims T. Transductive inference for text classification using support vector machines. In: Bratko I, Dzeroski S, eds. Proc. of the

16th Int’l Conf. on Machine Learning (ICML-99). Bled: Morgan Kaufmann Publishers, 1999. 200?209.

[69] Chen YS, Wang GP, Dong SH. A progressive transductive inference algorithm based on support vector machine. Journal of

Software, 2003,14(3):451?460 (in Chinese with English abstract). https://www.sodocs.net/doc/8112897569.html,/1000-9825/14/451.htm

[70] Taira H, Haruno M. Text categorization using transductive boosting. In: Raedt LD, Flach PA, eds. Proc. of the 12th European Conf.

on Machine Learning (ECML-01). Freiburg: Springer-Verlag, 2001. 454?465.

[71] Park SB, Zhang BT. Co-Trained support vector machines for large scale unstructured document classification using unlabeled data

and syntactic information. Information Processing and Management, 2004,40(3):421?439.

[72] Kiritchenko S, Matwin S. Email classification with co-training. In: Stewart DA, Johnson JH, eds. Proc. of the 2001 Conf. of the

Centre for Advanced Studies on Collaborative Research. Toronto: IBM Press, 2001. 8.

[73] Liu B, Dai Y, Li X, Lee WS, Yu PS. Building text classifiers using positive and unlabeled examples. In: Proc. of the 3rd IEEE Int’l

Conf. on Data Mining. Melbourne (ICDM-03). IEEE Computer Society, 2003. 179?188.

[74] Tong S, Koller D. Support vector machine active learning with applications to text classification. Journal of Machine Learning

Research, 2001,2(1):45?66.

[75] Ruiz M. Combining machine learning and hierarchical structures for text categorization [Ph.D. Thesis]. Ames: Graduate College of

University of Iowa, 2001.

[76] Ruiz M, Srinivasan P. Hierarchical text classification using neural networks. Information Retrieval, 2002,5(1):87?118.

[77] Sun A, Lim EP, Ng WK. Hierarchical text classification methods and their specification. In: Chan AT, Chan SC, Leong HV, Ng

VTY, eds. Cooperative Internet Computing. Dordrecht: Kluwer Academic Publishers, 2003. 236?256.

[78] Sun A, Lim EP. Hierarchical text classification and evaluation. In: Cercone N, Lin TY, Wu X, eds. Proc. of the 1st IEEE Int’l Conf.

on Data Mining (ICDM-01). San Jose: IEEE Computer Society, 2001. 521?528.

苏金树等:基于机器学习的文本分类技术研究进展1859

[79] Sun A, Lim EP, Ng WK. Performance measurement framework for hierarchical text classification. Journal of the American Society

for Information Science and Technology, 2003,54(11):1014?1028.

[80] Zhou S, Fan Y, Hua J, Yu F, Hu Y. Hierachically classifying Chinese Web documents without dictionary support and segmentation

procedure. In: Lu H, Zhou A, eds. Proc. of the 1st Int’l Conf. on Web-Age Information Management (WAIM-00). Shanghai: Springer-Verlag, 2000. 215?226.

[81] Ceci M, Malerba D. Hierarchical classification of HTML documents with WebClassII. In: Sebastiani F, ed. Proc. of the 25th

European Conf. on Information Retrieval (ECIR-03). Pisa: Springer-Verlag, 2003. 57?72.

[82] Huang CC, Chuang SL, Chien LF. LiveClassifier: Creating hierarchical text classifiers through Web corpora. In: Proc. of the 13th

Int’l World Wide Web Conf. New York: ACM Press, 2004. 184 ?192.

[83] Sun A, Lim EP, Ng WK, Srivastava J. Blocking reduction strategies in hierarchical text classification. IEEE Trans. on Knowledge

and Data Engineering, 2004,16(10):1305?1308.

[84] Liu TY, Yang Y, Wan H, Zeng HJ, Chen Z, Ma WY. Support vector machines classification with a very large-scale taxonomy.

SIGKDD Explor. Newsl., 2005,7(1):36?43.

[85] Oh HJ, Myaeng SH, Lee MH. A practical hypertext categorization method using links and incrementally available class information.

In: Belkin NJ, Ingwersen P, Leong MK, eds. Proc. of the 23rd ACM Int’l Conf. on Research and Development in Information Retrieval (SIGIR-00). Athens: ACM Press, 2000. 264?271.

[86] Yang Y, Slattery S, Ghani R. A study of approaches to hypertext categorization. Journal of Intelligent Information Systems, 2002,

18(2-3):219?241.

[87] Glover EJ, Tsioutsiouliklis K, Lawrence S, Pennock DM, Flake GW. Using web structure for classifying and describing Web pages.

In: Proc. of the Int’l Conf. on the World Wide Web (WWW-2002). Honolulu: ACM Press, 2002. 562?569.

[88] Furnkranz J. Exploiting structural information for text classification on the WWW. In: Hand DJ, Kok JN, Berthold MR, eds. Proc.

of the Advances in Intelligent Data Analysis. Springer-Verlag, 1999. 487?497.

[89] Kan MY, Thi HON. Fast Webpage classification using URL features. In: Otthein H, Hans JS, Norbert F, Abdur C, Wilfried T, eds.

Proc. of the 14th ACM Conf. on Information and Knowledge Management (CIKM-05). Bremen: ACM Press, 2005. 325?326. [90] Shih LK, Karger DR. Using URLs and table layout for Web classification tasks. In: Feldman SI, Uretsky M, Najork M, Wills CE,

eds. Proc. of the 13th Int’l Conf. on the World Wide Web (WWW-2004). New York: ACM Press, 2004. 193?202.

[91] Chakrabarti S, Dom BE, Indyk P. Enhanced hypertext categorization using hyperlinks. In: Haas LM, Tiwary A, eds. Proc. of the

ACM Int’l Conf. on Management of Data (SIGMOD-98). Seattle: ACM Press, 1998. 307?318.

附中文参考文献:

[26] 王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法.计算机研究与发展,2005,42(1):85?93.

[34] 李陆荣,王建会,陈晓芸,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类.计算机研究与发展,2005,42(1):94?101.

[69] 陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习.软件学报,2003,14(3):451?460. https://www.sodocs.net/doc/8112897569.html,/1000-

9825/14/451.htm

苏金树(1962-),男,福建莆田人,博士,教授,博士生导师,CCF高级会员,主要研究领域为计算机网络,信息安全.

徐昕(1974-),男,博士,副教授,主要研究领域为机器学习,信息安全,自主计算

.

张博锋(1978-),男,博士生,主要研究领域

为信息安全,互联网内容信息分类.

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

工业机器人分类本体结构及技术指标

工业机器人分类、本体结构和技术指标 “工业机器人”专项技能培训——杜宇 英属哥伦比亚大学(UBC)博士 大连大华中天科技有限公司CEO 主要内容 一、常用运动学构型 二、机器人的主要技术参数 三、机器人常用材料 四、机器人主要结构 五、机器人的控制系统 一、常用运动学构形 1、笛卡尔操作臂 优点:很容易通过计算机控制实现,容易达到高精度。 缺点:妨碍工作, 且占地面积大, 运动速度低, 密封性不好。 ①焊接、搬运、上下料、包装、码垛、拆垛、检测、探伤、 分类、装配、贴标、喷码、打码、(软仿型)喷涂、目标跟 随、排爆等一系列工作。 ②特别适用于多品种,便批量的柔性化作业,对于稳定,提 高产品质量,提高劳动生产率,改善劳动条件和产品的快速 更新换代有着十分重要的作用。 2、铰链型操作臂(关节型) 关节机器人的关节全都是旋转的, 类似于人的手臂,工业机器人中最 常见的结构。它的工作范围较为复杂。 ①汽车零配件、模具、钣金件、塑料制品、运动器材、玻璃制品、陶 瓷、航空等的快速检测及产品开发。 ②车身装配、通用机械装配等制造质量控制等的三坐标测量及误差检 测。 ③古董、艺术品、雕塑、卡通人物造型、人像制品等的快速原型制作。 ④汽车整车现场测量和检测。 ⑤人体形状测量、骨骼等医疗器材制作、人体外形制作、医学整容等。 3、SCARA操作臂 SCARA机器人常用于装配作业, 最显著的特点是它们 在x-y平面上的运动具有较大的柔性, 而沿z轴具有 很强的刚性, 所以, 它具有选择性的柔性。这种机器 人在装配作业中获得了较好的应用。 ①大量用于装配印刷电路板和电子零部件 ②搬动和取放物件,如集成电路板等 ③广泛应用于塑料工业、汽车工业、电子产品工业、 药品工业和食品工业等领域. ④搬取零件和装配工作。

机器学习算法分类与趋势分析

机器学习算法分类与趋势分析

机器学习算法的分类是棘手的,有几种合理的分类,他们可以分为生成/识别,参数/非参数,监督/无监督等。 例如,Scikit-Learn的文档页面通过学习机制对算法进行分组。这产生类别如:1,广义线性模型,2,支持向量机,3,最近邻居法,4,决策树,5,神经网络等 但从我们的经验来看,这并不总是算法分组最为实用的方法。那是因为对于应用机器学习,你通常不会想,“今天我要训练一个支持向量机!”相反,你心里通常有一个最终目标,如利用它来预测结果或分类观察。 所以在机器学习中,有一种叫做“没有免费的午餐”的定理。简而言之,它的意思就是说没有任何一种算法可以完美地解决每个问题,这对于监督式学习(即预测性建模)尤其重要。 例如,你不能说神经网络总是比决策树好,反之亦然。有很多因素在起作用,比如数据集的大小和结构。因此,您应该为您的问题尝试许多不同的算法,同时使用数据的“测试集”来评估性能并选择优胜者。 当然,你尝试的算法必须适合你的问题,这就是选择正确的机器学习算法的重要性之所在。打个比方,如果你需要清理你的房子,你可以使用真空吸尘器,扫帚或拖把,但是你不会拿出一把铲子然后开始挖掘。

因此,我们想要介绍另一种分类算法的方法,即通过机器学习所负责的任务来分类。 机器学习的任务 1.回归 回归是一种用于建模和预测连续数值变量的监督学习任务。例如预测房地产价格,股价变动或学生考试分数。 回归任务的特征是具有数字目标变量的标记数据集。换句话说,对于每个可用于监督算法的观察结果,您都有一些“基于事实”的数值。

1.1。(正则化)线性回归 线性回归是回归任务中最常用的算法之一。它最简单的形式是试图将一个直的超平面整合到你的数据集中(即当你只有两个变量的时候,你只能得到一条直线)。正如您可能猜到的那样,当数据集的变量之间存在线性关系时,它的效果是非常好的。 实际上,简单的线性回归经常被正则化的同类算法(LASSO,Ridge和Elastic-Net)所忽略。正则化是一种惩罚大系数的技术,以避免过度拟合,它应该调整其惩罚的力度。

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.sodocs.net/doc/8112897569.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

工业机器人种类介绍

工业机器人种类介绍 关键词:机器人,种类介绍移动机器人 (AGV) 移动机器人(AGV)是工业机器人的一种类型,它由计算机控制,具有移动、自动导航、多传感器控制、网络交互等功能,它可广泛应用于机械、电子、纺织、卷烟、医疗、食品、造纸等行业的柔性搬运、传输等功能,也用于自动化立体仓库、柔性加工系统、柔性装配系统(以AGV作为活动装配平台);同时可在车站、机场、邮局的物品分捡中作为运输工具。 国际物流技术发展的新趋势之一,而移动机器人是其中的核心技术和设备,是用现代物流技术配合、支撑、改造、提升传统生产线,实现点对点自动存取的高架箱储、作业和搬运相结合,实现精细化、柔性化、信息化,缩短物流流程,降低物料损耗,减少占地面积,降低建设投资等的高新技术和装备。 点焊机器人 焊接机器人具有性能稳定、工作空间大、运动速度快和负荷能力强等 焊接机器人 特点,焊接质量明显优于人工焊接,大大提高了点焊作业的生产率。 点焊机器人主要用于汽车整车的焊接工作,生产过程由各大汽车主机厂负责完成。国际工业机器人企业凭借与各大汽车企业的长期合作关系,向各大型汽车生产企业提供各类点焊机器人单元产品并以焊接机器人与整车生产线配套形式进入中国,在该领域占据市场主导地位。 随着汽车工业的发展,焊接生产线要求焊钳一体化,重量越来越大,165公斤点焊机器人是当前汽车焊接中最常用的一种机器人。2008年9月,机器人研究所研制完成国内首台165公斤级点焊机器人,并成功应用于奇瑞汽车焊接车间。2009年9月,经过优化和性能提升的第二台机器人完成并顺利通过验收,该机器人整体技术指标已经达到国外同类机器人水平。 弧焊机器人 弧焊机器人主要应用于各类汽车零部件的焊接生产。在该领域,国际大 弧焊机器人 型工业机器人生产企业主要以向成套装备供应商提供单元产品为主。

机器学习常见算法分类汇总

机器学习常见算法分类汇总 ?作者:王萌 ?星期三, 六月25, 2014 ?Big Data, 大数据, 应用, 热点, 计算 ?10条评论 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。 学习方式 根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。 监督式学习:

在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network) 非监督式学习: 在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。 半监督式学习:

文本分类概述备课讲稿

第一章绪论 1.1 研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998 年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80 年代每年全世界发表的科学论文大约500 万篇,平均每天发表包含新知识的论文为1.3万-1.4 万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750 亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60 年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40 小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48 年。而2005 年的资料显示[2],进入20 世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10 年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10 年左右翻一番,尖端科技文献的增长则更快,约2-3 年翻一番。 同时,伴随着Internet 的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000 亿,而Google 宣称其已索引250 亿网页。在我国,中国互联网络信息中心从2001 年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056 个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

文本分类方法研究

毕业论文 题目:文本分类方法研究 姓名:贾云璠 院系:理学院物理系 专业:物理学 年级: 2013级 学号: 201341021 指导教师:郑伟 二〇一七年六月

摘要 近些年来,随着信息技术的发展与应用,互联网上的数据错综复杂,面对如此纷繁复杂的数据,需要借助数据挖掘对数据进行处理来实现对数据的分类,以便查询和搜索,实现数据的最大利用价值。 文本分类在信息处理方面占有重要的作用,到目前为止,有很多种方法:KNN SVM 决策树,以及贝叶斯等算法可以帮助我们快速的对文本进行自动分类,本文主要研究KNN SVM两种方法,在比较这两种分类对中文文本分类的基础之上,分析了K 临近算法和支持向量机的优缺点,因SVM和KNN具有互补的可能性,提出了SVM和KNN组合[1]的算法。实验表明:SVM和KNN有很好的分类效果。 关键词:文本分类,SVM、KNN,线性组合

Abstract In recent years, with the development of information technology and application, the complexity of the data on the Internet in the face of so complicated data, need with the help of data mining, data processing to implement the data classification, in order to query and search, and realize the maximum utilization of the data value. Chinese text classification plays an important role in Chinese information processing, for example, Chinese information retrieval and search engine, KNN SVM decision tree, and the bayesian algorithm can be applied to Chinese text classification, based on the research analysis compares the two kinds of KNN and SVM classification method, and the experimental comparison of the two algorithms of Chinese text classification effect, on the basis of analyzing the K near the advantages and disadvantages of the algorithm and support vector machine (SVM), found that the SVM and KNN has the possibility of complementary, SVM and KNN algorithm of linear combination is presented. Key words: Text classification, SVM, KNN, linear combination

机器学习实战之分类算法

机器学习实战之分类算法 第一章机器学习概论 (4) 机器学习基本概念 (4) 机器学习的主要任务以及相应的算法 (4) 如何选择合适的算法? (4) 机器学习应用的步骤 (5) 第二章 K近邻算法(KNN) (5) 工作原理 (5) 实现步骤 (6) K近邻算法的优缺点 (6) 第三章决策树 (7) 基本思路 (7) 集合无序程度测量 (7) 应用场景 (7) 优缺点 (7) 第四章朴素贝叶斯分类 (8) 基本思路 (8) 基本假设 (8) 条件概率 (8) 词袋模型和词集模型 (9) 优缺点 (10) 标称型和数值型数据的区别 (10)

主要应用及步骤 (10) 第五章逻辑回归 (12) 基本思想 (12) 使用场景 (12) 优缺点 (12) Sigmoid函数 (13) 回归系数 (13) 梯度上升法 (14) 特征缺失处理 (14) 标签缺失处理 (14) 第六章支持向量机SVM (14) 基本思想 (14) SVM第一层理解 (15) 超平面的确定 (15) 函数间隔和几何间隔 (15) 最大间隔分类器 (16) SMO优化算法 (16) 核函数 (19) 应用场景 (19) 第七章 AdaBoost分类 (19) Bagging (20) Boosting (20) Adaboost (20) Adaboost的优点 (20)

Adaboost实现步骤 (21) 第八章非均衡分类问题 (23) 分类性能指标 (23) 混淆矩阵 (23) ROC曲线 (24) 处理非均衡问题的数据抽样 (24)

第一章机器学习概论 机器学习基本概念 机器学习就是将无序的数据转化为有用的信息。一个实例有n个特征,由n列组成。机器学习最主要的任务就是分类,另一个就是回归,回归中比较典型的就是线性拟合。分类和回归都属于监督学习,因为这类算法必须知道要预测什么,即已知目标变量的分类信息。与监督学习对应的是无监督学习,此时数据没有类别信息,也不会给定目标值,将数据集合分成由类似的对象组成的多个类的过程叫做聚类。将描述数据统计值的过程称之为密度估计。分类首先要进行训练,训练样本集必须确定目标变量的值,以便发现特征与目标变量之间的关系。特征或者属性通常是训练样本集的列,他们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。 机器学习的主要任务以及相应的算法 如何选择合适的算法? 如果要预测目标变量的值:

国内外文本分类研究计量分析与综述

国内外文本分类研究计量分析与综述一 发表于《图书情报工作》2011年第55卷第6期:78-142,欢迎大家下载、参考和交流 胡泽文王效岳白如江 山东理工大学科技信息研究所淄博255049 [摘要]运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化,通过绘制文献数量分布图、核心关键词的共现网络,挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息,并对文本分类领域研究热点和未来研究趋势进行综述。 [关键词]文本分类计量分析社会网络分析可视化图谱 [分类号]G250TP391 Q uantitative A nalysis and Review of Text Classification Research at Home and Abroad Hu Zewen Wang Xiaoyue Bai Rujiang Institute of Scientific and Technical Information,Shandong University of Technology,Zibo255049,China [Abstract]This paper carries out the quantitative analysis and visualization to the historical literatures of text classification domain by using the bibliometric analysis method,the computer statistic analysis technology and the social network analysis software.By drawing the literature quantity distribution map and co-occurrence network of the core keywords,excavates the development trends,the current research situations,hotspots and the future research trends etc in text classification domain,and makes a review on the research hotspots and future research trends. [Keywords]text classification quantitative analysis social network analysis visualizing map 1引言 随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展,文本分类领域的总体发展趋势、研究概况、热点及未来发展趋势如何,将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实和指导意义。 2样本与方法 样本数据检索情况如表1所示,共检索到1851篇国内外相关文献。在方法运用上,利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析;利用Excel2007、SQL语句的数据处理与统计分析功能、社会网络分析软件Ucinet和NetDraw[1]的数据分析及可视化功能等,对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析,绘制国内外文本分类领域研究概况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。 表1样本数据的检索情况 数据库检索入口检索词时间范围文献数量 一本文系国家社科基金项目“海量网络学术文献自动分类研究”(项目编号:10BTQ047)和教育部人文社会科学研究项目“基于本体集成的文本分类关键技术研究”(项目编号:09YJA870019)的研究成果之一。

分类算法的研究进展

分类算法的研究进展 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域,分类的目的是根据数据集的特点构造一个分类函数或分类模型,该分类模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测,和回归方法不同的是,分类的输出是离散的类别值,而回归的输出是连续或有序值。 一、分类算法概述为了提高分类的准确性、有效性和可伸缩性,在进行分类之前,通常要对数据进行预处理,包括:(1)数据清理,其目的是消除或减少数据噪声处理空缺值。 (2)相关性分析,由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导分析过程,所以相关性分析的目的就是删除这些不相关的或兀余 性。(3)数据变换,数据可以概化到较 高层概念,比如连续值属 为离散值:低、 可概化到高层概念“省”此外,数据也可以规范化,规 范化将给定的值按比例缩放,落入较小的区间,比如【0,1】等。

的属 性“收入”的数值可以概化 性“市” 中、高。又比如,标称值属 二、常见分类算法 2.1 决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。 2.2贝叶斯分类贝叶斯分类是统计学分类方法,它足一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naive Bayes, NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算

工业机器人分类介绍

1.2 Industrial robots - definition and classification 1.2.1 Definition (ISO 8373:2012) and delimitation The annual surveys carried out by IFR focus on the collection of yearly statistics on the production, imports, exports and domestic installations/shipments of industrial robots (at least three or more axes) as described in the ISO definition given below. Figures 1.1 shows examples of robot types which are covered by this definition and hence included in the surveys. A robot which has its own control system and is not controlled by the machine should be included in the statistics, although it may be dedicated for a special machine. Other dedicated industrial robots should not be included in the statistics. If countries declare that they included dedicated industrial robots, or are suspected of doing so, this will be clearly indicated in the statistical tables. It will imply that data for those countries is not directly comparable with those of countries that strictly adhere to the definition of multipurpose industrial robots. ?Wafer handlers have their own control system and should be included in the statistics of industrial robots. Wafers handlers can be articulated, cartesian, cylindrical or SCARA robots. Irrespective from the type of robots they are reported in the application “cleanroom for semiconductors”. ?Flat panel handlers also should be included. Mainly they are articulated robots. Irrespective from the type of robots they are reported in the application “cleanroom for FPD”. Examples of dedicated industrial robots that should not be included in the international survey are: ?Equipment dedicated for loading/unloading of machine tools (see figure 1.3). ?Dedicated assembly equipment, e.g. for assembly on printed circuit boards (see figure 1.3). ?Integrated Circuit Handlers (pick and place) ?Automated storage and retrieval systems ?Automated guided vehicles (AGVs) (see “World Robotics Service Robots”) The submission of statistics on industrial robots is mandatory for IFR member associations. In some countries, however, data is also collected on all types of manipulating industrial robots, that is, both multipurpose and dedicated manipulating industrial robots. Optionally, national robot associations may therefore also submit statistics on all types of manipulating industrial robots, which will be included in the publication World Robotics under the respective country chapter. Industrial robot as defined by ISO 8373:2012: An automatically controlled, reprogrammable, multipurpose manipulator programmable in three or more axes, which can be either fixed in place or mobile for use in industrial automation applications

相关主题