搜档网
当前位置:搜档网 › 基于受限玻尔兹曼机的中文文档分类

基于受限玻尔兹曼机的中文文档分类

基于受限玻尔兹曼机的中文文档分类

作者:杨莹吴诚炜胡苏

来源:《科技创新导报》2012年第16期

摘要:最近,许多不同类型的人工神经网络(Artificial Neural Network)已经应用于文档分类,并且得到了较好的结果。但是,大多数的模型仅使用了少量特征作为输入,因此可能没有足够的信息来对文档进行准确分类。如果输入更多的特征,将可能发生所谓的维数灾难,导致模型的训练时间大幅度增加,其泛化能力也可能会恶化。因此,在原始高维的输入特征中抽取出高度可区分的低维特征,并将其作为相应模型的输入对改善模型的泛化性能会有很大的帮助。受限玻尔兹曼机(Restricted Boltzmann Machine)是一种新型的机器学习工具,因为其强大的学习能力,受限玻尔兹曼机已经被广泛应用于各种机器学习问题。在本文中,我们使用受限玻尔兹曼机从原始输入特征中抽取低维高度可区分的低维特征,并且使用支持向量机(Support Vector Machine)作为回归模型。

关键词:文档分类受限玻尔兹曼机低维特征支持向量机

中图分类号:TP393 文献标识码:A 文章编号:1674-098X(2012)06(a)-0035-02

目前,随着社会网络化信息化的日益发展,网络上充斥着越来越多的各类文档,给用户检索带了诸多不便。如何对文档进行并自动分类已经成为机器学习的重要研究课题之一。由于大多数模型只选择少量的特征作为输入,因此可能导致模型没有足够的信息来泛化模式。如果加入更多的输入特征,训练时间将会明显上升,而且模型的泛化性能也可能会恶化。

受限玻尔兹曼机 (Restricted Boltzmann Machine)是一种由可视层和隐藏层组成的马尔可夫随机场(MarkovRandomField),并且处于相同层的节点相互无连接。受限玻尔兹曼机还可以组成深度信念网络(DeepBeliefNetwork),深度信念网络可以从复杂的高维输入数据中抽取维数更低、区别度较高的特征。

这篇论文的主要贡献是将受限玻尔兹曼机和支持向量机结合起来,采用受限玻尔兹曼机对原始输入的高维特征抽取低维高度可区分特征,并将其作为回归模型支持向量机的输入,对文档进行分类。

1 受限玻尔兹曼机

1.1 基本概念

受限玻尔兹曼机(Restricted Boltzmann Machine) 是一种没有可见节点与可见节点或者隐藏节点与隐藏节点之间的连接的玻尔兹曼机。标准的受限玻尔兹曼机如图1所示。受限玻尔兹曼机一个最主要的优点是所有可见的节点是独立于其他可见节点(对于隐藏节点亦然),因此可以通过使用基于层的快速学习算法如对比散度(Contrastive Divergence)来训练网络。

受限玻尔兹曼机的能量函数如下所示:

其中代表可视节点的状态,代表隐藏节点的状态,为参数集合,在代表可视节点与隐藏节点的连接权重,,分别是可视节点和隐藏节点的偏置向量。

受限玻尔兹曼机归一化因子(配分函数)定义如下:

,

对于受限玻尔兹曼机的某一状态的概率如下所示:

可视节点的条件概率如下所示:

,

隐藏节点的条件概率如下所示:

,

其中,表示权重矩阵的第个行向量,表示权重矩阵的第个列向量。

高斯-伯努利受限玻尔兹曼机(Gaussian-Bernoulli Restricted Boltzmann Machine)[1]将二进制可视节点替换为具有高斯分布的实数可视节点,高斯-伯努利受限玻尔兹曼机的能量函数如下所示:

其中,为高斯可见节点的标准方差向量。

高斯-伯努利受限玻尔兹曼机的可视节点条件分布服从如下高斯分布:

其中代表均值为,标准方差为的高斯分布。

高斯-伯努利受限玻尔兹曼机的隐藏节点的条件概率如下所示:。

1.2 特征抽取

由于受限玻尔兹曼机采用隐藏节点为输入数据库建模,采用受限玻尔兹曼隐藏节点的期望值作为抽取的特征是一种最直截了当的做法。近来的研究表明,某些问题使用受限玻尔兹曼机抽取的特征作为回归模型的输入,比采用原始数据作为输入在分类性能上得到了显著的改善。

1.3 深度信念网络

相关主题