搜档网
当前位置:搜档网 › 基于标签权重评分的推荐模型及算法研究_孔欣欣

基于标签权重评分的推荐模型及算法研究_孔欣欣

网络出版时间:2015-07-15 23:19:15

网络出版地址:https://www.sodocs.net/doc/db18693009.html,/kcms/detail/11.1826.TP.20150715.2319.034.html

第38卷计算机学报V ol.38 基于标签权重评分的推荐模型及算法研究

孔欣欣苏本昌王宏志高宏李建中

(哈尔滨工业大学计算机科学与技术学院哈尔滨150001)

摘要推荐系统已经被越来频繁地应用到各种电子商务网站与一些社交网站,在提高用户的满意度的同时也带来了巨大的商业利益。然而,当前的推荐算法由于原始数据的不完整性以及算法本身处理数据的特殊性,运行效果不理想。例如,某些推荐系统会产生冷启动、复杂兴趣推荐困难、解释性差等问题。为此,本文提出一种基于标签权重评分的推荐系统模型,旨在使用一种较为简洁的方式——标签权重评分来获取用户最准确的评价和需求,并通过改进当前的一些推荐算法来处理标签权重评分数据,从而生成对用户的推荐,最后以标签权重评分的形式向用户展示推荐结果并作出合理的解释。扩展实验中,本文通过进行电影推荐实验,证明了本文技术的有效性和可行性。

关键词推荐系统;标签;标签权重评分;数据挖掘

中图法分类号 TP391

论文引用格式

孔欣欣,苏本昌,王宏志,高宏,李建中,基于标签权重评分的推荐模型及算法研究,2015,V ol.38:在线出版号No.23 Kong XinXin, SU Ben-Chang, WANG Hong-Zhi, GAO Hong, LI Jian-Zhong,Research onthe Modeling and Related Algorithms of Label-Weight Rating Based Recommendation System,Chinese Journal of Computers,2015, V ol.38: Online Publishing No.23

Research onthe Modeling and Related Algorithms of Label-Weight Rating Based

Recommendation System

Kong XinXin, SU Ben-Chang, WANG Hong-Zhi, GAO Hong, LI Jian-Zhong

(School of Computer Science, Harbin Intstitute of Technology, Harbin 150001)

Abstract Recommendation System has been frequently applied into various e-commerce websites and social networking sites.With improving users’satisfaction,recommendation system has also brought huge commercial interests.However,as the original data is incomplete and some recommendation algorithms have their own special way of processing data,current recommendation system sometimes cannot work very well.For example,some recommendation systems are bothered with cold-start problem、difficult for complex interest recommendationproblem、poor interpretability and so on.Consequently,in the paper,we propose a recommendation system modeling based on label-weight rating.In this system,first we will get the most accurate evaluation anddemandinginformation of users in a more concise way—label-weight rating method.Then we will generate recommendations using improvedexisting recommendation algorithm.Finally,we will show the recommendations to the users in the form of label-weight rating and make reasonable explanation to users. In the extended experiments we design a series of movie recommendationsexperiments to prove the effectiveness and feasibility of the modeling.

Keywords recommendation system;label; label-weight rating;data mining

———————————————

本课题得到国家自然科学基金(61003046,61472099)、国家“九七三”重点基础研究发展规划项目基金(2012CB316200)、国家科技支撑计划(2015BAH10F00)资助.苏本昌,男,1989年生,硕士研究生,主要研究方向为数据质量,孔欣欣,女,1994年生,硕士研究生,主要研究方向为数据质量,王宏志(通信作者),男,1978年生,博士,副教授,博士生导师,主要研究方向为大数据管理、数据质量管理、XML数据管理等,

wangzh@https://www.sodocs.net/doc/db18693009.html,. 高宏,女,1966年生,博士,教授,博士生导师,主要研究领域为无线传感器网络、物联网、海量数据管理和数据挖掘.李建中,男,1950年生,教授,博士生导师,主要研究领域为无线传感器网络、物联网、数据库和海量数据管理.

2 计算机学报2015年

1引言

推荐系统[1-3]的主要任务通过分析用户信息、物品信息或其他辅助信息,获得用户对物品的偏好特征,并据此为用户进行物品推荐。

当前的推荐算法主要包括以下三种[4]:基于内容的算法、基于协同过滤的算法和基于标签的方法。

基于内容的算法[5,6](Content-Based Algorithm,以下简称CB)通过为每个物品抽取内容特征来描述该物品,通过用户过去所喜好的物品的特征描述用户偏好特征,通过计算用户与物品之间相关性进行推荐。

基于协同过滤的算法[7,8] (Collaborative Filter Algorithm,简称CF)有两种情况:一种是通过对不同用户对相同物品的行为分析找出相似用户,根据相似用户的偏好对指定用户进行物品推荐,这种称为基于用户的协同过滤推荐(User-based Recommendation);另外一种是通过对相同用户对不同物品的行为分析找出相似物品,根据相似物品的相似度为指定用户进行推荐,这种称为基于物品的协同过滤推荐(Item-based Recommendation)。

基于标签的方法[9,10](Tag-Based Algorithm,简称TB)引入了标签信息,形成用户-标签-物品三元关系,其中标签来源于Web2.0环境下用户对物品的描述。TB算法通过分析用户的标签偏好、物品的标签特征,基于二者相似性为用户进行物品推荐。

以上三种方法在当前推荐系统中已得到广泛应用,然而它们都有着以下缺陷:

(1)冷启动问题[11-13]。当推荐系统中加入了新的用户,由于没有该用户历史偏好数据(如CB算法和CF算法)或标签数据(如TB算法),以致无法为用户进行有效的推荐。

(2)复杂兴趣推荐困难。当用户的兴趣突然发生变化或者多个用户共用一个账户时,用户的兴趣就变得复杂。以上三种方法对用户历史兴趣依赖过重,很难适应这种情况,推荐也就变得不准确。

(3)可解释性差问题。为提高用户满意度,推荐系统在进行物品推荐的同时会提供解释来说明推荐原因。推荐解释的方式与所使用的推荐算法有着直接关系。CB算法会提供抽取的内容特征来作解释,但是物品的特征一般很难提取。比如电影推荐,很有可能从两部不同电影描述信息中提取出相同的演员导演的信息,这样的推荐解释缺乏区分度和信服力。CF算法会提供与所推荐物品相似的物品作为说明或者提供同样偏好所推荐物品的用户作为解释。这样的推荐解释的不足之处在于它默认相似用户偏好同一物品是基于相同的理由,这显然是不准确的。比如用户A和用户B都喜欢“阿甘正传”,而用户A是因为喜欢“幽默”,用户B是因为喜欢“汤姆汉克斯”。如果向A推荐一部电影,解释为“B也喜欢”,就不合适了。TB算法会为推荐的物品提供标签解释,但是不同的物品可能具有相同的标签,这时区分度就不大,会影响用户满意度。比如电影“美国队长”具有标签“科幻”“剧情”两个标签,电影“黑暗骑士”也具有“科幻”“剧情”两个标签,然而看过的人知道“美国队长”中科幻元素更强些,“黑暗骑士”的剧情更胜一筹,所以仅仅有标签还是不够。

针对以上问题,本文提出了一种基于标签权重评分的推荐系统模型(Label-WeightRating based Recommendation,简称LWR)。标签权重评分(Label-Weight Rating,简称LWR)是对传统标签的一种扩展,我们通过为每个标签配以相应的评分,来描述该物品或用户在该标签上的权重。同时,该方法较以往的方法还能最大化地降低客观因素对用户评分的影响。例如[14]中的示例,某用户可能本来很喜欢a餐馆,但最近一次在该餐馆就餐时发生过不愉快的事情,则用户在对该餐馆打分时极可能给出较低分数,这就使得评分出现了偏差。而当前提出的方法可以较为公正客观地解决这一问题,例如可以采用标签权重评分方法,我们可以将对餐馆的标签评分分为:饭菜质量,用餐环境,餐厅服务。此时用户可以对每一项打分,因为这种细分能够最大化地降低客观因素对用户打分的影响,使得评分更为准确、真实。

本文的组织结构如下:第1章提出标签权重评分推荐模型;第2章设计标签权重评分推荐算法;第3章进行相关实验及其结果分析;第4章总结全文。

2系统模型

这一章我们介绍了基于标签权重评分推荐系统模型。首先我们给出标签权重评分数据表示,然后给出推荐系统架构及其数据处理流程,最后说明了本文模型在解决冷启动问题、复杂兴趣推荐问题、可解释性差问题上的优越性。

论文在线出版号 No.23 孔欣欣等:基于标签权重评分的推荐模型及算法研究 3

2.1 数据表示

定义1(标签)

标签是用来描述物品特征的,我们把标签定义为t =(t 1,t 2,…,t p ),其中t k 为标签的第k 个基本属性,可以是标签名称、词性等。

定义2(标签权重)

本文在传统标签的基础上进行了扩展,即在描述物品时不仅给出标签特征,还会给出该物品在特征上权重,即我们用标签权重代替标签对物品进行描述。我们定义标签权重为:s =(t,tagRating ),其中t 为标签属性,tagRating 为权重属性。

定义3

U 中u k (k =1,2,…当m =3时,u =姓名为"Ben",I 其中i k i =(3,"名字为"R (r 1,r 2,…,r k ,…,好评分的第k {1,2,3,4,5}。

S S,s =(t, tagRating 的集合,且满足标签集合。

Y 为U,I,R,Y ?U ×I ×R ×例如,y =户u 对物品i 标签权重评分s 认为物品i 具有的其中一个特征,并且认为物品i 在该标签特征上的权重为tagRating 。

定义4(标签权重评分数据表示相关符号定义)

基于此模型可以如下定义推荐系统中其他数

据要素表示如下:

(1)s(u,i)∈S 表示用户u 对物品i 的其中一个标签权重评分;

(2) S(u,i)?S 表示用户u 对物品i 的标签权重评分集合;

(3)S (U,I )={s (u,i )|u ∈U,i ∈I }表示用户集合U 中的用户对物品集合I 中的物品的标签权重评分集合。

(4)s(u)∈S 表示用户u 的其中一个标签权重特征;

1 推荐系统基本架构

基于标签权重评分推荐系统的架构如图1所示,主要分为数据源模块、推荐引擎模块、推荐结果处理模块和用户反馈模块。具体解释如下:

2 计 算 机 学 报 2015年

数据源模块:数据源D 是推荐系统进行推荐的依据来源,主要包括用户信息集合U 、物品信息集合I 、用户对物品的偏好评分信息R 、用户对物品的标签权重评分S 。数据源模块的主要任务是对数据源D 的获取以及预处理。

推荐引擎E 是推荐系统的核心,其主要作用是使用推荐算法处理分析来自数据源D 的信息,根据一定的推荐标准为用户推荐最需要的物品集合I(U)。

推荐结果处理模块:在推荐引擎计算出对用户进行推荐的初始物品列表后,我们要对推荐物品进

图2离线计算推荐数据流程

2.3.2 在线计算推荐

本文提出的在线不同于传统意义上的在线算法,传统意义上的在线算法是在解决一个问题时事先不知道问题的所有输入数据,是序列化地一个个地处理输入,并在有限的已知条件下做出最优选择。而本文中的在线含义类似于QQ 、飞信等通讯工具

的在线概念,即强调用户在在线状态下,用户能够在线实时输入信息,并进行实时地反馈。

在线计算推荐,指的是用户在登录推荐系统后,以标签权重评分的形式表达出当前的兴趣需求,系统获取当前用户偏好数据,并令用户选择是否考虑历史兴趣,若是,则结合离线计算的结果,进行在线计算,若否,则只根据当前用户偏好数据进行在线计算,最后将推荐结果进行展示。

具体流程如图3:不管是新用户还是老用户,都可以通过标签权重评分表达当前的偏好需求。推荐系统获得当前的偏好数据之后首先进行预处理,2.4 模型优越性阐述

这一小节,我们介绍如何利用上述三种推荐方式来解决冷启动、复杂兴趣推荐困难、可解释性差这三个缺陷。

由于没有新用户的历史数据,无法进行离线计算,不能作出有效的推荐,也就是会出现冷启动问题。但基于本文模型,我们允许用户通过标签权重评分机制准确表达自己的兴趣偏好,同时,我们会

论文在线出版号No.23 孔欣欣等:基于标签权重评分的推荐模型及算法研究 3

对标签权重说明:1.0表示非常不喜欢,2.0表示不太喜欢,3.0表示一般喜欢,4.0表示很喜欢,5.0表示非常喜欢。系统把新获取的数据作为用户的标签权重特征,调用在线计算推荐算法进行物品推荐。

例如,用户u可以选择如下标签并赋予相应的权重来表达自己的标签权重特征:

S(u)={("科幻",5.0),("超级英雄",4.0),

("人性",4.0),("情节",3.0)}

对于用户兴趣突然发生变化或多人共用一个账户的复杂兴趣推荐问题,据笔者所知,当前还没有很有效的在线计算方法解决。但与解决冷启动问

户推荐物品i

S(u)={("

("

(https://www.sodocs.net/doc/db18693009.html,)

淘宝网用户为了购买到最符合自身需求的物品,他们很乐意使用标签的方式来明确表明自身需求,他们为了追求更高的准确度而可以进一步进行复杂操作,同时他们也愿意进行反馈评价,故该方法适用于淘宝网这类电子商务网站。在豆瓣网中标签应用很广泛,豆瓣用户为了找志同道合的瓣友、看感兴趣的帖子而使用标签,他们为了找出符合自身品味的作品而愿意进行较为复杂的标签操作。因此,该方法具有一定的实用价值。3算法研究

本章我们将基于标签权重评分推荐模型进行相关算法的研究与设计。

3.1节我们介绍了数据源分解算法,目的是通过数据预处理获得用户与物品的标签权重特征。

3.2节给出基于矩阵填充的离线计算推荐算法。3.3节给出基于聚类的在线计算推荐算法。3.4节给出基于标签权重评分的反馈计算推荐算法。3.5节为本章小结。

5.if tagRating≥t?res?old then

weig?tUp(S(u),t,r,tagRating)

6.else//偏好评分很低

7.if tagRating≥t?res?old then

weig?tDown(S(u),t,r,tagRating)

8.normalize(S(u))

9.return S(U)

算法流程如下:首先对所有参与计算的用户的标签权重集合初始化(1-2行),对于D中的任意一个元组进行循环迭代(3-7行)。如果当前用户u对物品i 的偏好评分超过了一个阈值t?res?old,并且此时该元组所对应的标签的权重超过了阈值t?res?old,我

2 计 算 机 学 报 2015年

们就相应地提升用户u 对该物品i 的当前标签的权重(4-5行)。反之如果用户u 对物品的整体偏好得分低于阈值t?res?old (6行),且当前标签特征在物品i 中所占的权重超过了阈值t?res?old ,我们就相应地降低该特征的权重(7行)。迭代地判定每个元组,直到所有元组判定完毕(3-7行),最后规范化S(u) (8行),返回所有参与标签权重计算的用户的标签权重集合S(U) (9行)。

由于只需要遍历一遍数据源,该分解算法的时间复杂度为Ο(N)。其中,N 为用户评分记录的数目。 3.1.2物品标签权重特征求解算法

征t 和该标签特征的权重tagRating (4行),并将当前的特征权重累计添加到物品的相应标签权重特征s(i)中(5行)。迭代地判定每个元组,直到所有元组判定完毕(3-5行),最后规范化S(i)(6行),返回得出所有参与标签权重计算的物品的标签权重特征S(I)(7行)。

同算法1一样,算法的时间复杂度为Ο(N)。 3.2 离线计算推荐算法

离线推荐算法应用在推荐引擎的离线计算模块。本文的离线推荐算法利用了奇异值分解的性质,所以首先介绍下奇异值分解相关知识。

3.2.1 关于奇异值分解

奇异值分解[15]是线性代数中的一种重要的矩阵分解。对于一个m ×n 的矩阵M 的可以分解为三个矩阵相乘:m ×m 的矩阵W 、m ×n 的矩阵Σ的、n ×n 的矩阵V 的转置。表示如下:

M m×n =W m×m ×Σm×n ×V n×n T

其中,Σ=[σ1

00

σ20··

··

··

]是奇异值矩阵,对角元素σ1,σ2,…,被称为矩阵M 的奇异值,非负递减,其他元素为0。

W =(w 1,w 2,…,w i ,…,w m ),w i 是矩阵M 的左奇i ;而且σi 的值越u i 是方阵M 的右奇异σi ;而且σi 的值v i 是方r 个左奇

V ?=(v 1,v 2,…,v r )

×V T ?r×n 。

算法3:基于矩阵填充的推荐算法输入:用户对物品的偏好评分矩阵R(U,I)

为每位用户选择K 个邻居

输出:为每位用户推荐的物品矩阵I(U)

i

论文在线出版号 No.23 孔欣欣等:基于标签权重评分的推荐模型及算法研究 3

算法过程:1. I (U )={I (u )},I (u )=?//推荐物品列表为空 2. WΣV T =SVD(R(U,I))//奇异值分解 3. W =(w 1,w 2,…,w m )//得到左奇异向量

V =(v 1,v 2,…,v n )//得到右奇异向量

W ≈W

?=(w 1,w 2,…,w r )//近似左奇异向量 V ≈V

?=(v 1,v 2,…,v r )//近似左奇异向量 4. R (U,I )≈R

?(U,I )=W ?Σ?V ?T //求得近似矩阵 5. foreach u ∈U do //计算用户之间相似度 6. for each u j ∈U do αj =sim(u,u j ) 7. find K neighbors N(u) which has highest

similarity//找到K 近邻

8. foreach u ∈U do //为每个用户推荐物品

其中,u i k 表示用户i 的第k 个属性。

在计算出为用户推荐的物品后,推荐结果处理模块把我们上一节计算出的物品标签权重特征作为推荐原因,与物品推荐列表一起展示给用户。

对于m ×n 的矩阵,该算法时间复杂度为Ο(m 3)。考虑到该算法是在进行离线计算时运用的,所以对系统的性能影响不大。下面我们给出在线计算推荐算法。

3.3 在线计算推荐算法

在线计算推荐算法应用在推荐引擎的在线计算推荐模块。为了减少在线推荐所用时间,本文首

先对用户进行两级聚类。通过两级聚类,为指定用户进行推荐在线推荐时,只需要比较该用户与各类代表用户的相似度找到该用所属的类,然后在类内部计算推荐。

3.3.1 两级聚类算法

两级聚类算法先利用用户的注册信息进行粗粒度聚类,再利用用户的标签权重特征进行细粒度聚类。两级聚类所采用的算法是一致的,只是所利用的数据不同。

聚类算法基本思想是:初始每个用户单独成一个集合,利用用户注册信息特征向量进行粗粒度聚11. simpool ←simpool ?(U q ,U i ,sim(U q ,U i )) 12. simpool ←simpool ?(U q ,U j ,sim(U q ,U j )) 13. simpool ←simpool +(U p ,U q ,sim(U p ,U q )) 14.

U ′←U ′?U i ?U j //更新相似类集合

15. U ′←U ′+U p 16. return U

算法流程如下:首先将每个用户初始化为一个单独的类,并令simpool 初始化为空(1-2行),其中simpool 用来存储所有类组成的相似对和相似度的集合,通过循环迭代,计算出每两个类之间的相似度,并将相应的相似对和相似度存储到simpool 中(3-6行)。当类的个数大于k 时,循环迭代(8-15行),

2 计 算 机 学 报 2015年

寻找相似度最大的两个初始类合并为一个新类(8行),且从simpool 中去除这两个初始类组成的相似类和相似对(9行)。并迭代更新simpool (10-13行),更新任何一个类与这个新类的相似度为该类与这两个初始类的相似度的均值(10行),且从simpool 中去除所有与这两个初始类之一相关的相似类和相似对,同时添加该类与新类组成的相似对和相似度(11-13行),直到扫描完所有的类(10-13行)。同时从相似类集合中去除进行合并的两个类,而将新类添加到集合中(14-15行),故每次迭代会使得生成的相似类集合个数减1,直到最终用户相似类类别为k 为止。最后返回

sim(u i ,u j )其中|u i ∩u 个数,|u i ∪u j |其中,u ? i 3.1类代表用户u ? 3.3.2 征,首先根据用户注册信息,通过计算与各个粗粒度类代表的相似度找到所属粗粒度类,再根据标签权重特征,通过计算与各个细粒度代表的相似度找到所属的细粒度类,然后在细粒度内部找邻居,通过判定与类内用户的相似度,得出K 个最近邻用户,并根据K 近邻用户对物品的评分信息计算该用户的物品评分信息,最后根据该用户的评分数据进行物品推荐。

具体流程如算法5所示:

算法5:基于聚类的物品推荐算法

输入:粗粒度聚类结果U ′={U 1,U 2,…,U j }

细粒度聚类结果U ′′={U j |U j ={U jk |k =1,2,…}} 为每位用户选择K 个邻居

输出:为用户u 推荐的物品推荐列表I(u)

算法过程:

1. I(u)=?//初始推荐物品列表为空

2. foreach U i ∈U ′do

3. αi =sim(u,u ? i )//与粗粒度类代表相似度

4. find U j which has highest similarity

5. foreach U jk ∈U j do

6. αjk =sim4(u,U jk )//与细粒度类代表相似度 3.4 反馈计算推荐算法

反馈计算推荐算法应用在推荐引擎的反馈计算模块。算法基本思想是:收到用户的反馈时,首先计算该用户的真实评分与预估评分之间的差距,以该用户与邻居的相似度作为权重对邻居未评分数据进行调整。然后根据调整后的用户数据调用在线计算推荐算法进行推荐。 具体流程如算法6所示:

论文在线出版号 No.23 孔欣欣等:基于标签权重评分的推荐模型及算法研究 3

算法6:基于标签权重评分的用户反馈算法

输入:用户反馈数据

D ′={(u,i,r,s 1),(u,i,r,s 2),..,(u,i,r,s k )} 用户u 的邻居N(u)

输出:为用户u 推荐的物品推荐列表I(u)

算法过程:

1. I (u )=?//初始推荐物品列表为空

2. ?r =r??r //计算偏好评分误差

3. foreach (u,i,r,s j )∈D ′ do //标签权重评分误差

4. ?s j=getTagRating(s?j )?getTagRating(s j )

5. foreach u k ∈N(u) do //更新邻居评分

6. r?k =r?k ?αk

∑αm

·Δr //更新偏好评分

′当收到用户的反馈,我们计算该用户的反馈评分与我们的预估评分之间的差距,然后只更新该用户邻居的相关评分数据,算法复杂度为Ο(1)。

该算法避免了大规模数据的重新计算,而只调整与反馈用户相关的数据,花费时间少,适合在线推荐。

3.5 本章小结

这一章我们介绍了在基于标签权重评分模型下的相关算法,分别应对离线计算推荐、在线计算推荐、反馈计算推荐三种基本推荐情况。如2.4节所述,这样就可以很好地解决冷启动、复杂兴趣推

荐难、可解释性差三个当前推荐系统所具有的缺陷。

下面我们通过实验验证本文模型及算法的有效性。

4 实验验证

基于标签权重评分模型我们实现了一个电影推荐系统。开发工具为MyEclipse10.6,运行环境为ubuntu 12.04-32位系统,机器为3.10GHz Intel(R) Core(TM) i5-2400 CPU ,4G 内存。

实验中我们使用的数据集是GroupLens 实验室提供的MovieLens 的电影评分数据集。该数据集包个标签描述记1127个标签。

不喜欢,一般,1~5表示 份(本文M=8),其余M-1份子个模型,用这M 节的基于矩阵

可能性就越大。如果一个推荐算法总是推荐给用户流行的商品,那么它的覆盖率往往很低,通常也是多样性和新颖性很低的推荐[18]。当覆盖率相对较高时,多样性也会较高,新颖性也不会过低。故覆盖率能有效反映推荐的多样性和新颖性指标,故采用覆盖率来间接双重反映系统的多样新颖性。令I(u)为我们为用户u 推荐的电影列表,D(u)为测试集中用户u 评分在3分以上的电影列表。

那么准确率和召回率的计算如下:

Precision =∑|I(u)∩D(u)|

u∈U |I(u)|

2 计 算 机 学 报 2015年

Recall =

∑|I(u)∩D(u)|

u∈U |D(u)|

覆盖率是衡量推荐系统推荐的物品在总的物品种类中所占比例的指标。在本文中覆盖率计算如下:

Coverage =|?I(u)u∈U |

|I |

其中,U 为进行推荐的用户集合。

如3.2节所述,我们用户邻居为用户填充未评分数据,所以邻居数目K 是一个很关键的参数。我们通过改变K 进行了对比实验。实验结果如表1所

元关系的协同过滤算法。

QSA[4]这个方法基于用户-物品-标签-评分四阶张量的语义分析进行物品推荐。

对比实验结果如表2所示:

表2 离线推荐算法与当前算法性能对比

Algorithm 准确率(%)

召回率(%)

覆盖率(%)

UPCC 15.79 7.18 18.33 IPCC 15.86 7.95 19.15 PMF 19.89 9.83 19.17 QSA 21.43 11.96 20.02 LWR-Offline

25.20

12.17

20.29

可以发现,本文模型在准确率、召回率和覆盖

率都优于参与对比的其他方法。其中,五种算法在覆盖率上都比较接近。由于PMF 、QSA 还有本文算法由于加入了标签这一数据,所以在准确率和召回率上要高于简单的基于用户或电影的协同过滤推荐,而本文的基于标签权重评分的算法不仅加入了标签数据,还加入了对标签的权重描述,所以在性能上要优于PMF 和QSA 。

因此,从表2的对比实验可以看出,尽管该方法用户操作设置较为复杂,但是它并没有降低离线模型的准确度,该方法的准确率、召回率、覆盖率相比其它经典推荐算法均得到了提高。因为采用这

N=1000)个用把选中的N 个且测试集中用户u 评分在3分以上的电影列表为D(u)。通过在线推荐算法得到的物品推荐为I(u)。准确率、召回率、覆盖率计算公式同离线计算推荐实验。

计算N 个用户的平均准确率和召回率。与离线计算推荐、Radom 推荐、Popular 推荐进行对比实验。其中,Radom 推荐是指为每次用户随机推荐L(本文L=10)部电影;Popular 推荐是指每次为用户推荐整体评分最高的L(本文L=10)部电影。结果如表3所示:

表3 在线推荐算法性能

Algorithm

准确率(%)

召回率(%)

覆盖率(%)

论文在线出版号No.23 孔欣欣等:基于标签权重评分的推荐模型及算法研究 3

Random 0.765 0.455 100

Popular 10.73 5.95 3.10

LWR-Offline 25.20 12.17 20.29

LWR-Online 18.15 10.08 16.17

从表3可以发现,从多个角度分析,在线计算

推荐算法(LWR-Online)在性能上与离线计算推荐算

法是有一定差距,这是因为输入数据并没用到被推

荐用户的本身的偏好评分信息,而只用了用户的标

签权重特征。但是该算法的准确率和召回率远远高

于Random推荐算法和Popular推荐算法,所以对

于解决冷启动和复杂兴趣推荐问题还是很有帮助

的。另外,对比研究前沿的算法[20]实验数据,针

对数据集

[20]的算法。从

Precision=16.2%

算法也优于NBI

4.3

户,首先进行

L(本文L=10)

荐。

的电影列表为

的物品推荐为

算推荐实验。将每次调用我们都计算平均绝对误差

MAE、推荐的准确率作为衡量用户反馈性能的指标。

MAE计算如下:

MAE=∑|r(u,i)?r?(u,i)| u,i∈D

|D|

对比实验结果如表4所示:

表4反馈推荐算法在多轮反馈中的性能对比

Algorithm MAE Precision(%) Round1 1.15 18.63

Round2 1.03 20.22

Round3 0.95 23.17

Round4 0.93 23.45

Algorithm MAE Precision(%)

Round5 0.95 23.44

从表中可以看出,从第1轮到第5轮,我们通过用户反馈调整推荐使得平均绝对误差MAE有了17%的提升,准确率有了25%的提升,而且通过5轮反馈对新用户的在线计算推荐的准确率已经非常接近对老用户的离线计算推荐,再次体现出本文模型在解决冷启动与复杂兴趣推荐问题上的优越性。

另外,为了检验用户对于基于标签权重评分的推荐解释的满意度,我们进行了一场用户问卷调查。

签权重评分推荐系统解释很满意,这表明本文提出方法的合理性。

5总结

为了当前推荐系统存在的冷启动、复杂兴趣推荐困难、可解释性差三个问题,本文提出了基于标签权重评分的推荐系统模型,介绍在该模型下的三种推荐方式在解决这三个问题上的优越性。然后为了实现这三种推荐方式,我们进行了相关算法的深入研究。最后通过实验验证了本文技术的有效性。

2 计算机学报2015年

未来拟对基于标签权重推荐系统的效率和有效性进行进一步优化,使之适应大规模数据。另外一项未来的研究工作是如何提高离线训练数据的收集质量,进一步提高模型的准确度。

参考文献

[1]Burke R. Knowledge-based recommender systems. Encyclopedia of

Library and Information Science, 2000, 4:2000.

[2]LüL, Medo M, Yeung C H, et al. Recommender systems. Physics

Reports, 2012, 519(1):1-49.

[3]Liu Jian-Guo, Zhou Tao, Wang Bing-Hong. The research progress of

personal recommender systems.Progress in Natural Science,2009,19(1):1-15.

刘建国, 周涛, 汪秉宏. 个性化推荐系统的研究进展. 自然科学进展, 2009, 19(1):1-15.

[4]Wei C, Hsu W, Lee M L. A unified framework for recommendations

based on quaternary semantic analysis//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. Beijing, China,2011:1023-1032.

[5]Balabanovic M, Shoham Y. Fab: Content-based, collaborativerecom-

mendation//Communications of the ACM.Zurich,Switzerland, 1997:66-72.

[6]Mooney R J, Roy L. Content-based book recommending using learning

for text categorization//Proceedings of the fifth ACM conference on Digital libraries. San Antonio, USA, 2000:195-204.

[7]Salakhutdinov R. and AndriyMnih. 2007. Probabilistic matrix

factorization. Advances in Neural Information Processing Systems,

2008:1257-1264.

[8]Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative

filtering recommendation algorithms//Proceedings of the 10th international conference on World Wide Web. Hong Kong, China, 2001:285-295.

[9]Tso-Sutter K H L, Marinho L B, Schmidt-Thieme L. Tag-aware

recommender systems by fusion of collaborative filtering algorithms//Proceedings of the 2008 ACM symposium on Applied Computing.Fortaleza, Brazil,2008: 1995-1999.

[10]Zhang Z K, Zhou T, Zhang Y C. Tag-aware recommender systems:

astate-of-the-art survey. Journal of Computer Science & Technology, 2011, 26(5):767-777.

[11]Zhang Z K, Liu C, Zhang Y C, et al. Solving the cold-start problem in

recommender systems with social tags. EPL (Europhysics Letters), 2010, 92(2): 28002-28007(6).

[12]Schein A I, Popescul A, Ungar L H, et al. Methods and metrics for

cold-start recommendations//Proceedings of the 25th annual

international ACM SIGIR conference on Research and development in information retrieval.Tampere, Finland, 2002:253-260.

[13]Lin J, Sugiyama K, Kan M Y, et al. Addressing cold-start in app

recommendation: latent user models constructed from twitter followers//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval, Dublin,Ireland, 2013: 283-292.

[14]Qu Yi-Heng, He Jia-Peng, Liang Zhou-Yang. The application of

multidimensional scoring criteria in recommender systems.Collective economy of China, 2008, (21):85-86.

曲懿恒, 何嘉鹏, 梁周扬. 多维评分标准在推荐系统中的应用. 中国集体经济, 2008, (21):85-86.

[15]Herlocker J L, Konstan J A, Riedl J. Explaining collaborative filtering

recommendations//Proceedings of the 2000 ACM conference on Computer supported cooperative work. Philadelphia, USA, 2000:241-250.

[16]Tintarev N. Explanations of recommendations//Proceedings of the 2007

ACM conference on Recommender systems.Minneapolis, USA, 2007: 203-206.

[17]Chen W, Hsu W, Lee M L. Tagcloud-based explanation with feedback

for recommender systems//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. Dublin,Ireland, 2013: 945-948.

[18]Zhu Y u-Xiao, LüLin-Yuan. Evaluation metrics for recommender

systems.Journal of University of Electronic Science and Technology of China, 2012, 41(2):163-175.

朱郁筱, 吕琳媛. 推荐系统评价指标综述. 电子科技大学学报, 2012, 41(2):163-175.

[19]Resnick, Paul, Iacovou, Neophytos, Suchak, Mitesh, et al. GroupLens:

an open architecture for collaborative filtering of netnews//In Proceedings of the 1994 ACM conference on Computer supported cooperative work. Chapel Hill, USA, 1994:175-186.

[20]Zhang Z K, Zhou T, Zhang Y C. Personalized recommendation via

integrated diffusion on user–item–tag tripartite graphs. Physica A: Statistical Mechanics and its Applications, 2010, 389(1): 179-186. [21]Zhou T, Ren J, Medo M, et al. Bipartite network projection and person-

al recommendation. Physical Review E, 2007, 76(4): 70-80.

论文在线出版号No.23 孔欣欣等:基于标签权重评分的推荐模型及算法研究 3

附录X.

Kong XinXin,born in 1994, M.S.

candidate. Her research interests

focus on data quality.

SU Ben-Chang, born in 1989,M.S.candidate.His research interests focus on data quality.

WANG Hong-Zhi,born in 1978, associate professor, Ph.D.. His research interests include data quality,XML data management.

GAO Hong,born in 1966, Ph.D.,professor,Ph.D. supervisor. Her research interests include wireless sensor networks,cyber-physical systems,massive data management and data mining.

LI Jian-Zhong,born in 1950, professor,Ph.D. supervisor. His research interests include wireless sensor networks,cyper-physical system, database, massive data processing etc

Background

Recommendation System has been frequently applied into people’s real-life. With improving users’ acceptance, recommendation system has brought huge commercial interests. However, as the original data is incomplete and some recommendation algorithms have their own special ways of processing data, current recommendation system sometimes cannot work very well. For example, some recommendation systems are bothered with cold-start problem, difficult for complex interest recommendationproblem,poor interpretability and so on. There already have existed some methods on solving these problems. However, they all have their own restrictions. As far as I know, there haven’t had any effective methods tosolvecomplex-interest recommendations problem.

In the paper, we propose a label-weight rating based recommendation system model. In the model, we will get the precise information of users’ need by the simple way of using label-weight rating. Then we will generate recommendations using improved existing recommendation algorithm. At last, we will show the recommendations to the users in the form of label-weight rating. In addition, it is feasible for users to give their’ feedback to the system and get more accura cy recommendations.

This work is supported in part by the This paper was partially supported by NGFR 973 grant 2012CB316200, NSFC grant 61472099,61133002 and National Sci-Tech Support Plan 2015BAH10F00.

联系人:王宏志电话:130********

Email:wangzh@https://www.sodocs.net/doc/db18693009.html,

相关主题