Monday Report第十七期

吕琳媛 曾伟 张千明 王文强


NO.1-4曾伟总结,NO.5-8张千明总结,NO. 9-11由王文强总结


【1】 Measurement and Analysis of Online Social Networks

………………曾伟(Page6)【2】 Finding Statistically Significant Communities in Networks

………………张千明(Page9)【3】 Using community information to improve the precision of link prediction methods

………………王文强(Page12)【4】 Structural diversity in social contagion



1.题目:Beyond Keyword Search: Discovering Relevant Scienti?c Literature


作者:Khalid El‐Arini and Carlos Guestrin

期刊:KDD’11, August 21–24, 2011, San Diego, California, USA.


平时我们在用google Scholar的时候,输入关键字,系统自动的返回与关键字相关的论文。但是当我们在搜索的时候,我们同时也希望系统能够返回一些不局限于关键字的论文,例如该作者与其他作者合作的论文,后者该领域相关的论文。本文提出了一种新的算法,该算法出了返回与关键字相关的论文以外,还帮助用户找到与论文可能相关的其他论文。实验结果表明,本文的算法明显要好远传统的一些方法。。

2.题目:Measurement and Analysis of Online Social Networks


作者:Alan Mislove, Massimiliano Marcon, Krishna P. Gummadi, Peter Druschel and Bobby Bhattacharjee

期刊:IMC’07, October 24‐26, 2007, San Diego, California, USA.


本文研究了四个社会网络Orkut, Youtube, Flickr和LiveJournal,这四个网络都同时包含了用户和用户的朋友关系网络,以及用户加入小组网络,前者一般为friendship,后者一般为membership。本文的研究证实了之前的幂律,小世界以及scale-free等性质。另外本文的研究也证实了这几个网络都具有同配性,即那些度大的节点倾向于链接度大的节点。这篇文章有一些结论值得我们借鉴用于推荐系统。

3.题目:Large‐Scale Matrix Factorization with Distributed Stochastic Gradient Descent


作者:Rainer Gemulla, Peter J. Haas, Erik Nijkamp and Yannis Sismanis

期刊:KDD 2011 August 21‐24, 2011, San Diego, CA.


最近几年,基于矩阵分解算法被广泛应用于推荐系统,该算法除了效率高以外,准确率也要比传统的协同过滤算法好许多。基于矩阵分解算法类似于SVD算法,由于用户和商品的评分数据往往都非常稀疏,基本的SVD算法很难将其分解,一种可行的办法就是利用矩阵的非零项进行分解。一般最小化Frobenius分别得到用户和商品的特征向量。目前有两种办法:一种是alternating-least-squares,另一种是Stochastic Gradient Descent,前者由于在训练的过程中分别固定某个特征向量,因此分布式比较好处理,但是后者由于算法本身的特性,不容易分布式。为了解决这个问题,本文提出了一种新的分布式Stochastic Gradient Descent 矩阵分解算法。实验结果表明,本文的算法效率和准确率都要好于alternating-least-squares 算法。

4. 题目:Predictive Client ‐side Profiles for Personalized Advertising


作者:Mikhail Bilenko and Matthew Richardson

期刊:KDD’11, August 21–24, 2011, San Diego, California, USA.


本文从客户端的角度,向用户提供个性化的广告推广。本文利用cookie 等技术收集用户的信息,例如用户输入的关键字,浏览过的网页等,从而预测用户以后可能发生的行为,并且向用户提供相应的广告。本文的实验结果表明,向通过提供个性化的广告植入能够帮助提高收入。

5. 题目:Social networks spread rumors in sublogarithmic time

谣言在社交网络中呈sublogarithmic 传播

作者:Benjamin Doerr, Mahmoud Fouz, Tobias Friedrich

期刊:STOC’11 (2011) San Jose, California USA.

下载:https://www.mpi ‐inf.mpg.de/~tfried/paper/2011STOC.pdf

社交网络的流行使得谣言传播的速度剧增。在有关的研究中,经典的PUSH 模型、PULL 模型和PUSH-PULL 模型得出的在PA 模型网络中,谣言传播所需的时间复杂度都是在对数量级,即,本文在这个策略上做了个小小的修改,引入了记忆效应,从而把复杂度降低到了量级,相当于是图的直径。模型修改如下,在谣言传播时,每个点都具有记忆效应(记忆之前传过的路径,容量为M ,取值为0,1,2,3…),而没有选择过的路径则等概率选取。当M 从0变为1,复杂度会急剧下降,但再增大则下降结果不明显了。本文结果可以在一定程度上解释社交网络中“谣言传播速度之快”的问题。

(log )n Θ(log /log log )n Θn 姊妹篇《Why rumors spread so quickly in social networks 》Communications of the ACM 55 (2012) 70。

6. 题目:Controlling edge dynamics in complex networks


作者:Tamas Nepusz, Tamas Vicsek

期刊:Nature Physics (2012).


复杂系统中个体之间的相互作用很自然地上升为复杂系统中的结构特征问题。之前对于此问题的研究已有很多,但是很少有对于网络动力学可控性的研究。基于网络中的连边,本文引入了一个动力学过程,并且证明这个动力学过程的可控性与简单的节点动力学非常不同。实证表明,真实的网络系统比他们的随机化网络更具有可控性;transcriptional regulatory 网络更加容易控制;无标度网络比不相关网络(uncorrelated networks )具有更好的可控性。

7. 题目:On the evolution of user interaction in Facebook

Facebook 中用户的行为演化

作者:Bimal Viswanath, Alan Mislove, Meeyoung Cha, Krishna P . Gummadi

期刊:WOSN’09, 2009, Barcelona Spain.


本文抓取了New Orleans区域的Facebook用户的数据,数据的抓取工作分为两个分开的时期。首先在2008年12月29日到2009年1月3日期间仅抓取了用户的关系数据,策略为广度优先搜索,共有90269个用户和3646662条关注关系。然后在2009年1月20日到22日抓取了Fabebook wall的数据,包含838092条信息,包含了每一条信息的时间。这些信息涉及到60290个用户,这些用户通过1545686条边连在一起。本文仅考虑后面的这个子集。统计的结果如下:






3.根据wall post的时间信息,生成了网络的9个快照:每到下一个快照都仅有平均



8.题目:Echoes of power: Language effects and power differences in social interaction


作者:Cristian Danescu‐Niculescu‐Mizil, Lillian Lee, Bo Pang, Jon Kleinberg




9.题目:Discovering value from community activity on focused question answering sites: a case

study of stack overflow

从问题回答网站中的社区活动中发现价值:stack overflow研究案例

作者:A. Anderson, D. Huttenlocher, J. Kleinberg, J. Leskovec

期刊:Proceedings of the 18th ACM international conference on knowledge discovery and data mining 2012 (to be published).


现在有很多问答网站,国外有Quora和Stack Overflow,国内有Baidu知道、知乎等等。


这篇文章使用Stack Overflow数据研究了问答网站的社区活动,并从中抓取特征来解决两个问题:预测一个问题是不是一个具有长期价值;识别没有被满意回答的问题。结果是都获得了比较高的准确性。从而说明了问答网站中社区活动的意义。

10.题目:Using community information to improve the precision of link prediction methods


作者:S. Soundarajan and J. Hopcroft

期刊:Proceedings of the 21th ACM international conference on World Wide Web 2012, p.605



这份工作从考虑了两方面社区信息:node community和link community。并且试验了两种相似性指标CN和RA。定义CN1为CN加上与待测边的两个端点在同一个社区的共同邻居数量,CNEdge1为CN加上与公共端点是某一个共同邻居且与待测边同在一个link community的共同邻居数量。一次类推RA。发现耦合两种信息的方法叫原来的方法再准确度上均有所提升。

11.题目:Social influence analysis in large‐scale networks


作者:J. Tang, J. Sun, C. Wang and Z. Yang

期刊:Proceedings of 15th ACM international conference on Knowledge Discovery and Data mining 2009, p.807




这篇文章建立TAP模型(Topical Affinity Propagation),分析了社交网络中的传播过程,并解决了两个问题:如何从一个给定的主题中识别代表性节点,如何识别出某节点的邻居节点对他的影响。这篇文章还使用了Map-reduce模型对TAP模型进行了并行化处理,以便可以处理超大规模的社交网络。



题目:Measurement and Analysis of Online Social Networks


作者:Alan Mislove, Massimiliano Marcon, Krishna P. Gummadi, Peter Druschel and Bobby Bhattacharjee

期刊:IMC’07, October 24-26, 2007, San Diego, California, USA


本文研究了四个社会网络Orkut, Youtube, Flickr和LiveJournal,这四个网络都同时包含了用户和用户的朋友关系网络,以及用户加入小组网络,前者一般为friendship,后者一般为membership。本文的研究证实了之前的幂律,小世界以及scale-free等性质。另外本文的研究也证实了这几个网络都具有同配性,即那些度大的节点倾向于链接度大的节点。这篇文章有一些结论值得我们借鉴用于推荐系统。



本文的数据是从网站上爬取下来的,所以并没有包含所有的网络数据,但是包含了网络的最大结构(connected component)。




下图给出了top x%节点出度和入度重叠的比例。例如在出度和入度top 1%的节点中,至少有65%是重叠的,换句话说,入度大的节点一般来说,出度也比较大。






题目:Finding Statistically Significant Communities in Networks


作者:Andrea lancichinetti, Filippo Radicchi, Jose J. Ramasco, Santo Fortunato

期刊:PLoS ONE 6 (2011) e18961.


https://www.sodocs.net/doc/4d13860926.html,/article/fetchObjectAttachment.action?uri=info%3Adoi%2F10.1371%2 Fjournal.pone.0018961&representation=PDF

社区是网络的重要特性之一,然而之前的大部分工作都仅仅考虑社区的单一特性,如聚类、重叠,然而社区还具有“层次性”,而且会出现“假社区”(即,即便是在同度分布的随机化网络中,对应的节点群仍然呈现社区性质)。本文提出的OSLOM(Order Statistics Local Optimization Method)模型,不仅能处理无向网络,还能解决有向、含权网络中的社区划分问题,能同时考虑到社区的可重叠性、层次性以及社区的动力学特性。本方法既可以单独使用,也可以和其他一些社区划分算法结合使用,并且具有较好的效果,更能用于大规模的网络。


首先引入聚类的统计特性(Statistical significance of clusters)。它被定义为“此聚类在随机化的网络中出现的可能性”(假设在随机化的网络中不存在社区结构)。假设从图G开始,节点集合为N和边的集合为E。在G中给定一子图C,一节点i(不在C内),那么剩下的子图可表示为G\[C∪{i}]。如下图所示:

记m C 为子图C 的度,k i 为节点i 的度,如上图m C 加上in 和out 分别表示子图C 的内部的度和外部的连边数,k i 加上in 和out 则分别表示是否指向子图C 。定义子图G \[C ∪{i }]中节点的度数之和为M ,于是M 与子图G \[C ∪{i }]内部度数M *的关系表示如上图所示。

假设C 是随机化网络中的子图,并且子图C 的内部度数固定,如果网络中所有其他边都是随机连接,那么节点i 有个属于C 的邻居的概率为:


i k in i out in out in i i C i p k i C G A k k m k M ?=?!

1 其中A 是归一化因子,与无关,用来保证 in i k *:0(|,,)in i in i k M p k i C G ≥=∑

有了这个概率,就可以据此来对所有子图C 以外的节点i 排序。定义下面累积分布

()(|,,i in i k

in i j k r k p j i C G ==)∑ 表示节点i 与子图C 的共同边的数目大于的概率(详细的表达及推导请见[Lancichinetti A, et. al., Phys. Rev. E 81(2010) 046110])。因为节点的度是离散的量,累积分布会有明显的阶梯状,本文为每个节点i 赋予了一个值r ——r i 在[(in i k ),(1)]in in i i r k r k +中随机选取一个数,这个随机数的选取可以通过蒙特卡洛技术实现。

这个变量r 承载了节点与子图C 之间关系的重要信息。拥有最小的r (记为r 1)的节点成为首要考虑的对象,它在随机化的网络中的累积分布则可写作

11()()1(1)C N n r P r r r ?Ω=<=??

其中,n C 是子图C 中的节点数目。

一般来讲,用r q 来表示排在第q 位节点的变量r 的值(升序排列)


()()(1)C C N n C N n i i q q i q N n r P r x x x i ???=???Ω=<=??????

∑ 这里采用有序的统计策略是由于“本文假设聚类的方法更倾向于将与社区联系更多的点包含进社区”。不同的表示在社区外的点在多大程度上与随机化网络的期望值相当。为了评估整个社区,在子图C 所有邻居范围内定义了q Ωmin {()}m q q q c r =Ω,其中r q 表示那些邻居节点对应的r 值。c m 的分布依赖于N -n C ,所以累积分布可进一步写为

()(,m C P c x x N n )φ<=?

后文中,将(,)C x N n φ?记为聚类(子图)C 的分值。

接下来,讲述了对于单个聚类(子图)C 的分析。这个部分主要由两步组成:第一步是计算并按条件将子图C 的外邻居节点加入到子图中;第二步是将C 中不满足条件的点移除。这两步合称为“清洗过程”。

第一步:对于C 外的每一个邻居节点i ,计算其对应的r 值,然后找出r 1对应的,并设定阈值P ,如果1()r Ω1((),)C r N n P φΩ?<,就将对应节点加入子图C ;如果1((),)C r N n P φΩ?>,就需要计算第二“最好”的点、第三“最好”的点,以此类推,如果到第q th 个“最好”的点满足了条件,那么就将所有前q 个最好的点加入到子图C 中,此时不再往后计算第q +1个点了;如果没有一个点满足条件,那么就没有新点加入到C ,此时跳过第二步。记更新后的C 为C’。

第二步:对于C’中的每一个点i ,计算其相对于子图C’\{i }的r i ,然后选择最差的点w (即具有最大的r )。然后在子图为C’\{i }的条件下重复第一步,判断节点w 的去留。如果节点w 留下,则结束对此子图的分析;否则,将w 从C’中去除,然后继续寻找C’\{w }中最差的点,重复步骤2。最后得到C *,其中最差的点都被判断为保留。


上一部分讲述了单个子图C 的分析过程,本部分是将这一过程扩展到整个网络中。首先是随机找一个点i ,于是第一个子图就是C ={i },然后将q 个邻居节点加入到C (q 的取值任意,本文采用3,同幂率分布指数),然后再利用上一步骤中的“单个子图的分析”。

将整个过程在几个不同的初始节点上重复进行(为了减小蒙特卡洛方法带来的误差,也需要多做几次实验),这样一来就会得到一些有重复的社区,当算法探测出的社区比较相似时,算法结束。理想状态下,在不同的初始点下也期望得出完全相同的社区划分,然而实际上几乎不可能。判断两个社区相似的方法可以是|C 1∪C 2|/min(|C 1|,| C 2|)>0.5。


假设C 1和C 2相似,那么是该保留它们还是该保留它们的合集呢?将C 1和C 2在G 3内

做清洗(其中是G 3是C 3的子集)

。如果| C’1∪C’2|>P 2| C 3|,其中P 2设置为0.7,则排除C 3,否则排除C 1和C 2。如果超过两个社区相似,那么方法也是类似。





为了加速计算,本方法可以从一个“给定划分”的结果出发进行优化,这也是与其他划分方法一起使用的切入点。使用该方法可以发现:显著的社区、没有归属的点(homeless vertices)、重叠的社区、社区的层次。



题目:Using community information to improve the precision of link prediction methods


作者:S. Soundarajan and J. Hopcroft

期刊:Proceedings of the 21th ACM international conference on World Wide Web 2012, p.605. 下载:https://www.sodocs.net/doc/4d13860926.html,/proceedings/companion/p607.pdf



这篇文章使用了几个常用数据集。Amazon 网络,共同购买同一本书的两个用户之间连接一条边。Facebook学生网络,记载了Rice大学本科生和研究生社交圈子,人类蛋白质网络,酵母菌蛋白质网络,Rovira Virgili大学的电子邮件网络,arXiv两个领域的合作网络,同义词。



这篇文章使用测试了CN、RA、Jaccard、LHN和Sorensen五种指标,由于CN和RA 的表现最好,文章中只列出了RA和CN的结果。




由于学术界对community还没有严格的数学定义,这里使用了几种生成社区的方法进行比较。对于node community,使用的社区划分方法是louvain method和infomap方法。前者的思想是最大化modularity,后者是基于随机游走对信息流建模划分数据集。经过改造的CN和RA指标记为CN1和RA1,如下所示:


community是指节点和边反转以后使用距离类方法得到的社区。经过改造后的CN link

和RA记为 CNEdge1和RAEdge1,如下所示:




题目:Structural diversity in social contagion


作者:J. Ugander, L. Backstrom, C. Marlow, and J. Kleinberg

期刊:Proceedings of National Academy of Science in United States of America 109 (20), 7591. 下载:https://www.sodocs.net/doc/4d13860926.html,/content/109/16/5962.short

研究人员往往用疾病传播模型对社交网络上的传播现象进行建模。基本假设是个体被影响的概率随着被感染邻居数目的增加而单调增大。这篇文章在Facebook上对两种传播现象进行了分析,发现个体被感染的概率随着发生联系的邻居(contact neighbor)之间形成的连通子图数目的增大而增大,其绝对数目并不是决定性因素。文章把邻居之间形成的连通子图数量认为是“结构多样性”(structural diversity),因为不同的连通子图可能代表拥有不同社交背景的人群,向个体传递不同的信息。如此,则为该发现提供了一种解释:structural diversity 大的个体认识的人的背景更多样化,多个不同群体的说服力往往比单个群体的更强。

这篇文章研究了两个传播过程,一个是个体收到某个邮件联系人的邀请信而成为Facebook的用户,(user recruitment process)另一个是注册成功的Facebook用户真正开始使用Facebook(use engagement process)。

User recruitment

这篇文章使用相对转化率(relative conversion rate)代表个体被说服注册facebook的可能性大小。首先观测了邻居的数目和邻居连通子图对相对转化率的影响。文章详细列出了2、3、4个邻居的用户的相对转化率的情况。从下面的图中可以看出,固定邻居数量,在连通子图的数目相同时,不同连接情况下的转化率相差不大,但是当连通子图数目增大时,转化率会有相当大的提升。文章将连通子图的数目成为structural diversity。见下图,



为了进一步说明structural diversity的影响,文章着重讨论了两个邻居的情况。Facebook 上没有好友关系的两个用户在现实生活中也许是好友,这种真实好友的身份可以从Facebook 照片共圈的关系挖掘。作者发现,如果两个邻居没有连边(structural diversity为2),但是曾经共同出现在同一张照片上过,则转化率会降到比有连边的情况(structural diversity为1)更低。如下图所示。

User Engagement

依旧使用转化率对engagement进行衡量。首先作者发现了与recruitment类似的现象,个体被影响的可能性主要受邻居连通子图数目的影响。详见下图。此外作者还观测了再structural diversity相同情况下,发出邀请者的地位(用度衡量)对转化率的影响,发现有如下倾向:结构中成员的度差异越大,转化率越容易受度大邻居的影响。

针对该过程进行的第二项研究是当邻居数目分别为10、20、30、40、50时的个体转化率。但作者发现这几种情况下的邻居往往单独成团,所以作者改考察一下几种结构来定义structural diversity。(1)规模不少于k的连通子图数量。(2)k-core。(3)k-brace。k-brace是所有边的嵌入性(embeddedness)指标都不小于k的子图。边的嵌入性是指边的两个端点的共同邻居数目。详细结果如下图所示。我们发现如果选取足够大的k,diversity对转化率有很好的预测性。



