搜档网
当前位置:搜档网 › 基于主题特征和时间因子的改进PageRank算法

基于主题特征和时间因子的改进PageRank算法

基于主题特征和时间因子的改进PageRank算法
基于主题特征和时间因子的改进PageRank算法

8662010,31(4)计算机工程与设计Computer Engineering and Design

0引言

目前对实现网络信息挖掘的代表性算法是基于链接结构

的PageRank和HITS算法,忽略了网页的主题特征和网页存

在的时间,因此,搜索的效果不理想[1]。根据前人的研究结果,

网络上的网页具有两个主题特征:

(1)Hub特征[2],即网络上的网页具有权威性;

(2)Linkage/Sibling Locality特征[3],即网络上的网页的分布

具有相关性。本文从网页的主题特征和时间特征的角度改进

了PageRank算法。

1算法分析

1.1PageRank算法

PageRank算法源自于传统的文献引文分析法,即可以通

过计算其它文献对该文章引用的数量来衡量该文献的质量,

该文献在其它文献中被引用的次数越多,则该文献的质量就

越高;同理,互联网上某一个网页被其它的网页引用的次数越

高,那么同理认为该网页的重要性也越高。通过揭示互联网

上网页相互之间的引用关系(即链接结构),可以衡量出该网页

在互联网上的重要程度(即PageRank值)[4]。

根据这个原理,某一网页PageRank值经典的计算方法如

公式(1)所示。

+(1)

式中:A——互联网上某个待评价的网页,T

1

,T

2

,…,T

i

,…,T

n

表示互联网上A的链进网页,C(T

i

)表示A的第i个链进网页T

i

中链出网页的总数;PR(A)、PR(T

i

)分别表示网页A和它的链进

网页T

i的PageRank值,我们简称其为PR值;d为网也之间链

接的阻尼系数,通常为0.85;C

Total为网络上网页的总量。

虽然PageRank算法能够在一定程度上反映出互联网上

网页之间的链接关系,可以有效地从互联网上网页之间的

链接结构中挖掘出网页。但是,PageRank算法仍然存在3

点不足:

(1)没有考虑到不同的网页,质量的高低不同,有些网页在

查询的主题方面具有业内权威性,用户更倾向于获取权威的

网页,而传统的PageRank算法不能体现出网页的权威性;

收稿日期:2009-02-24;修订日期:2009-07-20。

作者简介:段淮川(1985-),男,江苏阜宁人,硕士,研究方向为计算机控制;胡平(1962-),男,副教授,硕士生导师,研究方向为过程控制。E-mail:aduan85@https://www.sodocs.net/doc/0b16032763.html,

基于主题特征和时间因子的改进PageRank算法

段淮川,胡平

(南京工业大学信息科学与工程学院,江苏南京210009)

摘要:经典PageRank算法单纯地考虑到对网页的链接结构进行分析,而不能考虑到网页在搜索主题方面的相关性和权威性,以及用户对新旧网页的依赖程度的不同。针对经典PageRank算法存在的上述缺陷,综合网页的主题特征和时间特征两个因素,提出了一种改进的PageRank算法WTPR(weighted topic PageRank)。该算法通过网页链接分析和内容分析来解决网页的权威程度和相关程度,通过时间因子实现PageRank值随时间的变动而浮动。仿真结果表明,改进后的算法与PageRank算法相比获得了更好的效果。

关键词:主题特征;时间因子;PageRank;相关性分析;链接

中图法分类号:TP391.3文献标识码:A文章编号:1000-7024(2010)04-0866-03

Improved PageRank algorithm based on topic character and time factor

DUAN Huai-chuan,HU Ping

(College of Information Science and Engineering,Nanjing University of Technology,Nanjing210009,China) Abstract:The famous ranking algorithm PageRank just analyzed the link structure of web pages,but did not consider the relativity and authority of web pages,as well as the different degree of people’s depending on new web pages and old Web pages.To improve the limitations described above all,the weighted topic PageRank(WTPR)algorithm is presented,combining with topic character and time character.Authority and relevance degree are met by analyzing the link structure and contents of web pages respectively;PageRank value fluctuating with time is met via time character.Experimental results show that the improved algorithm performs better than the fa-mous PageRank algorithm.

Key words:topic character;time factor;PageRank;relativity analysis;link

计算机工程与设计Computer Engineering and Design

段淮川,胡平:基于主题特征和时间因子的改进PageRank 算法

2010,31(4)867

(2)PageRank 算法单纯地考虑到对网页的链接结构进行分析,没有分析网页中的内容和用户查询的主题是否相关,以及相关程度如何。因此,常常导致抓取到的网页虽然具有较高的PageRank 值,却与主题无关或相关程度很小的现象(也就是主题漂移现象)发生;

(3)PageRank 算法在计算网页的PageRank 值时,对新旧网页都只考虑网页的链接关系,而一些新发布的网页在短期内不能被链接引用,计算出来的PageRank 值会比旧的网页小的多,导致搜索的结果往往不包含新网页,或者排序在尾部,得不到用户的关注。

1.2相关改进的算法

针对PageRank 算法的第一点缺陷,由Xing 提出的加权

PageRank (WeightedPageRank ,WPageRank )算法[5],增加了Page-Rank 值中的权威性权重,使得权威性网站更容易被搜索到,但却加剧了主题漂移现象的发生,同时引入了乘法,使得计算复杂,搜索效率降低。

针对第2个不足之处,由Ingongngam 等人提出的以主题为核心内容的PageRank (topic centric ,TCPageRank )算法[6],解决了网页内容与查询主题之间的相关性问题,忽略了不同网页的重要程度不同。对新的网页计算的PR 值往往很低,导致新网页得不到关注。

2改进PageRank 算法WTPR 算法

综合对上述算法的分析,根据主题网页的特征,从主题权

威性、主题相关性和时间性角度引入了主题预测相关度加权、权威度加权和时间因子。

在原PageRank 算法基础上提出改进PageRank 算法WTPR

算法

(2)

式中:W s 和W c 分别表示网页T i 的权威性权值和相关性权值;

,

(3)

上式中

,

=

(4

)

,

分别是基于出度和入度的权重因子,I (T i )和O

(T i )是某个网页i 的入度和出度。改进算法中对W s 的计算依据主题网页的Hub 特征,采用入度作为权威性权

值,即

=

2

(5)

式中:A ij 和T ij 为某个关键词j 在网页A 和T i 中的权值,该权值一般都采用基于关键词频率统计的TF-IDF 算法来计算,设关

键词j 在i 文档中的权值为W ji ,则sim (j ,i )=tf ji ×lg (N/df j ),其中tf ji 为关键词j 在i 文档中重复出现的次数,df j 表示包含关键词j 的文档总数,N 表示文档总数。

本文算法仍然采用向量空间模型的算法,只是针对HTML 文档的半结构化特性对TF-IDF 进行一定的改进,对于出现在之间、

等标签的关键词我们赋予比其它地方出现的词较高的权重因子,假设关键词j

的权重因子为j

sim (j ,i )。本

文的根据关键词所在位置设定5种情况:①和</TIT-LE>之间,j</p><p>=1.6;③<A href>标签</p><p>内,</p><p>j</p><p>=1.5;⑤其它,</p><!--/p2--><!--p3--><p>8682010,31(4)计算机工程与设计Computer Engineering and Design</p><p>域建立索引存储在MySQL 数据库中。</p><p>(3)分别采用PageRank 算法和本文改进算法计算PR 值,对网页建立索引,并按PR 值排序保存进MySQL 数据库。针对不同的查询,找到对应的Lucene 索引文件,从MySQL 数据库按PR 值降序读出网页。</p><p>(4)对网页的PR 值评价分析,对用户来说,越是最新的、内容越是相关的,且越具有权威的网页越容易令用户满意,也就越靠前;反之,则越靠后。</p><p>为了验证时间因子对网页PR 值的影响,实验先从采集到的网页集M 中抽取出一子网页集N (</p><p>=</p><p>+1,其中n</p><p>为网页总的个数,本测试选取n 等于前20张网页,i 为n 个网页中的第i 个网页,s i 为满意系数。</p><p>满意系数根据用户的主观评价来确定,主题特征越明显且时间越近,越满意。满意系数分为4个不同的等级,这4个等级分别为:</p><p>(1)非常满意,网页正文中含有关于查询主题极其重要的信息,而且是最近的;</p><p>(2)满意,网页正文中含有与查询主题相关的信息;</p><p>(3)稍微满意,虽然网页内容是最相关的,但网页正文中只含有少量的查询信息;(4)不满意,仅仅在网页的不重要的地方含有查询主题词,网页发布的时间不管是什么时候的。</p><p>实验过程中我们设置4个等级对应的s i 值为1.0、0.6、0.1和0.0。组织一个5人的测试小组,根据上述规则对网页的满意系数评估,少数服从多数,确定满意系数,最后对不同的排序结果计算满意度值。按体操、游泳、射击、乒乓球、羽毛球的顺序,WTPR 算法的S 值分别为:129.6、124.6、135.2、142.1、136.1;PageRank 算法的S 值分别为:87.7、98.6、85.7、103.5、91。比较结果如图1所示。</p><p>由图1可以看出,WTPR 算法的满意度值明显高于Page-Rank 算法的满意度值。而在实验过程中也发现,后加入的网页集N 中的网页往往排在靠前的位置,实验效果部分截图如图2所示。</p><p>从图2中可以看到,T 值小的链接排序比较靠前,即越是后加入的新网页,其PR 值相对较高,比较符合预期的目标。</p><p>4结束语</p><p>本文结合主题特征和时间因子两方面分析的结果,提出</p><p>一种改进PageRank 的WTPR 算法,从网页相互链接的角度和</p><p>网页内容相关的角度来解决主题网页的相关性和权威性,使质量高的网页排序靠前,质量低的网页排序下沉;通过时间因子的作用调整新旧网页的链接排序,使得与搜索主题相关,比较权威且最新的网页排序靠前。实验仿真的结果表明,改进的算法在主题特征和新旧网页的链接排序方面要比传统的PageRank 算法更好。</p><p>参考文献:</p><p>[1]原福永,张园园.基于链接分析的相关排序方法的研究和改进[J ].计算机工程与设计,2007,07(28):1630-1662.</p><p>[2]Jon M Kleinberg.Authoritative sources in a hyperlinked environ-ment [J ].Journal of the ACM,1999,46(5):604-632.</p><p>[3]</p><p>Aggarwal C,Al-Garawi F,Yu P .Intelligent crawling on the world wide web with arbitrary predicates [C ].Proceedings of the 10th International Conference on World Wide World.NewYork,USA:ACM Press,2001:96-105.[4]</p><p>Arasu A,Novak J,Tomkins A,et al.PageRank computation and the structure of the web:Experiments and algorithms [C ].Pro-ceedings of the 11th International WWW Conference.NewYork,USA:ACM Press,2002.[5]</p><p>Xing Wenpu,Ghorbani A.Weighted PageRank algorithm [C ].Communication Networks and Services Research,Proceedings of Second Annual Conference,2004:305-314.[6]</p><p>胡亮,许永诚,高文,等.一个高效的层次型搜索引擎模型及应用[J ].计算机工程与设计,2005,26(8):2000-2002.</p><p>[7]</p><p>耿玉良,陈家琪,王咏梅.中文Web 检索中聚类算法的改进[J ].计算机工程与设计,2005,26(10):2685-2687.[8]</p><p>印鉴,陈忆群,张刚.搜索引擎技术研究与发展[J ].计算机工程,2005,31(14):54-56.</p><p>图1页面排序满意度对比</p><p>分类项目关键词</p><p>体操游泳射击乒乓球羽毛球</p><p>满意度</p><p>150100500</p><p>WTPR 算法;</p><p>PageRank</p><p>算法</p><p>图2实验效果</p><!--/p3--><!--rset--><h2>比较PageRank算法和HITS算法的优缺点</h2><p>题目:请比较PageRank算法和HITS算法的优缺点,除此之外,请再介绍2种用于搜索引擎检索结果的排序算法,并举例说明。 答: 1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法。该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性。当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高。根据这样的分析,得到了高评价的重要页面会被给予较高的PageRank值,在检索结果内的名次也会提高。PageRank是基于对“使用复杂的算法而得到的链接构造”的分析,从而得出的各网页本身的特性。 HITS 算法是由康奈尔大学( Cornell University ) 的JonKleinberg 博士于1998 年首先提出。Kleinberg认为既然搜索是开始于用户的检索提问,那么每个页面的重要性也就依赖于用户的检索提问。他将用户检索提问分为如下三种:特指主题检索提问(specific queries,也称窄主题检索提问)、泛指主题检索提问(Broad-topic queries,也称宽主题检索提问)和相似网页检索提问(Similar-page queries)。HITS 算法专注于改善泛指主题检索的结果。 Kleinberg将网页(或网站)分为两类,即hubs和authorities,而且每个页面也有两个级别,即hubs(中心级别)和authorities(权威级别)。Authorities 是具有较高价值的网页,依赖于指向它的页面;hubs为指向较多authorities的网页,依赖于它指向的页面。HITS算法的目标就是通过迭代计算得到针对某个检索提问的排名最高的authority的网页。 通常HITS算法是作用在一定范围的,例如一个以程序开发为主题的网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量authority 和hub值进行更新直至收敛。 从上面的分析可见,PageRank算法和HITS算法都是基于链接分析的搜索引擎排序算法,并且在算法中两者都利用了特征向量作为理论基础和收敛性依据。</p><h2>大数据pagerank算法设计</h2><p>算法设计: 假设一个有集合:A,B,C和D 是由4个网页组成的。在同一个页面之中,多个指向相同的链接,把它们看作是同一个链接,并且每个页面初始的PageRank值相同。因为要满足概率值位于0到1之间的需求,我们假设这个值是0.25。 在每一次的迭代中,给定页面的PR值(PageRank值)会被平均分配到此页面所链接到的页面上。 倘若全部页面仅链接到A,这样的话A的PR值就是B,C和D的PR值之和,即:PR(A)=PR(B)+PR(C)+PR(D){\displaystyle PR(A)=PR(B)+PR(C)+PR(D)} 再次假设C链接到了A,B链接到了A和C,D链接到了A,B,C。最开始的时候一个页面仅仅只会有一票。正因为这样,所以的话B将会给A ,C这两个页面每一个页面半票。按照这样来类比推算,D所投出去的票将只会有三分之一的票会被添加到属于A 的PR值上: {\displaystyle PR(A)={\frac {PR(B)}{2}}+{\frac {PR(C)}{1}}+{\frac {PR(D)}{3}}} 换个方式表达的话,算法将会依据每一个页面链接出来的总数 {\displaystyle L(x)}平均的分配每一个页面的PR值,然后把它添加至它指向的页面:</p><p>最后,这些全部的PR值将会被变换计算成为百分比的形式然后会再乘上一个修正系数。因为“没有向外链接的网页”它传递出去的PR值将会是0,而且这将递归地差生影响从而使得指向它的页面的PR值的计算出来得到的结果同样是零,因此每一个页面要有预先设置好了的一个最小值: 需要注意的是,在Sergey Brin和Lawrence Page的1998年原版论文中给每一个页面设定的最小值是1-d,而不是这里的(1-d)/N,这将导致集合中所有网页的PR值之和为N(N为集合中网页的数目)而并不是所期待的1。 所以,一个页面的PR值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的PR值,经过重复计算,这些页面的PR值将会逐渐接近于某一个固定 定值,也就是处于收敛的状态,即最终结果。这就是搜索引擎使用该算法的原因。【测试环境】 【测试数据】</p><h2>Pagerank算法与网页排序方法的建模</h2><p>Pagerank 算法与网页排序方法的建模 摘要 随着互联网的飞速发展,各种杂乱无章的信息充斥其中,如何对数以亿记的相关网页进行排序成为搜索引擎的核心问题。针对这个现象本文根据题目要求建立了两个模型: 模型一:结合Google 的Pagerank 算法,建立了网上冲浪模型,得到Pagerank 算法定义: n i i 1 i P R(T )P R(A )(1d )d C (T ) ==-+∑ 用迭代算法通过MATLAB 编程计算出网页的PR 值; 模型二:由于传统PR 值算法仅考虑网页的外链和内链数量,偏重于旧网页;另外,传统算法不能区分网页中的链接与网页的主题是否相关,容易产生主题漂移现象;考虑其算法存在的缺陷,在此基础上为给出对搜索网页进行排序的方法,着重考虑搜索出的网页以下几个方面:外链,内链,时间反馈因子和相关度,对PR 值进行改进,得到以下公式: Wt V VT sim VT V sim T PR d d p PR k i m j j i i P i +?+-=∑ ∑==1 1 , ,) () ()()1()( 以PR 值的高低来对搜索网页进行排序; 对于如何使新网站在搜索引擎中排名靠前,从影响网页的PR 值的因素:內链、外链、时间反馈因子和相关度出发对提高网页的PR 值以使其在搜索引擎中排名靠前给出了稳健的建议。 关键词 Pagerank 迭代算法 MATLAB 时间反馈因子 相关度 一、问题重述 随着互联网的发展,面对众多杂乱无章的信息,如何对数以亿计的相关网页进行排序成为搜索引擎算法的核心问题。一个搜索引擎的算法,要考虑很多的方面。主要是“域</p><p>名、密度、内链、外链、相关度、服务器稳定、内容更新、域名时间、内容数量”这些方面。不同的搜索引擎侧重点也不同,比如Google,它对收录的网站有一个重要性排名的指数,被称为Pagerank,作为对搜索网页排序的重要参数。 根据搜索引擎与Pagerank,考虑如下问题: 1.考察Google的Pagerank算法,建立数学模型,给出合理的Pagerank的计算方法; 2.如果你是搜索引擎的建设者,请考虑你会侧重考虑搜索网页的那些方面,给出你对搜索网页进行排序的方法; 3.如果你是某新网站的建设者,请考虑使你的网站在第2题中你建立的搜索引擎中排名靠前的方法。 二、问题分析 互联网的迅速发展,使现有的搜索引擎面临着巨大的挑战,面对众多杂乱无章的信息,如何对数以亿计的相关网页进行排序成为搜索引擎算法的核心问题,因此,搜索引擎排序算法也就称为众多搜索引擎关注的关键问题之一。 对于问题1,根据题目要求,结合Google的Pagerank算法,PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接,由此建立了网上冲浪模型,用迭代算法计算出网页的PR值。 对于问题2,经过对Google的Pagerank算法的分析,发现该算法仅考虑了搜索出的网页的外链和内链的数量,以此来确定网页的PR值偏重于旧网页,即越旧的网页排名越靠前;对一个刚放到网上不久的新网页,指向它的网页就很少,通过计算后的PR 值就很低,在搜索结果中也就被排在了靠后的位置。然而在有些时候,比如新闻类网页和商务性信息,用户当然是希望先看到新的网页,因此我们在计算PR值时考虑加入时间反馈因子,使得在网络上存在时间比较长的网页被沉下去,在搜索结果中被排在靠后的位置;存在时间短的网页就会浮上来,在搜索结果中被排在较靠前的位置,方便用户查看。时间反馈因子利用搜索引擎的搜索周期来表征,即如果一个网页存在时间较长,它将在每个搜索周期中都能被搜到,对网页采取在同一个周期里不管搜到该网页几次,都算一次处理的方法,网页的存在时间正比于搜索引擎搜到该网页的次数,时间反馈因子与网页的存在时间成反比关系。 另外,Google的Pagerank算法是基于网页链接结构进行分析的算法,不能区分网页中的链接与网页的主题是否相关,这样就容易出现搜索引擎排序结果中大量与查询主题无关的网页的现象,即产生主题漂移现象。为解决这个问题,引入主题相关度这个概念。主题相关度就是搜索出的网页与其链入和链出网页的相似度,可用余弦相似度来度量计算。 在加入了时间反馈因子和相关性因素后,改进网页的PR值的算法,以PR值高低的来对搜索的网页进行排序。 对于问题三,主要通过模型二的结果,加强有力的因素,避免不利的方面 三、模型假设与符号说明</p><h2>pagerank算法实验报告</h2><p>PageRank算法实验报告 一、算法介绍 PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。 PageRank的核心思想有2点: 1.如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是pagerank值会相对较高; 2.如果一个pagerank值很高的网页链接到一个其他的网页,那么被链接到的网页的pagerank值会相应地因此而提高。 若页面表示有向图的顶点,有向边表示链接,w(i,j)=1表示页面i存在指向页面j的超链接,否则w(i,j)=0。如果页面A存在指向其他页面的超链接,就将A 的PageRank的份额平均地分给其所指向的所有页面,一次类推。虽然PageRank 会一直传递,但总的来说PageRank的计算是收敛的。 实际应用中可以采用幂法来计算PageRank,假如总共有m个页面,计算如公式所示: r=A*x 其中A=d*P+(1-d)*(e*e'/m) r表示当前迭代后的PageRank,它是一个m行的列向量,x是所有页面的PageRank初始值。 P由有向图的邻接矩阵变化而来,P'为邻接矩阵的每个元素除以每行元素之和得到。 e是m行的元素都为1的列向量。 二、算法代码实现</p><p>三、心得体会 在完成算法的过程中,我有以下几点体会: 1、在动手实现的过程中,先将算法的思想和思路理解清楚,对于后续动手实现 有很大帮助。 2、在实现之前,对于每步要做什么要有概念,然后对于不会实现的部分代码先 查找相应的用法,在进行整体编写。 3、在实现算法后,在寻找数据验证算法的过程中比较困难。作为初学者,对于 数据量大的数据的处理存在难度,但数据量的数据很难寻找,所以难以进行实例分析。</p><h2>PageRank算法的核心思想</h2><p>如何理解网页和网页之间的关系,特别是怎么从这些关系中提取网页中除文字以外的其他特性。这部分的一些核心算法曾是提高搜索引擎质量的重要推进力量。另外,我们这周要分享的算法也适用于其他能够把信息用结点与结点关系来表达的信息网络。 今天,我们先看一看用图来表达网页与网页之间的关系,并且计算网页重要性的经典算法:PageRank。 PageRank 的简要历史 时至今日,谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)作为Google 这一雄厚科技帝国的创始人,已经耳熟能详。但在1995 年,他们两人还都是在斯坦福大学计算机系苦读的博士生。那个年代,互联网方兴未艾。雅虎作为信息时代的第一代巨人诞生了,布林和佩奇都希望能够创立属于自己的搜索引擎。1998 年夏天,两个人都暂时离开斯坦福大学的博士生项目,转而全职投入到Google 的研发工作中。他们把整个项目的一个总结发表在了1998 年的万维网国际会议上(WWW7,the seventh international conference on World Wide Web)(见参考文献[1])。这是PageRank 算法的第一次完整表述。 PageRank 一经提出就在学术界引起了很大反响,各类变形以及对PageRank 的各种解释和分析层出不穷。在这之后很长的一段时间里,PageRank 几乎成了网页链接分析的代名词。给你推荐一篇参考文献[2],作为进一步深入了解的阅读资料。</p><p>PageRank 的基本原理 我在这里先介绍一下PageRank 的最基本形式,这也是布林和佩奇最早发表PageRank 时的思路。 首先,我们来看一下每一个网页的周边结构。每一个网页都有一个“输出链接”(Outlink)的集合。这里,输出链接指的是从当前网页出发所指向的其他页面。比如,从页面A 有一个链接到页面B。那么B 就是A 的输出链接。根据这个定义,可以同样定义“输入链接”(Inlink),指的就是指向当前页面的其他页面。比如,页面C 指向页面A,那么C 就是A 的输入链接。 有了输入链接和输出链接的概念后,下面我们来定义一个页面的PageRank。我们假定每一个页面都有一个值,叫作PageRank,来衡量这个页面的重要程度。这个值是这么定义的,当前页面I 的PageRank 值,是I 的所有输入链接PageRank 值的加权和。 那么,权重是多少呢?对于I 的某一个输入链接J,假设其有N 个输出链接,那么这个权重就是N 分之一。也就是说,J 把自己的PageRank 的N 分之一分给I。从这个意义上来看,I 的PageRank,就是其所有输入链接把他们自身的PageRank 按照他们各自输出链接的比例分配给I。谁的输出链接多,谁分配的就少一些;反之,谁的输出链接少,谁分配的就多一些。这是一个非常形象直观的定义。</p> <div> <div>相关主题</div> <div class="relatedtopic"> <div id="tabs-section" class="tabs"> <ul class="tab-head"> <li id="6154638"><a href="/topic/6154638/" target="_blank">pagerank算法</a></li> <li id="6454669"><a href="/topic/6454669/" target="_blank">pagerank算法讲解</a></li> <li id="14301202"><a href="/topic/14301202/" target="_blank">pagerank算法介绍</a></li> </ul> </div> </div> </div> </div> <div class="category"> <h2 class="navname">相关文档</h2> <ul class="lista"> <li><a href="/doc/30885726.html" target="_blank">PageRank算法</a></li> <li><a href="/doc/6415240933.html" target="_blank">大数据经典算法PageRank 讲解</a></li> <li><a href="/doc/cc19024795.html" target="_blank">PageRank算法的原理简介</a></li> <li><a href="/doc/0617173412.html" target="_blank">pagerank 算法</a></li> <li><a href="/doc/527869000.html" target="_blank">比较PageRank算法和HITS算法的优缺点</a></li> <li><a href="/doc/ae5200265.html" target="_blank">PageRank算法</a></li> <li><a href="/doc/2515166634.html" target="_blank">pagerank算法讲解</a></li> <li><a href="/doc/6614746387.html" target="_blank">pagerank算法介绍</a></li> <li><a href="/doc/b713307791.html" target="_blank">PageRank算法的核心思想</a></li> <li><a href="/doc/4916931477.html" target="_blank">大数据十大经典算法PageRank 讲解</a></li> <li><a href="/doc/9517139969.html" target="_blank">pagerank算法讲解</a></li> <li><a href="/doc/2f3507896.html" target="_blank">PageRank算法研究</a></li> <li><a href="/doc/5117844524.html" target="_blank">大数据pagerank算法设计</a></li> <li><a href="/doc/bf9661585.html" target="_blank">加权PageRank算法研究综述</a></li> <li><a href="/doc/3816590374.html" target="_blank">pagerank算法介绍</a></li> <li><a href="/doc/6117834554.html" target="_blank">Pagerank算法与网页排序方法的建模</a></li> <li><a href="/doc/1e1025858.html" target="_blank">PageRank算法实现</a></li> <li><a href="/doc/5f14357107.html" target="_blank">大数据——PageRank算法</a></li> <li><a href="/doc/a56602688.html" target="_blank">pagerank算法讲解</a></li> </ul> <h2 class="navname">最新文档</h2> <ul class="lista"> <li><a href="/doc/0919509601.html" target="_blank">幼儿园小班科学《小动物过冬》PPT课件教案</a></li> <li><a href="/doc/0d19509602.html" target="_blank">2021年春新青岛版(五四制)科学四年级下册 20.《露和霜》教学课件</a></li> <li><a href="/doc/9419184372.html" target="_blank">自然教育课件</a></li> <li><a href="/doc/3c19258759.html" target="_blank">小学语文优质课火烧云教材分析及课件</a></li> <li><a href="/doc/d619211938.html" target="_blank">(超详)高中语文知识点归纳汇总</a></li> <li><a href="/doc/a219240639.html" target="_blank">高中语文基础知识点总结(5篇)</a></li> <li><a href="/doc/9e19184371.html" target="_blank">高中语文基础知识点总结(最新)</a></li> <li><a href="/doc/8f19195909.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/8619195910.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/7819336998.html" target="_blank">高中语文基础知识点总结大全</a></li> <li><a href="/doc/7b19336999.html" target="_blank">超详细的高中语文知识点归纳</a></li> <li><a href="/doc/6a19035160.html" target="_blank">高考语文知识点总结高中</a></li> <li><a href="/doc/6719035161.html" target="_blank">高中语文知识点总结归纳</a></li> <li><a href="/doc/4b19232289.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/3d19258758.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/2919396978.html" target="_blank">高中语文知识点归纳(大全)</a></li> <li><a href="/doc/2819396979.html" target="_blank">高中语文知识点总结归纳(汇总8篇)</a></li> <li><a href="/doc/1219338136.html" target="_blank">高中语文基础知识点整理</a></li> <li><a href="/doc/e819066069.html" target="_blank">化工厂应急预案</a></li> <li><a href="/doc/b819159069.html" target="_blank">化工消防应急预案(精选8篇)</a></li> </ul> </div> </div> <script> var sdocid = "0d30ec2b915f804d2b16c1f3"; </script> <div class="footer"> <p>© 2013-2022 www.sodocs.net  <a href="/sitemap.html">站点地图</a> | <a href="/tousu.html" target="_blank">侵权投诉</a></p> <p><a href="https://beian.miit.gov.cn/">闽ICP备11023808号-8</a>  本站资源均为网友上传分享,本站仅负责收集和整理,有任何问题请在对应网页下方投诉通道反馈<script type="text/javascript">tj();</script></p> </div> </div> </body> </html>