搜档网
当前位置:搜档网 › 搜索引擎去重算法的研究与实现

搜索引擎去重算法的研究与实现

搜索引擎去重算法的研究与实现
搜索引擎去重算法的研究与实现

搜索引擎去重算法的研究与实现

一.什么是无效信息

搜索引擎作为一项网络应用,已经成为人们查询信息的重要工具之一,它可以使人们从Intemet大量纷杂的信息中,找到与主题相关的信息,为人们查询信息提供了方便。但是由于中文自身的特点,目前的搜索引擎存在着很多的问题,它只解决了信息查询的问题,而从信息资源覆盖面、检索精度、信息的输出方式等许多方面来看,检索结果的查全率和查准率不是很高,将Web挖掘技术应用到搜索引擎领域,将会给用户提供一个高效、准确的Web检索工具。目前,Web用户主要是使用搜索引擎在互联网上检索信息,但目前的搜索引擎往往返回给用户成千上万个检索到的页面,且其中很大一部分是重复的或与用户检索要求不相关的内容。这些内容被认为是无效信息。

二.搜索引擎的分类

结合互联网信息的特点,搜索引擎形成了三个不同的类型:

1、全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎,国外具代表

性的有Google(http://www.google.com)、yahoo(http://search.yahoo.tom)、AllTheWeb(http://www.alltheweb.tom)等,国内著名的有百度(http://www.Baidu.com)、中搜(http://www.zhongsou.com)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。

2、目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而己。用户完全可以不用进行关键分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有yahoo(http://www.yahoo.com)Open Directory Project(DMOZ)(http://www.dmoz.tom/)、LookSmart(http://www.100ksmart.com)等。国内的搜狐(http://www.sohu.com)、新浪(http://www.sina.com)、网易(http://www.163.com)搜索也都具有这一类功能。

3、元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile(http://www.dogpile.corn)、Vivisimo(http://www.vivisimo.com)等,国内元搜索引擎中具代表性的有搜星搜索引擎(http://www.soseen.corn/),优客搜索(http://www.yok.com)。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

4、其他的像新浪(http://search.sina.corn.cn)、网易(http://search.163.com)、A9(http://www.A9.com)等搜索引擎都是调用其它全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。

三.搜索引擎的缺陷

据MORI民意调查,只有18%的用户表示总能在网上查到需要的信息,68%的用户对搜索引擎很失望,28%的用户表示还可以,4%的用户不知道。总之,搜索引擎在准、全、新、快等方面还存在着严重的缺陷和问题,需要加以完善。

目前搜索引擎存在的缺陷或者说问题,可以归纳为以下几个方面:

1、从信息的完备性来看

目前搜索引擎的数据库规模和覆盖面是极其有限的。美国科学期]:lJNature 的一篇报告中指出,最大的搜索引擎也只能覆盖现在网页资源的16%,美国NEC 研究所的SreveLawrence和C1LeeCiles两位博士研究表明,现在的搜索引擎漏掉大约84%的网页信息。在这一方面存在的主要问题是:①搜索引擎之间缺乏协作和联合。各个搜索引擎都有自己一套的分类体系、标引方法、索引方法、数据库结构和检索界面,缺乏统一的规范性的控制,因此,各搜索引擎之间的数据资源的兼容性和互操作性差,缺乏资源共享的基础。同时又由于各搜索引擎之间没有分工合作,因此,各搜索引擎的数据资源交叉重复现象严重。②缺乏大型、集成、综合性的元搜索引擎,而垂直搜索引擎发展不快,许多专业性的搜索引擎对搜索目标、服务对象、主题范围及类型等定位模糊。③许多有实力的大型的搜索引擎(女IGoogle和百度等)仍在盲目追求数据库规模,提供的信息服务都很大众化,缺乏深度以及个性化,查准率不高。④忽视对tEWeb信息资源的收集。2、从查全率和查准率来看

据权威机构统计,因特网上约有100多亿个网页,而世界上目前搜索量最大

的Google也只能搜索33亿网页,就是说再大的搜索引擎也不可能使查全率达到100%。而且据excite统计,只有不到1%的用户会看200条以后的结果,几乎100%的用户不会查看超过1000条的结果[71。就是说对于大多数用户来说,查全率是次要的,而查准率则更具有意义。在这一方面存在的主要问题是:①对于多数检索课题而言,不是输出的检索结果过载,记录数量达到成千上万条,给用户的相关性判断带来困难:就是零输出或输出量太少,造成过分的漏检。②由于网站或网页的标引类型、标引深度、索引方法等的不规范,多数搜索引擎又不支持概念检索,因而直接影响检索词的选择、匹配和检索结果的输出格式,从而影响了查准率。③由于目前各种搜索引擎是按即定的相关度对检索结果进行排序的,而各种检索引擎对相关度参数的选择、计量和算法又各异,这就难免不与用户的检索目标相冲突,因而会人为地影响到查全率和查准率。④在检索功能方面的主要缺陷是关键词检索和主题分类检索不能有机的结合起来,多数搜索引擎不提供概念检索(即主题检索),对自然语言理解力差,而检索式的构造难度大,更难提供多媒体检索。总之,这一切都影响着搜索引擎的检索效率和效果。

3、从信息的输出方式来看

据专家测评,目前主要的搜索引擎返回的相关结果其比率不足45%。据估计,当键入1个关键词后,在百度搜索的结果中总会有70%"-'80%的无用信息,有时是100%的无用【引。在这一方面存在的主要问题是:①关键词检索输出的结果相关度排序方式单一,不能根据用户需要来选择信息输出的排序方法。②主题分类检索输出的往往只是网站,而不能快速准确地提供网页信息。用户登录到相关网站后又往往找不到所需要的信息无功而返。③不论是关键词检索,还是主题分类检索,信息输出的结果显示格式简单,不能向用户提供相关的更好的途径和信息。④数据更新速度慢,更新周期长,对于网上已不存在的网页不能及时删除,因而出现死链较多,而且也不加以说明,浪费用户的宝贵时间。⑤网站、网页经常处于动态的变化之中,新的页面不断涌现,旧的页面不断消亡,如果不及时维护,那么索引库中就会存留着许多无用的信息,就会导致成千上万条没有经过筛选与排序的记录被输出。

4、从界面的友好性来看

有人估计,83%的网站含有商业广告,只有6%的网站含有科学和教育的内

容。科研人员和普通大众受到搜索引擎提供的同样的信息待遇,两者都面临着信息不对121的困惑【8】。在这一方面存在的主要问题是:①可供用户选择搜索条件和搜索结果的功能不多,多数搜索引擎没有类型、范围限定。②多数搜索引擎是面向主题检索,而不是面向用户检索,不能重复利用用户检索过的成果,更不能对特定的用户进行定题跟踪服务。③对自然语言理解有限,用户必须自己构造检索式来表达检索命题。由于各搜索引擎关键词检索所采用的符号及其含义、分类检索所建立的类目体系及使用规则各不相同,因此给用户构造检索式带来了困难。④网站简介不规范,有些太简,弄不清网站所包含信息的内容和范围,有些太繁,如雾里看花,难识庐山真面目,还有些网站简介误导用户进入它的广告世界。⑤网页的帮助系统许多等于虚设,起不到帮助的作用,有的只是常识介绍,更是缺乏透明度。总之,搜索引擎当前存在的主要问题是:①查全率低。由于数据库规模偏小,对网络信息覆盖不全,因而搜索引擎收录信息的完备性差,导致查全率低,用户检索不到理想的信息。②查准率低。由于搜索引擎对网站网页标引不规范、对自然语言理解差、对索引数据库维护不及时等因素,导致查准率低,大量无用信息或不相关信息困绕着广大用户。

四无效信息的粒度

五.除无效信息的方法及优缺点

1.关键字提取技术分析

关键词提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。

关键字提取是一项重要的文本检索技术,在Web页检索、文档聚类、文档摘要提取、文本挖掘等方面都有广泛的应用19,101。正确地提取关键字可以让我们在大量的文档中快速地选出所需要的文档。近年来,随着大量文档的电子化,关键字提取的需求也就越来越大。例如,当我们浏览一个网页而希望快速了解其内容时,就可以通过提取关键字来实现。目前,针对英文的关键词提取的研究已经取得的较多的研究成果,方法也比较成熟。但是中文不同于英文,中文词与词之间没有明显的界限,存在一个分词的问题,致使中文关键词提取相对于英文困难些,这就使得中文信息检索的效率在一定程度上被限制了。

1.1关键字提取算法

关键字提取算法可分为两类:基于训练集的关键字提取策略和不需要训练集的关键字提取策略【l51。基于训练集的方法将关键字提取视为分类问题,通过将文档中出现的词语划分到关键字类或非关键字类,再从关键字类中选择若干个词语作为关键字,该类算法由Peter.D.Tumey首次提出,其技术已日趋成熟。

不需要训练集的算法,可分为以下四类:基于统计的方法,如频率统计;基于词语图的方法,如KeyGraph;基于词语网络的方法,如中介性指标(BCBetweennessCentrality);基于SWN的方法;上述四种方法都是建立在词频统计基础上。基于统计的方法简单快速,能够提取高频词语,却忽略对文档具有重要意义但出现频率不高的词语,因此提取的关键字具有片面性。基于词语图的方法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,影响算法的稳定性和精度。基于SWN的方法是以平均距离长度为关键字提取依据,而SWN理论以连通图为基础,故对非连通的文档结构图,无法衡量顶点的重要性,也无法正确地提取文档关键字。

1.2TF*IDF方法

文本的形式化表示一直是搜索引擎、自动文摘以及文本检索等信息检索领域关注的基础性问题。空间向量模型(Space Vector Model)qb的TF木IDF文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。特征词权重用以说明该特征词在描述网页文档内容时所起的作用的重要程度【16】。特征词权重计算的目的就是要准确描述网页信息,所以权重计算的好坏直接影响网页信息描述的准确性。目前,比较成熟的方法就是使用TF*IDF来计算权重。该方法主要考虑以下三个因素:

特征词频率tf(term frequency).该特征词在此网页文档中出现的频率。

特征词倒排文档频率idf(inverse document frequency):该特征词在网页文档集合中分布情况的量化,常用的计算方法是l。g(%+0.01)。其中Ⅳ为网页文档集合中的文档数目;n七为出现过该特征词的网页文档数目。

归一化因子(normalization factor):对各个分量进行标准化。

特征词权重的优缺点。

(1)从表2.1可以看出,T4和T5分别在一个且仅在一个文档中出现,虽

然出现的文档频率不高,但仍分别在各自的文档中作为最能区别文档的特征词。

(2)Tl从表2.1显示,在文档textl和text2中出现频率都是最高的,而且

出现频率相等。因此,对于区别文档来说,T1不起任何作用,但是在两个文档中T1的权重均大于T3的权重。这样的结果暴露出TF*IDF方法的缺点。

TF*IDF方法虽然考虑特征词在文档集合中分布情况,很大程度上提高了文

档表示的准确性。然而,它并没有考虑特征词在文档中的分布比例,而且对于网页文档的特殊性,也没有考虑特征词分布的位置。

2.网页去重算法分析

随着互联网的发展,越来越多的网页出现在互联网上。随之带来的问题是网页内容的大量重复。去除重复网页不但可以减少相似的搜索结果,减轻用户的阅读负担,还可以压缩搜索引擎的索引空间,提高搜索引擎的检索效率。如何快速、准确地去除重复网页,成为搜索引擎研究领域一个亟待解决的问题。针对网络中大量数据重复的现状,当前,提出的网页查重的方法比较多,但大体分为两大类:基于分类的方法、排除相同URL方法以及基于特征码的方法。本文就目前常用的网页去重算法进行介绍,并对其效率、准确率、召回率做了细致的分析。

2.1SCAM算法

SCAM算法是由斯坦福大学提出的用于复制检测和剽窃检测的一种算法。SCAM的方法受到了信息检索技术的启示,是一种基于词频统计的方法。SCAM方法可以检测出2篇文档之间相似处所在的位置,所使用的方法就是计算出每篇文档的词频,将文档用词频向量的方法表示出来,再计算2个词频向量之间的距离,在一定的范围之内就判断为相似的文档,由于同时还保留了该词的位置信息,所以同时也可以查找出到底文章的哪个部分是相似的。具体讲就是,SCAM首先统计文档中各个单词出现的次数,然后按照信息检索中常用的倒排索引存储法(inverted index storage)存储文档与词频信息。最后,SCAM参照向量空间模型VSM(vector space model)提出了相关频率模型RFM(relative frequency model),用以度量文档相似性。向量空间模型一般采用点积或者余弦公式来度量相似性,而相关频率模型其实是对余弦公式进行了改动,试图提高文件复制检测精度。

2.2.基于特征串的网页去重算法

去除重复网页的问题与检索问题也有相似的地方。假定将所有要处理的网页信息建立好索引,作为一个检索系统,再把每一篇文章变成一个查询请求,到这个检索系统中去查询,找出所有与该网页完全相同的网页。与一般检索系统不同的是,在一般的检索系统中需要检索出所有与该网页相关的网页,而不是完全相同的网页。而我们的问题是只想检索出与该网页内容相同的网页,相关的网页不被检索出来。在一般的检索系统中,需要对关键词进行索引以便查询,而关键词可能在多篇相关的网页中出现,因此检索时会把所有相关的网页检索出来。为了只检索出完全相同的网页,我们需要对网页的特征建立索引,这个特征可以保证对于不同的网页是完全不同的,我们称这个特征为网页的特征码。把所有的特征码索引起来建立的检索系统,就能够使检索的结果是完全相同的网页。中文表示法中有各种各样的标点符号,在中文语句中将各个分句的语义分开,使人们不产生歧义。这种基于特征串的网页去重算法就是利用标点符号出现在网页文本中的特点,在文章中特定的位置提取出一些字符,将这些字符组成代表该字符串的字符串来唯一的标识网页。比较的时候就是这些字符串两两比较。可见网页特征码的确定是解决问题的关键。网页特征码必须能把完全相同的网页和不同或相似的网页区分开,一般的关键词技术是不能做到这点的。因此我们希望在网页中取一个固定长L的词串作为网页的特征码。但由于正文相同的网页中导航信息、版权信息可能不同,由于这些信息的干扰很难从网页的开始或中间的某个固定的位置来抽取特征码。通过对网页的分析发现在导航信息中较少的出现标点符号,尤其是句号几乎不会出现,另外导航信息多出现在HTML语言中的超链接标记中。哈尔滨工业大学使用的方法是在文章中每个句号的前后各取5个汉字,虽然提取汉字的方法不同,但是都是以标点符号作为文中的提取标记,这种方法效率较高,因为提取字符串是线性时间的,就把一个O(n2)时间复杂度的问题,转变成了O(n)时间复杂度的问题。

下面介绍哈尔滨工业大学提出的基于特征串的网页去重算法在提取特征码时尽量把导航信息等干扰信息去除掉,再把句号作为一个提取的位置,分别在句号两边提取L/2长的词串构成网页的一个特征码。之所以要在句号的两边分别取L/2长的词串,是因为在L/2.1和L/2处的字很难构成一个词,因此更能保证特征码的唯一性。

概括地说,去重算法分三步实现:

第一步:从每个网页中抽取特征码;

第二步:用特征码将网页逐个索引起来构成一个检索系统;

第三步:将每个网页的特征码逐个投入检索系统,将检索到的全部网页聚成

一类。

由于每一步都是线性时间复杂度,因此,算法整体的时间复杂度也是线性的。2.3.基于特征句抽取的网页去重

算法基本思想是:首先抽取特征词,然后根据该特征词第一次出现的位置确定该篇网页文档的特征句,再将整篇文本的最长公共子序列的比较转换为两个句子的最长公共子序列的比较。为了抽取出每个网页文本的特征词,此方法考虑每个词语的词频信息(Frequency)、位置信.皂,(Location)、是否在标题中出现(Title)以及其他一些特殊的标识性信息。此方法综合考虑了上述的四个选项,并分别赋予不同的比例,计算得到特征词的权值。经实验测得,四个特征项按1:1:1:1的比例分配比较合适。

算法描述如下:

Stepl:读网页文本,预处理;

Step2:计算每个词的权值;

Step3:取权值最大的词作为特征词;

Step4:根据特征词找特征句;

Steps:利用LCS算法进行特征句匹配;

Step6:进行下一个网页的处理。

该算法的第1步主要是进行一些预处理的工作,先将一个待进行去重识别的网页文本读入,对其进行分词(仅针对汉语和部分中文语言),然后去除对于词频统计没有作用的停用词,并将网页文本表示为向量。算法的第2,第3步根据公式(1)来计算向量中每个词的权值,并从中找出权值最大的词语。算法的第4步根据前而找到的特征词,在该网页中寻找该特征词第一次出现的位置,以其第一次出现所在的句子作为该网页的特征句。算法的第5步则利用LCS算法在重复网页数据库中计算该特征句与数据库中每个特征句的匹配度,当匹配度达到设定的阈值时(根据对一些语料的统计暂定为0.85),则认为该网页与重复网页数据库中的网页重复,将该网页与原网页合并,如果整个网页数据库中都没有与之重复的网页,则将该网页加入到网页数据库中。至此,该算法对一个网页的处理进行完毕,转到算法的开始进行下一个网页的处理。

2.4算法比较

SCAM算法原本是用来剽窃检测的,它可以找到2篇文章相同的位置,但是对于网页去重而言,它的效率不高,而且用来存储向量要求的空间代价比较大,所以使用这种方法进行网页去重效率较低。基于特征码的网页去重算法效率很高,毕竟它是是线性时间的,但是也有它的局限之处。一般的转载网页,如果一字不改,而目也不改标点符号,使用这种算法是很容易就可以查得出来的,而目耗费不多。基于特征句抽取的网页去重方法,由于该算法将网页文本的比较转化成为句子之间的比较,因而降低了算法的复杂度,该算法对于单词去重有很好的效果。

3. 页面排序算法分析

搜索引擎的目标是把用户所需要的搜索结果呈现给用户,帮助用户迅速地定位到所需要的资源。当用户输入检索词检索时,总是希望能及时检索出最想要的结果,并且这些结果能排在搜索结果的最前面。尤其是当返回大量检索结果的时候,从用户的习惯来看,基本上只关心前几页的结果,而很靠后的检索结果不可能也不愿意去一一遍历,那些被排在几百位之外的信息,被用户读到的机率几乎为零。因此,检索结果的排序效果直接影响到用户能否方便地获得所需的资源,同时也决定了用户对该搜索引擎的满意度。决定排序结果的是搜索引擎的排序策略,排序策略是搜索引擎最核心的部分之一。

目前搜索引擎技术的改进与优化都直接反应到搜索结果的排序上,这对提升客户的满意度有着直接的影响,国际上相关的研究如TimedPR、WPR和T-Rank算法已经取得了一定的成果,但在实际应用当中还存在着不同的缺陷,国内相关的研究也主要集中在如何确定网页的新旧以及利用爬虫抓取网页出现的周期频率来进行页面的排序。各大搜索引擎主要使用的排序算法有:PageRank算法及其改进算法、HillTop算法、HITS算法,这些算法在网页链接分析、网页衰减和网页质量方面已经取得了相应的成果,而在网页时间链接方面的研究也只是刚刚起步。本节主要介绍PageRank算法,PageRank改进算法以及WTPR算法。

3.1PageRank算法

PgeRank是Stanford大学研究人员开发的搜索引擎Google的核心算法,该算法主要计算页面的重要性。PageRank方法的主要思想是:从页面的重要性来说,一个页面被其他的页面所引用的次数越多,一般来说它的重要性越高。如果一个页面本身没有被多次引用,但是它却被一个重要页面所引用,那么这个页面也会具有较高的重要性。PageRank的基本思想在于一个页面重要或者有链接指向它的页面多,或者有链接指向它的页面重要或者二者兼而有之。为了解决算法中PageRank 值的沉淀现象,Sergey Brin和Lawrence Page进一步改进了算法,引入了衰退因子E(∥),E(∥)是对应网页集的某一向量,对应PageRank的初始值.

由于PageRank算法仅仅利用了网络的链接结构,该算法还存在不少缺点:(1)PageRank算法偏重旧网页,因为旧网页被其它网页链接到的可能性更高,事实上新的网页可能会具有更好的信息价值;(2)PageRank算法偏重以.com结尾的网站,因为这类网站往往是综合性网站,自然可以比其它类型的网站获得更多的链接,而事实上某些专业网站对问题的阐述更具有权威性;(3)PageRank算法无法区分网页内容上的相似性,这样就容易导致出现主题漂移问题。

3.2PageRank算法的改进

PageRank算法被提出之后,很多研究者对PageRank算法进行了改进,主要有以下几个方面的:

(1)TimedPagerank算法

Philip S.Yu等人提出了TimedPagerank算法,该算法是在文献出版的基础上,借鉴了网页排序算法PageRank,把算法应用到文献搜索中,并将加入时

间维权重。因此,针对新的高质量网页分配相应较高的PR值,反之为一些过时的旧网页和普通新网页的值分配较少,这是该算法的核心任务。对于这些网页的PR 值的计算,他们对传统的PageRank算法进行了改进,实验结果证明,该算法是高效的,它使得新出现的高质量文献得到了较高的PR值,并且随着时间的增长,一些陈旧的页面PR值将加速下滑。

TimedPagerank算法仅考虑了网页的时间因素,有利于新的网页得到较高的权重,而对旧的高质量网页,却忽略掉了网页的出链权重和入链权重。因此对旧的高质量网页往往不利。

(2)WPR算法

Ali Ghorbani等人提出了WPR算法,我们知道越是重要的网页收到的链接就越多,因此这些网页应该得到相应较高权重,和链接较少网页区分开来,该算法考虑到了网页的重要程度,赋予不同的网页以不同的权重,改善了PR值平均分配的现状,很好的克服了对旧的高质量网页的权重分配问题。

WPR算法对旧的高质量网页有较好的效果;对于新的刚出现的网页,由于所接受的链接远没有那些旧的网页多,出链权重和入链权重很少,因而得不到较高的等级值。

4.基于关键词和特征码的网页去重K.CC算法.

一般的网页包括导航信息、网页正文和版权信息等几个部分。本文所说的网页相同是针对网页的正文部分,其他部分入导航信息和版权信息等称为噪音数据。本文所研究的目标是指那些去掉噪音后的正文部分。现有的网页去重算法有:文献提出利用汉字中标点符号信息,以句号前后各五个汉字作为特征码来唯一表示网页。但是这种方法有一些不足:大多数情况是转载时加入了少量无意义的转载说明段落,形成了段落长度的不同,但由于特征码的精确匹配,无法将这样的

网页消除。

4.1算法框架

网页特征码可以看作是一个网页区别其他网页内容不同的标志。利用网页特征码来标示一个网页,要求该特征码能够体现该网页区别于其他网页的特征。对现有特征码去重算法的不足,本文提出一种改进的基于关键词和特征码的网页去重算法——-K.CC算法。首先,提取网页的关键词,并计算关键词出现的次数;其次,通过简单的关键词次数比较,剔除一些出现次数相差较大的关键词,得到出现次数相近的关键词集合。如关键词a在网页A中出现了3次,而在B中出现了40次,则关键词a不予考虑;最后,以关键词作为特征码提取位置,提取网页中的特征码,组成网页的特征串,通过比较特征串的相似度,确定网页是否相似。K.CC算法具体步骤描述如下:

输入:两个网页A,B

输出:若网页A,B内容相同,返回l;否则返回0。

1.分别提取网页A,B的关键词并计算其次数,得到A,B的关键词集合

ka和kb。设num(k,A)表示关键词k在网页A中出现的次数。

2.将网页A,B的关键词集合ka和kb的交集作为候选关键词集合C,即

^

C=kaIl kb。

3.若C=g,返回0;否则从候选关键词集合C中选取出共同关键词集合K。

给定某一阈值仃,若关键词在A中出现的次数与在B中出现的次数之差

小于盯,则将该关键词加入共同关键词集合K中。即K={k

k∈C A Inum(k,A)一num(k,B)l<仃)。

4.若肛g,返回0;否则从K中取出一个关键词毛,将岛作为特征码提取

位置,分别得到网页A的特征串豇,网页B的特征串%,并计算两个特

征串的相似度值sire(乳,%),若该相似度值大于某一阈值77,则认定网页

A,B相似,算法结束返回l,否则重复步骤4。

基于JAVA技术搜索引擎的设计与实现

龙源期刊网 https://www.sodocs.net/doc/d69590035.html, 基于JAVA技术搜索引擎的设计与实现 作者:刘智勇 来源:《数字技术与应用》2017年第05期 摘要:随着科技的进步与发展,互联网成为21世纪的宠儿,网络信息也复杂多样。这些繁杂的网络信息在给我们带来便利的同时也产生了极大的问题,比如如何在这海量的信息里面找到自己所需要的内容,成为当前互联网技术的热门领域。互联网信息复杂多样,因此想要迅速、快捷的找到所需要的信息内容,就需要搜索引擎来帮忙实现。本文就对搜索引擎的工作原理,组成和数据结构等方面进行分析,对搜索引擎未来的发展方向进行探索。众所周知,智能化是未来的一个大的趋势,想要实现搜索引擎的智能化,就需要使搜索引擎具备自我学习的能力,适应用户的查询需求。 关键词:搜索引擎;智能化;信息检索 中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2017)05-0205-01 1 搜索引擎概述 随着信息时代的来临,互联网的迅速普及应用,已经成为我们正常生活中不可或缺的一部分。因为互联网信息具备共享等多种特性,使得网络信息成倍的增加。谷歌公司所收录的网页信息都已经过亿,而且每天还在不断的攀升,想要在这么多数据里面,选取对自己有用的信息,就需要借助搜索引擎来进行实现。 搜索引擎是从1994年诞生,随着互联网的信息日益增多,搜索引擎也在不断的发展,从1994年到现在历经三个阶段。搜索引擎的第一个阶段就是1994年到1996年,这个阶段的搜索引擎以集中式检索为主。当时网络信息并没有很多,一般都是少于百万的网页,也没有索引,检索速度也非常慢。也是采用网络、数据库等关键技术来实现。第二个阶段是1996年到1998年,这个期间,搜索引擎采用分布式检索方案,使用多个微型计算机来协同工作,其目的是为了提高数据规模和响应速度。一般可以响应千万次的用户检索请求。第三代搜索引擎,就当前所使用的搜索引擎,也是搜索引擎极为繁荣的时期。它拥有完整的索引数据库,除了一般的搜索,还有主题搜索和地域搜索。但是这些搜索结果反馈给用户的数据量较大,检索结果的相关度又成为研究的核心。 我们通常所用的搜索引擎也分为多种,按照信息的搜集方法和服务提供方式的不同进行区分,常用的有三类,第一,目录式搜索引擎。它是以人工方式进行信息的搜集,由编辑员进行审查并制作成信息摘要,将其进行分类置入架构中去。这类搜索方式的搜索结果准确,信息质量高,但是需要大量的人工成本,信息更新不及时,维护量大。第二,机器人搜索引擎。就是我们常说的网络爬虫,是由一个网络蜘蛛的机器人程序以某种策略自动地在互联网中搜集和发现信息,这种信息查询方式是由索引器完成的。索引器为搜集到的信息建立一个完整的索引,

一个小型搜索引擎的设计与实现

一个小型搜索引擎的设计与实现 摘要 随着互联网和宽带上网的普及,搜索引擎在中国异军突起,并日益渗透到人们的日常生活中,在互联网普及之前,人们查阅资料首先想到的是拥有大量书籍的资料的图书馆。但是今天很多人都会选择一种更方便、快捷、全面、准确的查阅方式--互联网。而帮助我们在整个互联网上快速地查找到目标信息的就是越来越被重视的搜索引擎。 本文通过分析国内外搜索引擎的发展现状,提出了一种功能强大,操作简单,通用性强,可以满足用户对信息搜索需要,利用ASP技术实现的一个B/S体系结构的搜索引擎系统方案。文中着重论述了该系统的功能与实现、数据流程与存储、后台管理等。并对关键的有关技术作了较详细的介绍。论文在撰写过程中,力求将理论与系统应用相结合,对各种理论进行阐述的同时配合系统从实际应用和操作技巧上加以说明,希望能够更充分地体现到这些知识与技术在本系统中的应用与实现。 关键词:搜索引擎;ASP;B/S;关键字

The Design and Implementation of a Small Search Engine Abstract With the popularization of the Internet and surfing the Net broadband search engine likes a dark horse in China, going to people?s daily life day by day. Before this, when people consult materials the first thought is the library that has a large number of books. Now, more and more people will choose Internet to search for information. It?s more convenient, and accurate for searching information. The search engine that helps us in the whole Internet to quickly identify target information is played more and more attention to. Through analyzing the current development of search engine in domestic and international, this paper gives a plan that achieves the formidable function, simply operating, stronger versatility and satisfies the users to the information search need, and realizes a systematic scheme of search engine of B/S system structure with the technology of ASP. This paper mainly describes the function and realization of this system, data procedure and storing, back-stage management, etc. And also introduces to the key relevant technology in detail. During this period, I?ve made a lot effort to union the theory and practice, and coordinates with system to explain from practical application and operation skill while explaining various kinds of theories, hope to more fully reflect the knowledge and application in this system of technology and realize. Key words:Search Engine; ASP; B/S; Keyword

搜索引擎的排名原理

搜索引擎排名的原理 要了解搜索引擎优化,首先了解搜索引擎的基本工作原理。搜索引擎排名大致上可以分为四个步骤。 爬行和抓取 搜索引擎派出一个能够在网上发现新网页并抓取文件的程序,这个程序通常被称为蜘蛛或机器人。搜索引擎蜘蛛从数据库中已知的网页开始出发,就像正常用户的浏览器一样访问这些网页并抓取文件。 并且搜索引擎蜘蛛会跟踪网页上的链接,访问更多网页,这个过程就叫爬行。当通过链接发现有新的网址时,蜘蛛将把新网址记录入数据库等待抓取。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本方法,所以反向链接成为搜索引擎优化的最基本因素之一。没有反向链接,搜索引擎连页面都发现不了,就更谈不上排名了。 搜索引擎蜘蛛抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。 索引 搜索引擎索引程序把蜘蛛抓取的网页文件分解、分析,并以巨大表格的形式存入数据库,这个过程就是索引。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。 搜索引擎索引数据库存储巨量数据,主流搜索引擎通常都存有几十亿级别的网页。 搜索词处理 用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对输入的搜索词进行处理,如中文特有的分词处理,对关键词词序的分别,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。 排序 对搜索词进行处理后,搜索引擎排序程序开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名计算法计算出哪些网页应该排在前面,然后按一定格式返回“搜索”页面。 排序过程虽然在一两秒之内就完成返回用户所要的搜索结果,实际上这是一个非常复杂的过程。排名算法需要实时从索引数据库中找出所有相关页面,实时计算相关性,加入过滤算法,其复杂程度是外人无法想象的。搜索引擎是当今规模最大、最复杂的计算系统之一。 但是即使最好的搜素引擎在鉴别网页上也还无法与人相比,这就是为什么网站需要搜索引擎优化。

最佳优先模式--搜索引擎算法分析

最佳优先模式--搜索引擎算法分析 搜索时大部分用户只关注排在最前面的搜索结果。尽管视系统,用户,任务和界面的不同,具体的搜索结果数量也不同,但可以肯定的是前三个搜索结果将吸引你80%的主意力。搜索结果第一页的其他链接也会得到部分关注,但其后的内容则不然。 有两个原因决定了这很重要。首先,搜索的最简单用例就是:浏览有用的搜索结果。用户输入关键词,扫视前面几个搜索结果,点击链接,搜索就完成了。要让搜索简单,快速,有用,最佳优化搜索模式非常重要。其次,最前面的几个搜索结果对于查询重构有着极大的影响。用户输入搜索字词,浏览最初的几个结果,然后再试试搜索其他的内容。大约20%~50%的搜索都包括查询重构。前三个搜索结果是用户界面的重要组成部分。 因此,选择搜索引擎时,应该首先考虑最佳优先模式。高质量,透明,灵活的结果排序算法是成功的关键。他们自始至终都应该是优秀而出色的,能够根据特定内容集而变或是随着应用的独特需求而变。其算法应该包括: 相关性 包括主题的相关性,目的在于将搜索关键字和内容文本元数据匹配起来。有效算法包括词汇排序,相似性,位置,频度和文档长度等。短标题里的精确词汇匹配比起长篇内容里的AND共现匹配要有价值得多。在一个网页上反复出现,但在网站上其他地方却难寻踪迹的词语其权重也更高。相关性算法必须处理好文本查询的特殊情况,包括复数和其他单词变体,比如诗人和诗歌。只有做出调整才能在查准率和查全率之间取得合适的平衡。相关性是典型的搜索引擎默认设置,而且事实上往往也是一种混合模式,把多种算法整合到一个平衡的解决方案中。 流行性 在大多数情境中,社会化数据能够极大地改善语义算法。谷歌的PageRank算法把链接视为投票,这是一个大获成功的做法。如今流行性已经成为典型的多算法度量。在Flickr 上,照片的兴趣度有浏览数,评论数,注释数和收藏次数等决定。在亚马逊网站上,用户按照最畅销或最佳评论来排序。不过,及时用户按照相关性来排序时,社会化数据也影响着搜索结果的显示排序。 日期 默认日期排序并不好,但这一选项也自有用处。尤其是对于新闻和邮件应用来说,按照反向时间顺序(即最新的内容优先显示)相对更加常见。在许多情况下,出版日期或是修改日期可以为通用相关性算法提供有价值的数据,从而改善首选搜索结果的实时性。 格式 在单一形式中,格式和内容类型就像过滤器一样有用,用户可以选择只查看特定格式的内容,比如图片,视频或新闻。而且,他们还可以帮助改善最佳搜索结果。比如,在企业内

主题搜索引擎的设计与实现

第四代搜索引擎—— 主题搜索引擎的设计与实现 Design and Implementation of Focused Search Engine, 4th Generation Search Engine 北京大学计算机科学技术系计算机软件专业 九七级学士毕业论文 指导教师:李晓明王建勇 作者:罗昶 学号:09708136 2001年6月

指导老师对论文工作的评语 “面向主题的搜索引擎”,是我们“天网”搜索引擎下一步发展的重要方向之一。罗昶同学的毕业论文,是这一新方向的良好开端。 论文从系统实现的角度,较全面的阐述了实现一个高质量主题搜索引擎系统的各个方面,着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用,并提出了“主题度”的概念,用以衡量主题搜索引擎的质量,意在指明一个搜索引擎在一个主题下的主题度越高,则它越贴近这个主题,用户就越容易找到跟这个主题相关的资料。特别地,将上述认识用于实践中,高质量地完成了一个面向影视主题的搜索引擎系统,搜集了十多万影视信息,在影视信息方面提供着比“天网”通用搜索引擎更有效的服务;论文内容丰富,所涉及的工作量很大,且有较强的系统性,是一篇很有参考价值的论文,为“天网”的发展做出了贡献。 老师签名:__________

论文摘要 互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。 但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、对硬件要求低,数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。 本文阐述了第四代搜索引擎天网主题搜索引擎的设计与实现,并着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用。论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能,一个搜索引擎在一个主题下的主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。有了“主题度”,就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别,说明了前者在特定的主题下要比后者更准确贴切。 关键词:互联网、万维网、搜索引擎、数据发掘、主题搜索、主题度

新技术论文-搜索引擎研究

摘要 搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,方便用户查找。 如何更加快捷、准确地查找到用户所需的网络信息资源,是各大搜索引擎服务提供商和计算机网络研究人员的研究热点。作为计算机专业的学生,搜索引擎技术对我们有很大的诱惑力,了解搜索引擎的发展现状、原理和技术手段,从算法的角度来认识搜索引擎,是我们必须掌握的知识之一。 文章概述了搜索引擎的出现与发展,原理与技术。 关键词:搜索引擎、基本原理、搜索算法、技术

目录 1绪论 (3) 1.1 搜索引擎的出现与发展 (3) 1.1.1 搜索引擎的出现 (3) 1.1.2 搜索引擎的发展 (4) 2 搜索引擎的原理与技术 (5) 2.1 分类目录检索 (5) 2.1.1 主题分类法 (6) 2.1.2 学科分类法 (6) 2.1.3 分面组配分类法 (6) 2.1.4 图书分类法 (6) 2.2 关键词检索 (6) 2.2.1 从互联网上抓取网页 (8) 2.2.2 建立索引数据库 (8) 2.2.3 在数据库中搜索 (8) 2.2.4 对搜索工作进行处理排序 (8) 结论 (9) 参考文献 (10)

1.绪论 近几年,随着网络的不断发展和壮大,搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。中国十年多来互联网的不断发展,造就出1.3亿的网民,搜索引擎也出现空前的火热。在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲美,多数质量较差,内容不丰富,所以大型门户网站优秀的网页设计风格,大量的信息及时更新赢得了用户的认可,创造了第一次互联网的高峰。然而随之近年来网络技术的普及与应用,建立一个专业的网站已经不存在太多的技术门槛。于是看好互联网前景的网站纷纷涌现在我们的面前。相对比而言在某些领域中,大型门户网站的页面风格反而不如一些中小型网站的界面漂亮,同时各种分类的行业网站也慢慢的兴起,使得搜索引擎越来越成为人们生活中必不可少的实用工具。 搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、yahoo中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。 总而言之搜索引擎改变了人们的生活给人们的生活工作学习带来了巨大的帮助。 1.1搜索引擎的出现与发展 1.1.1搜索引擎的出现 搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。 出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP 资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关

几大搜索引擎排名算法趣味解析

几大搜索引擎排名算法趣味解析 做优化最关心的是什么,当然是在几大搜索引擎的排名,几年的淘汰,现在的格局是百度一家独大,然后带领360和新搜狗二个小弟,谷歌中国只剩下不到3%的市场,基本上可以忽略不计,但是谷歌毕竟在全球还是搜索老大,粉丝效应还有一些的用户。 百度:个人觉得百度在排名算法是最人性的,虽然说这个话可能引来好多人的吐槽,因为好多人深受百度其害,认为百度是是难伺候的,算法层出不穷,而且经常所谓的大姨妈,很是伤了好多人的心,但是从我感觉来看,从来没有感受过百度所谓的K站,优化手法也是一直采用正规的白帽手法,几年来优化过的一些站也是得到了自己心仪的排名,为什么说百度最人性呢,最近上了一个新站,到现在差不多刚好一个月的时间,虽然关健词的指数都不高,不过几个关健词已经齐齐的奔入了百度前三页,而且还在稳步的上升中,为什么能这样呢,就是因为百度的新站效应这个人性化的举措,好些优化人士也说,只要你网站按照百度要求搭建,然后内容建设也符合百度规律,那么你网站上线收录不久后百度就会给部份关健词相应的排名,大家都知道优化是一个相当枯燥的事情,能坚持是一件相当困难的事情了,给了甜头,当然有干下去的动力,只要你持续,那后来一定会收到一个比较理想的排名的,但是也有好些人一直所谓的抱怨这,抱怨那,一直没有得到自己想要的排名,这个呢估计得自己找原因了, 360:上线以来,给了人们好大的期望,但是我感觉期望的这部份人应该大部份是来自百度受害者,欺许能在这里得到心灵的安慰,也就出现了一些研究360排名的人,但是至今网上也没有关于这方面的文章,个人感觉360应该没有什么核心算法,搜索结果跟百度也是惊人的雷同,新站基本上不可能在360出现排名,一些老站排名和百度差不多,为什么新站不给排名呢,估计是在等百度排名稳定后再抄袭,这个也就是最近百度频繁推出新算法的的原因,推出新算法一方面是为了提高体验,一方面是打造技术门槛防止被抄袭。 谷歌:在说谷歌之前先上一幅图,这个是这几天在A5上面看到的一篇文章 现在不知道还有多少人是这样的,经常聊天的时候也听到类似的一些观点,认为谷歌怎么怎么的好,谷歌虽然是全球巨头,但是谷歌中文我感觉来是最差的,排版布局上面首先就让人看得难受,我也不知道好多人所说的谷歌好是指的是谷歌中文,还是谷歌英文了,也不知道他们到底是谷歌的用户,还是谷歌的粉丝,还是因为就像以前流行的那样,搜索用谷歌,聊天用MSN等这样的,谷歌中文排名也是我感觉最简单的,那就是一句话外链至上,就是如果你有足够的外链,

基于JAVA技术的搜索引擎的研究与实现

基于JAVA 技术的搜索引擎的研究与实现 摘要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、We b 服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。 新闻搜索引擎是从指定的Web 页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web 服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 Abstract The resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structur e of search engine based on the internet in detail, then gives a minute explanation form Spider search, e ngine and web server. In order to understand the technology more deeply, I have programmed a news se arch engine by myself. The news search engine is explained and searched according to hyperlink from a appointed web page, th en indexs every searched information and adds it to the index database. Then after receiving the custome

搜索引擎基本工作原理

搜索引擎基本工作原理 目录 1工作原理 2搜索引擎 3目录索引 4百度谷歌 5优化核心 6SEO优化 ?网站url ? title信息 ? meta信息 ?图片alt ? flash信息 ? frame框架 1工作原理 搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。 1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重

复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 搜索引擎基本工作原理 2搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库 的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,

搜索引擎的设计与实现

web搜索引擎的设计与实现

摘要 随着网络的迅猛发展。网络成为信息的极其重要的来源地,越来越多的人从网络上获取自己所需要的信息,这就使得像Google[40],百度[39]这样的通用搜索引擎变成了人们寻找信息必不可少的工具。 本文在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的需求,参照了天网,lucene等搜索引擎的原理,构建了一个运行稳定,性能良好而且可扩充的小型搜索引擎系统,本文不仅仅完成了对整个系统的设计,并且完成了所有的编码工作。 本文论述了搜索引擎的开发背景以及搜索引擎的历史和发展趋势,分析了小型搜索引擎的需求,对系统开发中的一些问题,都给出了解决方案,并对方案进行详细设计,编码实现。论文的主要工作及创新如下: 1.在深刻理解网络爬虫的工作原理的基础上,使用数据库的来实现爬虫部分。 2.在深刻理解了中文切词原理的基础之上,对lucene的切词算法上做出了改进的基础上设计了自己的算法,对改进后的算法实现,并进行了准确率和效率的测试,证明在效率上确实提高。 3.在理解了排序索引部分的原理之后,设计了实现索引排序部分结构,完成了详细流程图和编码实现,对完成的代码进行测试。 4.在完成搜索部分设计后,觉得效率上还不能够达到系统的要求,于是为了提高系统的搜索效率,采用了缓存搜索页面和对搜索频率较高词语结果缓存的两级缓存原则来提高系统搜索效率。 关键词:搜索引擎,网络爬虫,中文切词,排序索引

ABSTRACT With the rapidly developing of the network. Network became a vital information source, more and more people are obtaining the information that they need from the network,this making web search engine has become essential tool to people when they want to find some information from internet. In this paper, with in-depth study of the basic principles of general search engines, the design and core technology architecture, combining with the needs of small search engine and in the light of the "tianwang", lucene search engine, I build a stable, good performance and can be expanded small-scale search engine system, this article not only completed the design of the entire system, but also basically completed all the coding work. This article describle not only the background of search engines, but also the history of search engine developing and developing trends,and analyse the needs of small search engines and giving solutionsthe to the problems which was found in the development of the system ,and making a detailed program design, coding to achieve. The main thesis of the article and innovation are as follows: 1.with the deep understanding of the working principle of the network spider.I acheived network spider with using database system. 2.with the deep understanding of Chinese segmentation and segmentation algorithm of lucene system,I made my own segmentation algorithm,and give a lot of tests to my segmentation algorithm to provide that my segmentation algorithm is better. 3.with the deep understanding of sorted and index algorithm,I designed my own sorted and index algorithm with the data-struct I designed and coding it ,it was provided available after lots of tests. 4.after design of search part,I foud the efficiency of the part is not very poor,so I designed two-stage cache device to impove the efficiency of the system. Key words: search engine,net spider, Chinese segmentation,sorted and index

浅谈搜索引擎的研究现状

科 技 天 地 38 INTELLIGENCE ························浅谈搜索引擎的研究现状 西安外事学院计算机中心 李艳红 摘 要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状,采用了 对比的方法对特色搜索引擎的进行了阐述,并详尽的指出了各种搜索引擎的现状、特点及发展趋势。 关键词:搜索引擎 爬虫 网页快照 搜索引擎(Search Engine)正是帮助人们从网上检索信息的重要工具,是为了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。 当用户通过Archie 检索文件时,所要进行的全部工作就是对该数据库进行检索。尽管Archie 还不是真正的搜索引擎,但工作原理与现在的搜索引擎己经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者查询。1994年初,Internet 上出现了包括Lycos 在内的第一批Web 搜索引擎。第二代搜索引擎以1998年出的Google 和Directhit 为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性” ,“这种根据用户忠诚度的评判方法更具备客观性,因而,用户所获得的信息也就更准确”。如Directhit 以被大多数用户访问的情况认定一个网站的重要性;Google 以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素,主要表现在以下三个方面: (1)能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语,进行精确查找。 (2)有判断地收集信息,根据众多网络用户行为特征来取舍信息。(3)人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。 此外,第二代的搜索引擎还有一个特点,他们只做后台技术,将技术提供给Yahoo 等门户网站。其中Google(https://www.sodocs.net/doc/d69590035.html,)是表现最为突出的。Google 于1998年9月发布测试版,是目前人们使用最广泛的搜索引擎。 Google 现为全球80多家门户和终级网站提供支持。Google 的优势是易用性和返回结果的高相关性。Google 提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank 排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google 还提供一项很有用的服务:“网页快照”功能。 目前,新一代的搜索引擎也己经进入了研制阶段,其最大特点就是大量智能化信息处理的引入,网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题,这就要求搜索引擎不仅能识别TXT 文件,也要能够识别PPT, Word, PDF,电子邮件等文件;另一个特征是把P2P 技术应用到网页的检索中,这样通过共享所有硬盘上的文件,目录乃至整个硬盘,用户搜索时无需通过Web 服务器,不受信息文档格式的限制,即可达到把散落在互联网上的不相关的人们关心的知识搜集起来,经过筛选,组织和分析返回给用户所需的信息。 国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿,是全球最大的中文数据库。Baidu 搜索引擎的其它特色包括:网页快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,新闻搜索,Flash 搜索和信息快递搜索等。北大天 网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,有强大的搜索功能。除了WWW 主页检索外,天网还提供FTP 站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP 文件分为电影和动画片,MP3音乐,程序下载,文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击,查找自己需要的FTP 文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引,并采用百度搜索引擎技术,提供网站,网页,类目,新闻黄页,中文网址,软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库,提供网页,网站,新闻,地域,行业,MP3, Flash 等多种检索方式,具有互联网实时新闻搜索,高精度检索,分类查询,网站导航,企业与产品查询等功能。 目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,对于面向大量用户的商业搜索引擎是非常合理的,但是对于只面向某一类型的网络,如校园网的搜索引擎,这无疑需要大量的计算资源和存储空间,这往往是得不偿失的。因此,对于校园网内搜索引擎,需要设计一种对资源要求低,灵活机动的方法。 参考文献: [1] 刘建国:《搜索引擎概述》,北京大学计算机与科学技术,1999年。 [2] 李晓明、刘建国:《搜索引擎技术及趋势》,《大学图书馆学报》,2000年第16期。

全文搜索引擎的设计与实现(文献综述)

全文搜索引擎的设计与实现 前言 面对海量的数字化信息,搜索引擎技术帮助我们在其中发现有价值的信息与资源。我们可以通过google、百度这样的搜索引擎服务提供商帮助我们在Internet上搜索我们需要的信息。但是在一些没有或不便于连入Internet的内部网络或者是拥有海量数据存储的主机,想要通过搜索来发现有价值的信息和资源却不太容易。所以开发一个小型全文搜索引擎,实现以上两种情况下的信息高效检索是十分有必要的。本设计着眼于全文搜索引擎的设计与实现,利用Java ee结合Struts,Spring,Hibernates以及Ajax等框架技术,实现基于apache软件基金会开源搜索引擎框架Lucene下的一个全文搜索引擎。 正文 搜索引擎技术起源1990年,蒙特利尔大学学生Alan Emtage、Peter Deutsch和Bill Wheelan出于个人兴趣,发明了用于检索、查询分布在各个FTP主机中的文件Archie,当时他们的目的仅仅是为了在查询文件时的方便,他们未曾预料到他们的这一创造会成就日后互联网最的广阔市场,他们发明的小程序将进化成网络时代不可或缺的工具——搜索引擎。1991年,在美国CERFnet、PSInet及Alternet网络组成了CIEA (商用Internet 协会)宣布用户可以把它们的Internet子网用于商业用途,开始了Internet商业化的序幕。商业化意味着互联网技术不再为科研和军事领域独享,商业化意味着有更多人可以接触互联网,商业化更意味着潜在的市场和巨大的商机。1994年,Michael Mauldin推出了最早的现代意义上的搜索引擎Lycos,互联网进入了搜索技术的应用和搜索引擎快速发展时期。以上是国际互联网和搜索引擎发展历史上的几个重要日子。互联网从出现至今不过15年左右时间,搜索引擎商业化运作也就10年左右。就在这短短的10年时间里,互联网发生了翻天覆地的变化,呈爆炸性增长。于此同时也成就了google、百度这样的互联网巨头。今天,当我们想要在这片广阔的信息海洋中及时获得想要查找的信息时,已经离不开搜索引擎了。 相关技术

搜索引擎技术的发展

搜索引擎技术的发展 搜索引擎是收集、整理网上信息资源并按一定规则加以整理和组织,提供人们按相应的规则提取信息线索,并能直接连接到相关网上信息搜索工具。搜索引擎的目的是帮助人们寻找信息资源。目前大家所认识的主流搜索引擎也不外乎是百度和谷歌,其次就是搜搜、搜狗、以及雅虎,这些都是比较综合的搜索引擎。而这其中除了百度和谷歌的里面的产品属于开放性搜索外,还有目录搜索引擎,当你输入某个关键词搜索的时候所有包括有合格关键词的网页就被找出来了并按一定的顺序排列。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。 通用搜索引擎的不足 目前搜索引擎的确风光无限,在给网民带来许多便利的同时也带来了巨大的经济效益。但这不代表网民对目前搜索引擎表示完全满意,在CHIP的调查中,有73.3%的网民认为,搜索结果重复率高,搜索到的网页打不开等是一个令人讨厌的现象。同时,有54.1%的网民认为个性化内容少,结果雷同也是不可以忍受的。另外,还有48.3%的网民认为专业/行业搜索功能差,有49.1%的网民认为信息更新速度慢,有30.1%的网民认为多媒体搜索功能弱。由此看来,搜索引擎还是需要不断改进和完善,才能满足人们的需要。归根到底,用户是否对搜索引擎的信息满意,企业是否能从搜索邀请推广中获得价值,这才是搜索引擎是否可以长期发展的基础。 搜索引擎覆盖范围相对减少:搜索引擎的索引能力正在越来越落后于网络的快速增长速度,自97年12月以来,搜索引擎的覆盖面相对于网络上公开的可检索的内容实际上是减少了。 搜索差异问题:对同一关键字使用不同的搜索引擎得出的结果差别很大,有时采用这种搜索引擎得到的结果较为满意,而有时使用另一种搜索引擎则更好一些。因此,可以考虑综合多个搜索引擎的查询结果,以达到更为令人满意的查询效果。

搜索引擎技术及研究

搜索引擎技术及研究 引言 随着计算机网络技术的飞速发展,人们要在互联网的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已经成为人们获取信息的重要手段。搜索引擎从广义的角度来讲,是指互联网上提供用户检索接口并且具有检索功能的网站,它能帮助人们在互联网中查找到所需要的信息;从狭义的角度来讲,搜索引擎是指根据某种策略、运用特定的计算机程序从网络上搜集要查找的信息,对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展现给用户的系统。 1 搜索引擎的发展历程 搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。搜索引擎大致经历了四代的发展。 1.1 第一代搜索引擎 1994年第一代真正基于互联网的搜索引擎lycos诞生,它以人工分类目录为主,代表厂商是yahoo,特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站,现在也还有这种方式存在。 1.2 第二代搜索引擎 随着网络应用技术的发展,用户开始希望对内容进行查找,出现了第二代搜索引擎,也就是利用关键字来查询。最具代表性、最成功的是google,它建立在网页链接分析技术的基础上,使用关键字对网页搜索,能够覆盖互联网的大量网页内容,该技术可以分析网页的重要性后,将重要的结果呈现给用户。 1.3 第三代搜索引擎 随着网络信息的迅速膨胀,用户希望能快速并且准确的查找到自己所要的信息,因此出现了第三代搜索引擎。相比前两代,第三代搜索引擎更加注重个性化、专业化、智能化,使用自动聚类、分类等人工智能技术,采用区域智能识别及内容分析技术,利用人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。第三代搜索引擎的代表是google,它以宽广的信息覆盖率和优秀的搜索性能为发展搜索引擎的技术开创了崭新的局面。 1.4 第四代搜索引擎 随着信息多元化的快速发展,通用搜索引擎在目前的硬件条件下要得到互联网上比较全面的信息是不太可能的,这时,用户就需要数据全面、更新及时、分类细致的面向主题搜索引擎,这种搜索引擎采用特征提取和文本智能化等策略,相比前三代搜索引擎更准确有效,被称为第四代搜索引擎[1]。 2 搜索引擎的分类 搜索引擎按工作方式分为三类:目录索引类搜索引擎、全文搜索引擎和元搜索引擎[2]。 2.1 目录索引类搜索引擎 2.2 全文搜索引擎 目前全文搜索引擎是主流的搜索引擎,人们经常说的搜索引擎一般都是指全文搜索引擎,典型的代表有google、百度、搜狗等。这类搜索引擎利用网络蜘蛛在网络中搜索,再抓取原始网页,存放于本地数据库并对原始网页进行加工,然后建立网页内容索引。系统在检索阶段,索引后台数据库并寻找和用户查询条件相匹配的网页,把这些网页按照相应规则排序后将结果按顺序返回给用户。在搜索引擎的界面上,用户输入要查询的关键字,就能够找到互联网中与之相关的网页。 2.3 元搜索引擎 元搜索引擎是将用户的搜索请求同时提交给多个独立搜索引擎,然后集中处理搜索结果,按统一格式返回给用户,故又被称为搜索引擎之上的搜索引擎。该搜索引擎的特点是本身不

相关主题