搜档网
当前位置:搜档网 › 搜索引擎评价研究方法综述

搜索引擎评价研究方法综述

搜索引擎评价研究方法综述
搜索引擎评价研究方法综述

搜索引擎评价研究方法综述

费巍

2012-9-29 19:50:56 来源:《现代情报》(长春)2010年12期【英文标题】Overview of the Methods of Evaluation on Search Engine

【作者简介】费巍(1981-),男,博士,研究方向:信息组织和信息检索,发表论文10多篇。苏州图书馆,苏州 215002

【内容提要】通过ISI Web of Science和中国期刊网查找有关搜索引擎评价研究的文章,本文对搜索引擎评价研究的相关文献进行了梳理,并对研究方法进行了总结。搜索引擎评价研究方法主要有实验法、调查法、观察法、数据分析法、综述和评论等。对比国内外相关研究,国内搜索引擎评价研究数据支撑较为缺乏,科学分析和论证也明显不足。本文旨在提升国内搜索引擎评价研究的科学性。

The paper reviewed the documents related to the evaluation of search engines based on the ISI Web of Science and CNKI. The methods of these studies were concluded, which were experimentation, survey, observation, data analysis, and review. According to the comparison between domestic and overseas correlational research, the research on the evaluation of search engines was lack of data, as well as scientific analysis and verification. The aim of this paper was to improve the scientificity of the evaluation of search engine in China.

【关键词】搜索引擎/评价/研究方法/综述Search

engines/Evaluation/Research method/Overview

搜索引擎评价研究涉及很多学科,如计算机科学、图书情报科学、统计学、认知科学、电子通讯、机械工程、自动化和控制系统等。ISI Web of Science 数据中搜索引擎评价研究涉及的学科及其分支学科有236个之多(检索时间:2010年10月9日),可见搜索引擎评价研究具有很强的跨学科性质,因而搜索引擎评价的研究方法也不免具有跨学科的特点。Louise提到搜索引擎评价研究方法之一的自然观察法(Naturalistic Studies)[1]被心理学家、行为学家和社会学家采用,用来观察其研究对象的自然习惯。Orland总结的纵向研究法(Longitudinal Studies)[2],被普遍应用于医学观察,常用于观察某一疾病出现的征兆和症状。还有一些其他的方法被应用于各个领域的研究和实践之中,这些研究方法可以很好地与搜索引擎评价研究相结合,不断充实该领域的研究,也逐步加强搜索引擎评价研究的严谨性和科学性。

1 搜索引擎评价研究方法

Louise归纳出搜索引擎评价的研究方法有评论法(Review)、试验法(Experiments)、自然观察法(Naturalistic Studies)、调查法(Survey)等。Orland综合了可视化检索系统的评价方法:观察法(Inspection Methods)、实验室研究法(Laboratory Studies)、现场实验法(Field Trials)、纵向研究法(Longitudinal Studies)以及系统和日志分析法(Instrumentation and Log Analysis)等。国内的研究人员也对搜索引擎评价方法进行了归纳总结,如比较分析法和测试实验法[3],如以描述为主的搜索引擎评价方式,以查询结果的命中个数作为评价标准等[4]。

综合国内外关于搜索引擎评价研究,笔者将搜索引擎评价研究方法分为以下几种。

1.1实验方法

实验方法越来越多地被应用于搜索引擎评价的研究,研究人员根据其研究课题,力图探明现象与结果之间的关系。在实验中,研究者首先要提出有关研究目的的问题或假设,并定义变量与自变量,从实验中获取相关数据,通过数据分析来给出问题的答案或论证假设是否成立。实验方法有较强的可控性和操作性,其可控性体现为对实验中变量和自变量的定义以及数据采集的标准和数据量的大小等方面。操作性则体现为研究人员按照科学的实验方法,结合研究课题本身的需求,对实验步骤进行科学合理的设计,规范数据采集的标准并依此标准收集和采集数据,并应用科学的工具对采集的数据进行分析。

Jansen等在搜索引擎检索电子商务信息的性能评价研究中提出了3个假设,分别定义了变量和自变量,通过检索实例收集了相关数据,并应用方差分析法、Tukey's HSD检验以及回归分析法等分析了实验数据[5]。通过实验研究表明,相较于全文检索,基于概念的检索能显著提升检准率,越多的语义因素加入检索式中,检准率就越高[6]。搜索引擎评价研究越来越重视实验方法,也越来越多地采取实验的研究方法。如研究用户个性对信息检索系统心理模型的影响的评价研究[7],PageRank检索学术信息能力的评价研究[8],语言及检索任务对相关性评价的影响研究[9],网页是否含有元数据对网页被搜索引擎检索的影响研究[10],用户在强化主题词检索环境下检索式扩张行为的研究等[11]。

实验方法极大地促进了搜索引擎评价研究的发展,研究人员针对搜索引擎的

各个方面展开评价研究,并取得了一系列的成果。实验方法具有较强的针对性、可控性和操作性,不过这也从某种程度上说明实验方法具有一定的主观性,在实验设计、标准制定、数据采集等步骤中难免融入了研究人员的主观因素,这或多或少会对搜索引擎评价的客观性造成影响。因此,用实验的方法进行搜索引擎评价研究需要尽量减少实验过程中的主观性因素,这就对实验设计、标准制定以及数据采集等各方面提出了更高的要求。

1.2调查方法

在搜索引擎的评价研究中,研究人员会针对利用搜索引擎的行为用户进行调研,包括用户的背景,如性别、职业、学历等,用户选择搜索引擎的原因,如用户惯性、搜索引擎性能、搜索引擎口碑等,用户利用搜索引擎的行为,如检索词的选择、检索式的构造、检索时间的长短、对检索结果的处理等。这些信息对搜索引擎的评价研究具有重要的意义,其数据直接反映了用户利用搜索引擎的各方面信息,很具参考价值,对搜索引擎的设计和优化研究尤为重要。调查方法首先要设计切实可行的调查问卷,保证问卷的逻辑性,必须围绕研究问题进行有针对性的设计。

Amanda等对Excite搜索引擎的用户特征与检索行为之间的关系进行了研究,其数据收集主要包括用户背景、检索主题、检索词和检索式、连续检索行为等。研究结果显示大多数用户的检索式比较简短,很多用户的检索行为具有持续性,并依次递进,但是搜索引擎在其检索策略的透明度方面还显得不够[12]。Kruschwitz和Al-Bakour研究了用户对搜索引擎检索帮助系统的要求,并对基于任务的检索结果进行了评价。在研究中,作者根据TREC-9交互轨迹(Interact Track)的调查问卷设计了针对其研究目的的调查问卷,包括输入(Entry)、后检

索(Postsearch)、后系统(Postsystem)和输出(Exit)4个分问卷。结合问卷数据和检索任务的数据分析,研究结果显示,相比于标准的搜索引擎只提供排序的检索结果,用户更倾向于利用提供检索式修正的搜索引擎,即使在某些方面这些搜索引擎并没有那些标准的搜索引擎做得更好[13]。由于调查方法能客观反映用户利用搜索引擎的行为习惯和特点,从数据中可以分析获知当前搜索引擎的流行度、检索性能的满意度、用户的检索行为等,所以一直深受研究人员的青睐。如针对用户利用搜索引擎经验的调查,结果显示检索经验对用户选择搜索引擎具有重要影响,而且关键词搜索引擎比目录式搜索引擎更受欢迎等[14]。对全球搜索引擎利用情况的调查,发现搜索引擎的使用具有很强的政治、文化和地域色彩。而且,相比于其他因素,搜索引擎的结果、检准率、检全率和可靠性对用户而言更为重要[15]。还有对搜索引擎检索式翻译功能效果的调查研究[16],结果描述对相关性影响的研究[17],用户的品牌意识对其利用搜索引擎的影响等[18]。

通过以上研究实例不难看出,搜索引擎评价研究采用调查的方法多是从用户角度来分析搜索引擎的使用情况,从客观上展示了当前用户利用搜索引擎的情况,如不同性别、年龄、职业、学历的用户群使用搜索引擎的行为特征,搜索引擎的满意度,不同类型搜索引擎的用户群,搜索引擎功能的实际性能等。在搜索引擎评价研究的过程中需要注意的是,用户的行为特征固然具有很大的参考价值,但不能过分倚重用户的经验。因为用户的经验反映的是用户利用搜索引擎的习惯,并不能完全说明搜索引擎发展的趋势。一些研究表明,用户利用搜索引擎的行为和检索策略还略显简单,有关机构和单位需要对用户利用搜索引擎进行必要的培训和采取积极的引导[19-21]。

1.3数据分析法

数据分析是指收集、处理和转化数据的一个过程,以突出效用信息、提出结论并支持决策。数据分析具有多方面、多途径和多技术的特点,在商业、自然科学和社会科学等领域有不同的术语表达方式。如数据挖掘就是典型的数据分析方法,通过建模和知识发掘来发现规律和实现预测,而不仅仅对信息和数据进行描述。

相较于实验方法和调查方法,数据分析方法的数据来源要略显快捷,不用设计实验步骤和调查问卷,而是从公开的渠道获取有关搜索引擎的数据和信息进行分析研究。其主要数据和信息来源于有关搜索引擎研究的信息机构、有搜索引擎的网站以及专业搜索引擎网站,Internet Usage World

Stats(https://www.sodocs.net/doc/ad13242900.html,)、Pew(https://www.sodocs.net/doc/ad13242900.html,/)、中国互联网络中心(https://www.sodocs.net/doc/ad13242900.html,)、iResearch公司

(https://www.sodocs.net/doc/ad13242900.html,)、Search Engine

Watch(https://www.sodocs.net/doc/ad13242900.html,)等机构会不定期公布有关搜索引擎的统计数据,如中国互联网络中心发布的《2008年中国搜索引擎市场广告主调查报告》以及《2008年中国搜索引擎用户行为研究报告》等。一些具有搜索引擎功能的热门网站,其搜索数据也是进行搜索引擎评价的研究人员较为关注的,如BBC网站的搜索日志[22],美国犹他州政府网站的检索日志等[23]。不少专业搜索引擎网站也会不定期公布其日志,如Excite、Altavista、Alltheweb、搜狗、天网等。

搜索引擎研究机构公布的数据多为描述性的信息,对其数据进行深度分析的意义不大。数据分析方法在搜索引擎评价研究中的应用,主要还是对搜索日志中海量信息的析取和提炼。如Martin Whittle等对Excitel天中的1025910个检索式进行分析研究,并从日志的研究分析中获知用户的检索习惯[24]。Bernard

J.Jansen等分析了元搜索引擎https://www.sodocs.net/doc/ad13242900.html,的检索日志,对2005年5月6日534507名用户的2465145次检索行为进行了研究,从中分析了用户的检索式长短和检索时间的长短等[25]。David Nicholas等对Blackwell网站500000条用户检索记录、OhioLlNK的2250000条用户记录以及Oxford Scholarship Online(OSO)的4240条用户记录进行了分析,对在数字环境下学生查询信息的行为进行了研究,比较分析了学生群体与其他学术团体查询信息的行为特征[26]。

数据分析法主要应用在对大数据和大信息量的用户检索日志的解析,从中发掘用户利用搜索引擎的行为习惯等有价值信息,据此对搜索引擎的设计、改进和完善提出积极的策略,并对用户利用搜索引擎的行为缺陷提出修补建议。研究人员或编写程序对数据进行分析,或利用科学的统计软件(如SPSS、SAS等)从数据中发掘规律性的信息。与实验方法和调查法相比,数据分析更为客观。各检索系统和搜索引擎网站的检索日志直接来源于用户真实的信息检索行为,并且这些数据以海量呈现,所以通过数据分析得出的结论能较为客观地反映出用户的行为特征和搜索引擎的性能。

1.4观察法

观察法是指研究人员观察用户利用搜索引擎这一现象,借助一定的技术手段记录用户检索行为和搜索引擎工作状况。在观察的过程中,研究人员只记录相关的数据和信息,并不进行人工干预。研究人员应用观察法进行搜索引擎评价研究时会根据其预设的问题,挑选合适的观察对象,分配一定的检索任务。在观察对象利用搜索引擎完成检索任务的过程中,研究人员直接观察或者用电脑屏幕视频软件记录观察对象的检索行为。通过观察,研究人员能直观地了解观察对象的行为特征,如检索式的构造、检索策略的选择、点击结果数量、查询页数、检索过

程中不同阶段的检索效率等。

一些研究人员通过观察研究性别与检索行为之间的关系,如Large等通过观察学生的检索行为发现,男生和女生在使用搜索引擎时具有明显的区别,男生使用较少的检索词,浏览单个结果页面的时间要短,单位时间内点击的网页数量要多,男生的检索行为表现得更为积极[27]。Roy和Chi根据检索结果的反馈,发现男生倾向于选择与女生不同的检索模式,但检索模式对检索结果的选择没有决定性的影响[28]。Lori Lorigo等观察发现,性别对检索模式和检索结果的选择具有明显的影响,女性会查阅更多的结果文摘[29]。还有对特定人群的检索行为的研究,如Ian Rowlands等对所谓Google一代(Google Generation,1993以后出生的人群)的信息获取行为进行研究,结果显示现代通讯技术的作用被夸大了,这些技术并不能有效地提升信息检索、获取和评价的能力[30]。Andrey等对儿童使用搜索引擎行为的观察研究,研究人员给15名儿童分配了检索任务,观察其检索行为,结果显示检索经历、指导、适应虚拟环境能力等对其检索效率具有明显的影响[31]。还有其他的一些搜索引擎评价研究通过观察法来实施[32-34]。

与实验方法相比,观察法获取的数据量可能不大,但是实验方法只能获取用户的检索判断及其产生的检索结果,不能通过检索过程获知用户如何做出检索判断。观察法不仅可以分析检索结果,更为重要的是可以通过观察和记录对象的检索行为,对搜索引擎的检索性能进行定性研究。但是使用观察法的不足之处表现为搜索引擎的选取、观察对象的选取和检索任务的分配都受研究人员的主观想法的影响。同时,研究人员在观察记录的时候,虽然记录的是客观现象,但在记录的过程中难免会有主观判断和选择。上述这些因素都会影响到评价研究的客观性。因此如何尽量客观地实施实验和记录观察到的现象,减少人为因素的干扰,

是在应用观察法时需要特别注意的。

1.5综述和评论

综述和评论也是搜索引擎评价研究中常用的方法,专门的综述和评论,其目的在于理清某一阶段搜索引擎评价研究某一方面的状况,揭示研究的不足并总结出发展的趋势。如Konstantina对网络信息检索行为的研究进行了总结,认为要从用户利用搜索引擎的各个方面进行整体研究,要充分考虑用户的经历、信息需求、个性、社会以及文化背景等[35]。Manoj和Elizabeth概述了各种元搜索引擎的功能、工作机制、数量增长、演进和普及程度等方面的研究现[36]。秦喜艳、陆伟等对搜索引擎检索结果相关性的研究成果进行了比较分析,包括相关性的判断、检索系统的评价指标、评价方法等[37]。还有对外国搜索引擎检索结果研究的综述[38],元搜索引擎研究综述[39],元搜索引擎排序技术研究综述等[40]。与专题研究相结合的综述和评价研究,其目的与专门的综述和评价研究相异,一方面在于为研究人员的专题研究提供参考资料,另一方面也阐述了进行研究的必要性和可行性。此类综述和评论常见于期刊和会议论文中的相关章节,如文献评述(literature review)、相关研究(related studies/research)、相关论著(related work)、前人研究(previous research)等。综述和评论是搜索引擎评价研究必不可少的研究环节。研究人员只有认识和熟知了研究现状,包括科学的研究方法、已有的研究成果等,并充分认识到研究的不足之处后,才能进一步开展相关研究。

2 结论

搜索引擎研究的评价方法并非单独存在,而是被综合应用。综述是研究的基

础,实验、调查和观察等方法开展研究的保障,科学的数据分析方法和谨慎的论证则是提高研究质量的保证。比照中外研究,国内搜索引擎评价研究的方法较为单一,多为描述性评价,缺乏数据的支撑和科学的分析论证。因此,本文的目的也旨在通过对研究方法的总结和归纳来促进我国搜索引擎评价研究的科学化发展。

【参考文献】

[1]Su, L.T.A Comprehensive and Systematic Model of User Evaluation of Web Search Engines: I. Theory and Background [J]. Journal of the American Society for Information Science and Technology, 2008,(13):1175- 1192.

[2]Orland Hoeber. User Evaluation Methods for Visual Web Search Interfaces. Proceedings of the 2009 13th International Conference Information Visualisation, 2009: 139-145.

[3]陈海龙.搜索引擎的评价标准及其方法研究[J].情报杂志,

2001,(9):50-51.

[4]赵华.一种搜索引擎性能的简便评价方法和案例[J].图书馆理论与实践,2005,(6):114-115.

[5]Bernard J. Jansen, Paulo R. Molina. The Effectiveness of Web Search Engines for Retrieving Relevant Ecommerce links [J]. Information

Processing and Management, 2006, (4):1075-1098.

[6]Moskovitch R, Martins SB, Behiri E, Weiss A, Shahar Y. A Comparative Evaluation of Full-text, Concept-based, and

Context-sensitive Search [J]. Journal of the American Medical Informatics Association, 2007, (2): 164-174.

[7]Zhang, X. M, Chignell, M. Assessment of the Effects of User Characteristics on Mental Models of Information Retrieval Systems[J]. Journal of the American Society for Information Science and Technology,2001,(6):445-459.

[8]Mike Thelwall. Can Google's PageRank be Used to Find the most Important Academic Web Pages? [J]. Journal of Documentation,

2003,(2):205-217.

[9]Preben Hanse, Jussi Karlgren. Effects of Foreign Language and Task Scenario on Relevance Assessment [J]. Journal of Documentation,200, (5): 623-639.

[10]Zhang, J., Dimitroff, A. The Impact of Metadata Implementation on Webpage Visibility in Search Engine Results (Part Ⅱ)[J]. Information Processing and Management, 2005, (3): 691-715.

[11]Shift, A., Rede, Crawfont. Query Expansion Behavior within a

Thesaurus-Enhanced Search Environment: A User-Centered Evaluation [J]. Journal of the American Society for Information Science and Technology, 2006,(4):462-478.

[12]Spink, A., Bateman, J. and Jansen, B.J. Searching the Web: Survey of Excite Users [J]. Internet Research: Electronic Networking Applications and Policy, 1999, (2): 117-128.

[13]Kruschwitz, U., Al-Bakour, H. Users Want More Sophisticated Search Assistants: Results of a Task- Based Evaluation [J]. Journal of the American Society for the Information Science and Technology, 2005,(13):1377-1393.

[14]Liaw, S., Huang, H.M. Information Retrieval from the World Wide Web: a User-focused Approach based on Individual Experience with Search Engines [J]. Computers in Human Behavior, 2006,(3):501-517.

[15]Dudek, D., Mastora, A., Landoni, M. Is Google the answer? A Study into Usability of Search Engines [J]. Library Review, 2006,(3): 224-233.

[16]Airio, E. Who Benefits from CLIR in Web Retrieval? [J]. Journal of Documentation, 2008, (5): 760-778.

[17]Lewandowski, D. The Retrieval Effectiveness of Web Search Engines: Considering Results Descriptions [J]. Journal of Documentation, 2008, (6):

915-937.

[18]Jansen, B.J., Zhang, M.M., Zhang, Y. The Effect of Brand Awareness of the Evaluation of Search Engine Results. CHI'07 Extended Abstracts on Human Factors in Computing Systems, 2007: 2471-2476.

[19]Kleinberg, J. (1999). Hubs, authorities and communities. ACM Computing Surveys, 31 (4) [EB]. http://www.cs.

https://www.sodocs.net/doc/ad13242900.html,/memex/ACM_HypertextTesthed/papers/10.html, 2010-10-09.

[20]Bilal, D. Children's Use of the Yahooligans! Web Search Engine. Ⅲ. Cognitive and Physical Behaviors on Fully Self-Generated Search Tasks [J]. Journal of American Society for Information Science and Technology, 2002, (13): 1170-1183.

[21]Al-Ansari, H. Internet use by the faculty members of Kuwait University [J]. The Electronic Library, 2006, (6):791-803.

[22]Huntington, P., Nicholas, D., Jamali, H.R. Employing Log Metrics to Evaluate Search Behavior and Success: Case Study BBC Search Engine [J]. Journal of Information Science, 2007,(5):584-597.

[23]Chau, M., Fang, X., Sheng, O.R.L. Analysis of the Query Logs of

a We

b Site Search Engine [J]. Journal of the American Society for Information Science and Technology, 2005, (3):1363-1376.

[24]Whittle, M., Englestone, B., Ford, N., Gillet, V.J., Madden, A. Data Mining of Search Engine Logs [J]. Journal of the American Society for Information Science and Technology, 2007,(14): 2382-2400.

[25]Jansen, B.J., Spink, A., Blakely, C., Keshman, S. Defining a Session on Web Search Engines [J]. Journal of the American Society for Information Science and Technology, 2007,(6):862-871.

[26]Nicholas, D., Huntington, P., etc. Student Digital

Information-seeking Behavior in Context [J]. Journal of Documentation, 2009,(1):106-132.

[27]Large, A., Beheshti, J., Bahman, T. Gender Differences in Collaborative Web Searching Behavior: an Elementary School

Study[J].Information Processing and Management, 2002, (3):427-443.

[28]Roy, M., Chi, M.T.H. Gender Differences in Patterns of Searching the Web [J]. Journal of Educational Computing Research, 2003,(3):335-348.

[29]Lorigo, L., Pan, B., Hernbrooke, H., Joachims, T., Granka, L., & Gay, G. The Influence of Task and Gender on Search and Evaluation Behavior Using Google [J]. Information Processing and Management, 2006, (4): 1123-1131.

[30]Rowlands, I., Nicholas, D., Williams, P., etc. The Google Generation: the Information Behaviour of the Researcher of the Future[J]. Aslib Proceedings: New Information Perspectives, 2008, (4):290-310.

[31]Madden, A.D., Ford, N.J., Miller, D., levy, P. Children's Use of the In ternet for Information-seeking [J]. Journal of Documentation, 2006,(6):744-761.

[32]Spink, A. and Ozmutlu, H.C. Characteristics of Question Format Web Queries: an Exploratory Study [J]. Information Processing Management, 2002,(4):453-71.

[33]Spink, A., Xu, J.L. Selected Results from a Large Study of Web Searching: the Excite Study. Information Research, 2000,(1)[EB]. http://Information R. net/ir/6-1/paper90.html, 2010-10-09.

[34]Broder, A. A taxonomy of web search. ACM SIGIR Forum, 2002,(2) [EB]. www. acm. org/sigir/forum/F2002/broder.pdf, 2010-10-09.

[35]Martzoukou, K. A Review of Web Information Seeking Research: Considerations of Method and Foci of Interest. Information Research,2005, (2) [EB]. http: //https://www.sodocs.net/doc/ad13242900.html,/ir/10-2/infres102.html, 2010-10-09.

[36]Manoj M., Jacob, E. Information Retrieval an Internet Using Meta-search Engines: A Review [J]. Journal of Scientific and Industrial

Research, 2008,(10):739-746.

[37]秦喜艳,陆伟,姜捷璞.信息检索中的相关性判断和系统评价述评[J].

图书情报知识,2009,(7):89-94.

[38]曹超.2002-2007年国外对搜索引擎检索结果研究综述[J].图书情报知识,2009,(1):90-96.

[39]吴小兰,汪琪.元搜索引擎研究综述[J].图书情报工作,2009,(5):46-49.

[40]曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009,(2):411-414.

中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展 夏旭李健康 (第一军医大学图书馆广州510515) 摘要: 以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。 关键词:搜索引擎研究进展综述信息资源管理 由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。 1 搜索引擎的定义、检索机制、检索规则和词表应用 1.1 定义 搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。 1.1.1 常规搜索引擎和元搜索引擎 自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.sodocs.net/doc/ad13242900.html,)能同时调用6个搜索引擎;Savvysearch (http://www. https://www.sodocs.net/doc/ad13242900.html,)可有选择地调用21个独立的搜索引擎,检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion (http://www. https://www.sodocs.net/doc/ad13242900.html,)最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。 1.1.2 集中式搜索引擎和分布式搜索引擎

综合评价方法综述与比较

综合评价方法综述与比较 综合评价的概念:所谓统计综合评价,通常就是指多指标综合评价技术,它是利用一定的统计指标体系,采用特定的评价模型和方法,对被评价对象多个方面的数量特征进行高度的抽象和综合,转化为综合评价值,进而确定现象的优劣、类型或对现象进行排序的一种统计方法。目前常用的方法有层次分析法、盗用函数法、多元统计综合评价技术法(包括主成分分析法、因子分析法、聚类分析法等)。此外像人工神经网络综合评价法、模糊综合评判法、灰色系统理论等新兴综合评价技术还在源源不断地涌现。 一简易的综合评价方法 (一),综合指数法 1,直接综合法概念:直接综合法是在确定一套合理的指标体系基础上,对各项指标个体指数进行相加,直接计算出综合评价指数。优点:公式简单易懂,指标数值计算简便。缺点:得到的数值比较粗糙,以此得到的数据进行评价结果精确度不高。 2,加权综合法概念:加权综合法是在确定一套合理的指标体系的基础上,对各项指标个体指数进行加权平均,计算出综合评价数值。优点:与直接综合法相比,加权综合法指标数值的计算考虑到了各指标的比重问题,将各指标赋予不同的权重,以体现不同指标的不同重要程度。缺点:各指标的重要程度的判断具有很大主观性。 (二) 功效系数法概念:功效系数综合评价法是指根据多目标规划的原理,把所要考核的各项指标按照多档次标准,通过功效函数转化为可以度量的评价分数,据以对被评价对象进行总体评价得分的一种方法。优点:方法简便和可操作性强是这种方法的优点所在。缺点:竞争力评价中,不同行业各指标的重要程度有所不同,而权数是由评判人员主观确定,因此科学性有所欠缺,往往评价结果与实际状况出入较大。 (三)综合积分法概念:综合积分法是对构成评价指标体系的每个指标评分,将所有得分相加算出总分,作为综合评价数值的一种评价方法。适用范围:适用于定量分析且变量指标可以用数字表达的评价分析。优点:此法操作简单,结果与、易于理解。缺点:对各指标变量的评分比较主观,没有客观精确地评分公式。 二运筹学中综合评分法 (一)层次分析法概念:AHP法(Analytic Hierarchy Process, AHP),即层次分析法,是美国著名运筹学家,匹兹堡大学萨蒂教授于本世纪七十年代创立的一种实用的多准则决策方法。它把一个复杂决策问题表示为一个有序的递阶层次结构,通过人们的比较判断,计算各种决策方案在不同准则及总准则之下的相对重要性量度,从而据之对决策方案的优劣进行排序。优点:1,系统性的分析方法;2,简洁实用的决策方法;3,所需定量数据信息较少;缺点:1,不能为决策提供新方案;2,定量数据较少,定性成分多,不易令人信服;3,指标过多时数据统计量大,且权重难以确定;4,特征值和特征向量的精确求法比较复杂; (二)模糊评价法概念:模糊评价法是根据模糊数学的隶属度理论把定性评价转化为定量评价的一种方法。优点:(1)为定性指标定量化提供了有效的方法,实现了定性和定量方法的集合。(2)在客观事物中,一些问题往往不是绝对的肯定或绝对的否定,涉及到模糊的因素,而且模糊综合判别评价法则很好的解决了判别的模糊和不确定的问题。(3)所得结果为一向量,即评语集在其论语上的子集,克服了传统数字学方法结果单一的缺陷,结果包含的信息丰富。缺点:(1)不能解决评价指标间相关造成的信息重复的问题。(2)各因素权重的确定带有一定的主观性。(3)在某些情况下,隶属函数的确定有一定困难,尤其是多目标评价模型,要对每一目标,每一个因素确定隶属函数,过于繁琐,实用性不强。应

搜索引擎优化方案

因为网站流量的不断增加,服务器多次出现被限制带宽的情况,在及时更换机房以及扩充服务器配置之后,网站的改版工作也接近尾声,针对新版的上线,对网站的优化列出这个方案的草拟稿,因为这个优化方案还涉及到公司内部一些优化技术所以不是原稿,但大部分内容还是都列出来的。天刃希望能把自己的优化经验全部提供给大家,同时也渴望和各大网站专业负责SEO的朋友交流沟通,所以在不危害公司利益的前提下把大家急需熟悉的门户网站优化细节提供给大家,希望能对大家有所帮助。 一、网站构架完善 超链接优化: 1. URL优化: 把网站的url优化成权重较高的url。(U全部使用静态URL,不要在URL中出现"?"、"="、"%",以及"&"、"$"等符号。不过我们的页面应该没有这个问题。) 2. 做好站内链接: 做好站内各类页面之间的相关链接,此条非常重要,这方面做好,可以在改版初期先利用网站的内部链接,为重要的关键词页面建立众多反向链接。(反向链接是网页和网页之间的,不是网站和网站之间的。所以网站内部页面之间相互的链接,也是相互的反向链接,对排名很有益的。) 3.URL目录要简化: 搜索引擎一般只有耐性会去抓取二到三层子目录下的文件,最多不会超过4层,除非是质量特别高的页面。 像这种的目录就不能再向下拓展了 导航结构优化: 导航结构的优化的原则不仅仅是要对用户友好,同时必须满足搜索引擎的抓取无障碍,如:服装招商,服装加盟,服装品牌,…..这一切都是对每个频道页的一次次加分。 搜索引擎会对这种一站内多次出现的链接给予充分重视,对PR值的提高有很大帮助,这也是每个网站首页的网页级别一般高于其它页面的原因,因为每个子页都对首页进行了链

第四代搜索引擎前沿综述

第四代搜索引擎前沿综述 刁轶夫3061401080 2010年5月 1.介绍 随着因特网的普及,网上信息的发展呈现两个基本的趋势:规模的爆炸性增长,覆盖领域的不断扩大。如何在海量,非结构化信息中,提取对用户有用的信息是信息时代的核心课题。搜索引擎正是通过对信息的自动搜集,索引,在用户发出请求时经过实时排序,为用户呈现其最有价值的信息。 由搜索引擎衍生而来的关键词广告产生了巨大的商业价值,并造就了谷歌、百度等互联网巨头。但同时,谷歌以pagerank为核心的第三代搜索引擎已经不能满足日益增长的需求,数据量的增长和数据覆盖范围的增加迫切呼唤第四代搜索引擎。 我认为,第四代搜索将把个性化信息及人际推荐关系叠加到链接分析上,大大改善搜索结果排序效果;同时,跨媒体搜索将实现诸如用图片搜索图片等功能,打通文字,图片,视频,声音的界限,颠覆现在全部基于关键字的搜索方法,为用户带来更加直观的搜索体验。 2.搜索引擎发展历史及趋势 2.1 搜索引擎发展历史 从Lycos和Yahoo的时代到现在,搜索引擎的发展已经经过了三代。Andrei[1]的文章中对前三代搜索引擎的特征做了描述: Google经过改进Pagerank和一系列技术,演化至第三代,而第四代搜索引擎有大量公司如Cuil,Quora探索,但还未形成成熟的产品。 下图援引自Google创始人论文[2],说明第二代,第三代搜索引擎的主要原理: 首先搜索引擎通过爬虫技术(Crawler),根据网页链接爬取互联网内容;然后建立倒排索引(Inverted Index);同时通过Pagerank技术,基于random walk的思想计算出每个网页的Pagerank。前面几步都是独立于用户查询进行的。当用户提交查询关键词后,搜索

搜索引擎在电子商务中的应用

搜索引擎在电子商务中的运用

搜索引擎在电子商务中的运用 摘要:20世纪互联网的出现和飞速发展,商务信息爆炸式的增长以及网络环境的日益复杂,搜索引擎作为信息检索的重要工具在网络经济中的作用变得越来越重要,搜索引擎与电子商务的结合是未来电子商务的发展趋势,因此本文以搜索引擎现状、面向电子商务的智能搜索引擎技术及在网络营销中的应用以及搜索引擎在今后的发展趋势做出简单的介绍. 关键词:电子商务;信息检索;搜索引擎;应用研究;发展趋势 一、对电子商务和搜索引擎的理解 从总体上来看,电子商务是指给整个贸易活动实现电子化。应用计算机与网络技术与现代信息化通信技术,按照一定标准,利用电子化工具来实现包括电子交易在内的商业交换和行政作业的商贸活动的全过程。 搜索引擎(SearchEngine):通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息——整理建立数据库——提供查询)我们就称之为“搜索引擎”。 1.2 搜索引擎在我国的发展现状 (8) 1.2.1我国搜索引擎的背景 (8) 1.2.2 搜索引擎的现状 (9) 1.3本文的研究内容 (10) 第一章搜索引擎的原理…………………………………………………………… 11 2.1搜索引擎的原理概述…………………………………………………………… 11 2.2搜索引擎的实现原理…………………………………………………………… 12

2.2.1从互联网上抓取网页……………………………………………………… 12 2.2.2建立索引数据库…………………………………………………………… 12 2.2.3在索引数据库中搜索……………………………………………………… 13 2.2.4对搜索结果进行处理排序………………………………………………… 13 1.2搜索引擎的现状 1.2.1 我国搜索引擎的背景 百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家(https://www.sodocs.net/doc/ad13242900.html,)技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢?CNNIC第十四次互联网调查显示,搜索以71.9%的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户一个网站一个网站一级目录一级目录下找,要耗费大量的精力和时间,几乎是不可能实现的任务。 1.2.2 搜索引擎的现状 随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量

(完整版)评价方法综述

评价方法综述 综合评价是指对以多属性体系结构描述的对象系统作出全局性、整体性的评价,即对评价对象的全体根据所给的条件,采用一定的方法给每个评价对象赋予一个评价值,再据此择优或排序。 常用的综合综合评价方法可以分为以下几大类: (1)定性评价方法,包括专家会议法、德尔菲法(Delphi法)。这类方法具有操作简单,可以利用专家的知识,结论易于使用的优点,但是主观比较强,多人评价是结论难收敛,适合于不能或难以量化的大系统,简单的小系统。 (2)技术经济分析方法,包括经济分析法和技术评价法,分别通过价值分析、成本效益分析、价值功能分析,采用NPV(Net Present value)、IRR(Internal Rate of Retum)等指标和通过可行性分析、可靠性评价等。该方法含义明确,可比性强,但是建立模型比较困难,只适用评价因素少的对象。 (3)多属性决策方法(Multi Attribute Decesion-makingMethod,简称DADM),这类方法通过化多为少、分层序列、直接求非劣解、重排次序法莱排序与评价,具有描述精确,可以处理多决策者、多指标、动态的对象的优点,但由于隶属刚性的评价,无法涉及模糊因素的对象。 (4)系统工程法,包括评分法、关联矩阵法和层次分析法(Analytic Hierarchy Proeess,简称AHP),前两者具有方法简单、容易操作的优点,但只能用于静态评价;AHP法的可靠度比较高,误差小,但评价对象的因素不能太多(通常不多于9个)。 (5)模糊数学方法,包括模糊综合评价、模糊积分、模糊模式识别等,能克服传统数学方法中的“唯一解”的弊端,根据不同可能性得出多个层次的问题解,但不能解决评价指标间相关造成的信息重复问题,隶属函数、模糊相关矩阵等的确定方法有待进一步研究。 (6)物元分析方法与可拓评价,可以解决评价对象的指标存在不相容性和可变性的问题。 (7)统计分析方法,包括主成分分析、因子分析、聚类分析和判别分析等,具有全面性、可比性、客观合理的优点,但都需要大量的统计数据,没有反映客观发展水平。

全文搜索引擎的设计与实现(文献综述)

全文搜索引擎的设计与实现 前言 面对海量的数字化信息,搜索引擎技术帮助我们在其中发现有价值的信息与资源。我们可以通过google、百度这样的搜索引擎服务提供商帮助我们在Internet上搜索我们需要的信息。但是在一些没有或不便于连入Internet的内部网络或者是拥有海量数据存储的主机,想要通过搜索来发现有价值的信息和资源却不太容易。所以开发一个小型全文搜索引擎,实现以上两种情况下的信息高效检索是十分有必要的。本设计着眼于全文搜索引擎的设计与实现,利用Java ee结合Struts,Spring,Hibernates以及Ajax等框架技术,实现基于apache软件基金会开源搜索引擎框架Lucene下的一个全文搜索引擎。 正文 搜索引擎技术起源1990年,蒙特利尔大学学生Alan Emtage、Peter Deutsch和Bill Wheelan出于个人兴趣,发明了用于检索、查询分布在各个FTP主机中的文件Archie,当时他们的目的仅仅是为了在查询文件时的方便,他们未曾预料到他们的这一创造会成就日后互联网最的广阔市场,他们发明的小程序将进化成网络时代不可或缺的工具——搜索引擎。1991年,在美国CERFnet、PSInet及Alternet网络组成了CIEA (商用Internet 协会)宣布用户可以把它们的Internet子网用于商业用途,开始了Internet商业化的序幕。商业化意味着互联网技术不再为科研和军事领域独享,商业化意味着有更多人可以接触互联网,商业化更意味着潜在的市场和巨大的商机。1994年,Michael Mauldin推出了最早的现代意义上的搜索引擎Lycos,互联网进入了搜索技术的应用和搜索引擎快速发展时期。以上是国际互联网和搜索引擎发展历史上的几个重要日子。互联网从出现至今不过15年左右时间,搜索引擎商业化运作也就10年左右。就在这短短的10年时间里,互联网发生了翻天覆地的变化,呈爆炸性增长。于此同时也成就了google、百度这样的互联网巨头。今天,当我们想要在这片广阔的信息海洋中及时获得想要查找的信息时,已经离不开搜索引擎了。 相关技术

百度搜索点击模型简介

百度搜索点击模型简介 用户的搜索点击模型(Click Model)其实是一个非常大的话题,涉及到用户查询满意度的建模和分析。 百度真实网页权重里有一个satisfyScore(满意度打分),所以搜索点击行为不仅是提升点击权重,连带提高满意度权重。 在今天的搜索引擎技术中,通过Click Model 衍生出了众多的功能,包括搜索满意度的自动监控、搜索结果的自动调权调序等。 这里提到了搜索点击模型会自动改变排名。 而这些技术的出发点都是User Behavior(用户行为)数据。 在Session 信息(a search session 一次搜索周期信息)里,用户的点击行为往往能提供丰富的信息: 百度网页搜索一次完整的搜索周期包含大量信息,有查询词,搜索结果的标签,标题,链接,高度、宽度,模版,排名,数据策略ID,点击校验参数,时间戳,官网认证标识,何种搜索结果,随机样本ID,查询ID,付费名,是否百度首页,是否登录百度账号,搜索形式,搜索框位置,字符编码,输入耗时等几十项信息。 1.在搜索结果从上至下被用户浏览的过程中,当被点击的结果中间出现了跳跃,例如 Query1(第1次搜索)对应的自然排序结果是Result1(第1个结果), Result2(第2个结果), Result3(第3个结果)…,但是如果大量用户的点击是Result1, Result3, 则Result2 的相关性可能存在问题;意思是点击第1、3个结果,不但可以提升第1、3个结果的权重,还可以降低第2个结果的权重。所以对付竞争对手快速点击一个办法是大量点击其他结果。 2.另外一种情况是,如果同一个Query 产生了一次点击后,间隔一段时间后再次出现 了对后面结果的点击,则也许说明了之前结果的满足度不够高。 3.一种在搜索结果页降低竞争对手满意度权重的方式,先点击对方的结果,隔段时间 再点自己网站的结果。 4.在同一个Session 里,用户发生主动Query 变换(或称为Query Re-write)也往往能 说明问题,前面的Query 如果搜索结果质量不高,则很多用户会选择修改查询词,此时前面被点击的Title(搜索结果标题)重要程度往往不如后续的Title,等等各类场景很丰富。 5.另一种一石二鸟的办法是先搜索一个竞争对手排名好的关键词,点了之后,更换另 一个自己网站的相关词点击,亦可降低对方网站的满意度。 以上各类的Click Model 思想虽然在实际线上系统中被广泛运用,但竞赛中没有提供更详细的信息,包括点击结果在搜索中的排序(对于分析点击模型至关重要)、点击发生的时间、点击停留间隔、用户的Cookieid/Userid(暂存用户信息ID/用户ID)等,限制了

搜索引擎的现状和发展趋势

期末课程论文 论文标题:搜索引擎的现状与发展趋势 课程名称:信息检索技术 课程编号:1220500 学生姓名:潘飞达 学生学号:1100310120 所在学院:计算机科学与工程学院 学习专业:计算机科学与技术 课程教师:王冲 2013年7月1 日

【摘要】 搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。 【关键词】 发展过程、发展趋势、检索技巧、个性化、智能化 1 搜索引擎简介 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 其工作作原理分为抓取网页,处理网页和提供检索服务。 抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。 搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。 系统结构图 2搜索引擎的工作原理 第一步:爬行 搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛WWW 文档 网络机器人程序 建立Lucence 索引 从数据库中搜索信息 Tomcat 服务器 Lucence 索引数据库 WWW 浏览器 WWW 浏览器 JSP 网络机器人程序

SEO搜索引擎优化常用方法

SEO搜索引擎优化常用方法 作者:葬爱来源:https://www.sodocs.net/doc/ad13242900.html, 时间:2012-8-12 最近听很多人说,seo也就是那么一会儿事,每天发发外链,写写文章也就够了。但是今天我想说的是,seo技术并不是简单。大局观的优化方略才是最重要的。 网站结构、关键词布局、代码精简、日志分析等等,当然外链和原创内容页绝对必不可少的。 下面具体分享一下一些做优化的一些常见的二部曲。 一、分析竞争对手 1.分析你的竞争对手为什么排在你前面或者后面。如果在你前面,分析他比你多做了哪些东西,如果你没有就赶紧补上。同时分析竞争对手网站的缺憾,你同时进行弥补。这是常见的做法。 2.采用有特色的推广方法。比如适当的做一做jingjia也是有利于优化的。同时一些心思维,如利用起网站用户对网站的推广。这样才是最有效的。用户上去了,优化液自然会上去。 二、弥补自身的优化不足 自己的网站必须要最好,才是根本,如果竞争对手的网站排在你后面,那更要注意了。一旦放松,就是别人的机会。下面笔者分享一下自身优化的一些东西。 1.分析关键词。我相信,很多人都是先选关键词,再做站。整个站都围绕这个关键词,那么排名自然会好一点。同时关键词

应该与网站的内容相关,不要选择不相关的。关键词使用的时候也要注意英文逗号或者下划线的隔开。 2.生成静态。学了一段四件后,看到很多人说生成静态和动态都差不多。理由是搜索引擎不断进步,已经可以抓取动态内容。同时不论是对于百度还是对于google来说,我相信不会弱智到是动态的就不收录。很多厉害的网站都是动态的,但也很不错。但是百度给出的优化指南明确说明了最好网站静态化,可见百度其实也希望站长们将自己的网站静态化。或许百度这个问题没有彻底解决。同时,一个纯HTML页面绝对比动态页面打开速度快。用户体验上来说,也是好的。 3.div+css。同样,table书写的网站百度收录照样也快。但我个人趋向于div,为什么?因为这样更快,理由就同二了。但是div不要太多层的嵌套,目前百度的技术还不足以抓取嵌套次数太多的内容。 4.注意Meat标签。这个几乎是我现在看一个网站优化最先看的东西,虽说搜索引擎已经开始降低meta标签的影响,但是我觉得还是很重要。 5.打造好你的友链。这个主要就靠一些站长群了。你如果没有这些群,最起码要有一群拥有比较高权重的站长朋友。老站带新站,新站成长速度会快很多。建议大家要建立一些网站群,利用互相带动的方法,去推动你的网站发展。友链的重要性,不言而喻。同时友链也要注意甑别对自己网站的好坏。

浅谈搜索引擎的研究现状

科 技 天 地 38 INTELLIGENCE ························浅谈搜索引擎的研究现状 西安外事学院计算机中心 李艳红 摘 要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状,采用了 对比的方法对特色搜索引擎的进行了阐述,并详尽的指出了各种搜索引擎的现状、特点及发展趋势。 关键词:搜索引擎 爬虫 网页快照 搜索引擎(Search Engine)正是帮助人们从网上检索信息的重要工具,是为了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。 当用户通过Archie 检索文件时,所要进行的全部工作就是对该数据库进行检索。尽管Archie 还不是真正的搜索引擎,但工作原理与现在的搜索引擎己经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者查询。1994年初,Internet 上出现了包括Lycos 在内的第一批Web 搜索引擎。第二代搜索引擎以1998年出的Google 和Directhit 为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性” ,“这种根据用户忠诚度的评判方法更具备客观性,因而,用户所获得的信息也就更准确”。如Directhit 以被大多数用户访问的情况认定一个网站的重要性;Google 以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素,主要表现在以下三个方面: (1)能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语,进行精确查找。 (2)有判断地收集信息,根据众多网络用户行为特征来取舍信息。(3)人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。 此外,第二代的搜索引擎还有一个特点,他们只做后台技术,将技术提供给Yahoo 等门户网站。其中Google(https://www.sodocs.net/doc/ad13242900.html,)是表现最为突出的。Google 于1998年9月发布测试版,是目前人们使用最广泛的搜索引擎。 Google 现为全球80多家门户和终级网站提供支持。Google 的优势是易用性和返回结果的高相关性。Google 提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank 排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google 还提供一项很有用的服务:“网页快照”功能。 目前,新一代的搜索引擎也己经进入了研制阶段,其最大特点就是大量智能化信息处理的引入,网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题,这就要求搜索引擎不仅能识别TXT 文件,也要能够识别PPT, Word, PDF,电子邮件等文件;另一个特征是把P2P 技术应用到网页的检索中,这样通过共享所有硬盘上的文件,目录乃至整个硬盘,用户搜索时无需通过Web 服务器,不受信息文档格式的限制,即可达到把散落在互联网上的不相关的人们关心的知识搜集起来,经过筛选,组织和分析返回给用户所需的信息。 国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿,是全球最大的中文数据库。Baidu 搜索引擎的其它特色包括:网页快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,新闻搜索,Flash 搜索和信息快递搜索等。北大天 网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,有强大的搜索功能。除了WWW 主页检索外,天网还提供FTP 站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP 文件分为电影和动画片,MP3音乐,程序下载,文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击,查找自己需要的FTP 文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引,并采用百度搜索引擎技术,提供网站,网页,类目,新闻黄页,中文网址,软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库,提供网页,网站,新闻,地域,行业,MP3, Flash 等多种检索方式,具有互联网实时新闻搜索,高精度检索,分类查询,网站导航,企业与产品查询等功能。 目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,对于面向大量用户的商业搜索引擎是非常合理的,但是对于只面向某一类型的网络,如校园网的搜索引擎,这无疑需要大量的计算资源和存储空间,这往往是得不偿失的。因此,对于校园网内搜索引擎,需要设计一种对资源要求低,灵活机动的方法。 参考文献: [1] 刘建国:《搜索引擎概述》,北京大学计算机与科学技术,1999年。 [2] 李晓明、刘建国:《搜索引擎技术及趋势》,《大学图书馆学报》,2000年第16期。

多指标综合评价方法及权重系数的选择

多指标综合评价方法及权重系数的选择 来源:中国论文下载中心 [ 09-02-01 10:17:00 ] 编辑:studa20 作者:王晖,陈丽,陈垦,薛漫清,梁庆 【摘要】由于计算机的发展及一些相关领域的不断深入研究,综合评价方法得到了不断的发展和改进。而指标权重系数的确定方法作为综合评价中的重中之重,近几年来也取得了一些新的进展。本文对多指标评价方法和权重系数的选择进行概括介绍。 【关键词】多指标综合评价;评价方法;权重系数;选择 基金项目:广东药学院引进人才科研启动基金资助项目( 2005ZYX12)、广州市科技计划项目( 2007J1-C0281)、广东省科技计划项目(2007A060305006) 综合评价是利用数学方法(包括数理统计方法)对一个复杂系统的多个指标信息进行加工和提炼,以求得其优劣等级的一种评价方法。本文就近年来国内外有关多指标综合评价及权重系数选择的方法进行综述,以期为药理学多指标的研究提供一些方法学的资料。 1 多指标综合评价方法 1.1 层次分析加权法(AHP法)[1] AHP法是将评价目标分为若干层次和若干指标,依照不同权重进行综合评价的方法。 根据分析系统中各因素之间的关系,确定层次结构,建立目标树图→ 建立两两比较的判断矩阵→ 确定相对权重→ 计算子目标权重→ 检验权重的一致性→ 计算各指标的组 合权重→计算综合指数和排序。 该法通过建立目标树,可计算出合理的组合权重,最终得出综合指数,使评价直观可靠。采用三标度(-1,0,1)矩阵的方法对常规的层次分析加权法进行改进,通过相应两两指标的比较,建立比较矩阵,计算最优传递矩阵,确定一致矩阵(即判断矩阵)。该方法自然满足一致性要求,不需要进行一致性检验,与其它标度相比具有良好的判断传递性和标度值的合理性;其所需判断信息简单、直观,作出的判断精确,有利于决策者在两两比较判断中提高准确性[2]。 1.2 相对差距和法[3] 设有m项被评价对象,有n个评价指标,则评价对象的指标数据库为 Kj=(K1j,K2j,……,Knj),j=1,2,……,m。设最优数据为K0=(K1、K2、……Kn)。最优单位K0中各数据的确定如下:高优指标,取所有m个单位中该项评价指标最大者;低优指标,取所有m个单位中该项评价指标最小者。各单位与最优单位的加权相对差距和

搜索引擎优化的概念和方式

搜索引擎优化的概念和方式 说到搜索引擎优化(Search Engine Optimization,简称SEO),就不得不提到搜索引擎营销(SEM),SEM是一种通过搜索引擎来对网站进行推广的营销方式,而搜索引擎优化(SEO)就是其中的一种,其他方式还包括搜索引擎的竞价排名广告等。由于SEO是通过技术方式来实现,无须付费进行推广,所以对于个人站长来说更实用。本文的重点,就是讲解SEO 的实现方式。 1.搜索引擎优化是什么 对网站进行搜索引擎优化,就是针对各种搜家引擎的检索方式和特点,通过修改网站的代码或者增加链接等方式,让网站符合搜索引擎的喜好,从而提升网站在搜索引擎中的排名,或者提高网页在搜索引擎中的收录数量。而SEO的最终目的,就是为网站带来用户。 搜索引擎优化是目前网站推广最为快捷,也是最有效的方式。因为用户是通过搜索关键词到达你的网站,所以往往网站会很符合浏览者的需求。这类用户在网站策划中被称作目标群体。 正因为如此,SEO才受到了广大站长的欢迎。因为它不仅带来了浏览者,而且还是价值很高的日标访客。而且由十搜索引擎已然成为目前互联网的入口,大多数网站、甚至包括各类门户网站的绝大部分流量,都是通过搜索引擎得末的。 对于个人站长来说,SEO已经成为不可或缺的一项技能。因为它的实现成本很低:只需要学习相关的技术,而不需要投入大量的资金来推广网站。所以目前每个与站长有关的论坛社区,几乎都充斥着有关SEO的内容。 但是,SEO并不能仅仅考虑网站的排名,目前很多站长建站之后往往只向SEO“看齐”。在网站的建设过程中,更重要的应该是要为用户着想,SEO更多的是要让网站以用户体验为根本,目的是给用户提供更好的服务,而不仅仅是为了排名而优化网站。 2.什么是“黑帽SEO” 黑帽和白帽是两种SEO的称谓,由于SEO能带来巨大的流量,就有很大一部分从业者采用“黑帽”的优化方式来提高网站的排名,即用作弊等不光彩的手段进行网站的优化,包括大量的垃圾链接、桥页、关键词堆砌等方式,都可以称做黑帽SEO。诸如用软件程序从其他搜索引擎抓取大量搜索结果,将其制作成网页发布,然后在网页上放置广告获得收入,就是黑帽SEO,这种方式在很多年前很有“效果”,但是目前搜索引擎早己改变了算法,类似的方式效果也变得微乎其微。而且搜索引擎一直在改进算法,与黑幅SEO做“斗争”。 白帽SEO则与之相反,使用正确的方式针对网站进行SEO,按照用户体验来优化网站,就可以称作是白帽SEO。而这两种方式都可以带来网站排名提升的效果,往往黑帽SEO的效果更为快捷,危害性也更大。甚至会造成被搜索引擎“K掉”的后果。 3.“黑帽SEO”常用的作弊方式 网站的排名很大程度上由连接到网站的数量和质量决定,通常的连接方式是与同类型的网站交换友情链接。不过很多SEO不会使用这种效率低、见效慢的方法,而是在浏览其他网站的时候,留言的同时留下网址;论坛灌水回帖的时候,在自己的签名位置加上网站的连接…… 这些方法虽然也不错,不过很多黑帽SEO会采用软件群发的方式来获取连接。例如使用群发软件对成千上万的博客、留言本进行评论,同时留下自己要优化的网站地址。这种方式不仅造成很多垃圾信息,而且让被留言的博主不堪其扰。 还有一种通过博客作弊的方式,是使用博客群建软件,在各类BSP网站建立大量的博客,然后发表连接有自己网站地址的文章,通过这类连接来提高网站排名。 另外,黑帽SEO常用的另一种方法,是通过“链接工厂”获取大量的网站连接,链接

搜索引擎技术与发展综述

工程技术 Computer CD Software and Applications 2012年第14期 — 24 — 搜索引擎技术与发展综述 孙宏,李戴维,董旭阳,季泽旭 (中国电子科技集团第十五研究所信息技术应用系统部,北京 100083) 摘 要:随着信息技术的飞速发展和互联网的广泛普及,信息检索技术越来越受到重视。阐述了搜索引擎的产生与发展,并对搜索引擎的核心技术、评价指标和工作原理进行了深入研究。介绍了一些著名的搜索引擎。在此基础上,对搜索引擎的发展方向进行了预测。 关键词:信息技术;信息检索;搜索引擎 中图分类号:TP311.52 文献标识码:A 文章编号:1007-9599 (2012) 14-0024-03 一、引言 信息技术如今迅速发展,Internet 也得到了广泛的普及,网络上的信息量正在以指数趋势上升。其信息来源分布广泛,种类繁多。如果不能对信息进行有序化管理,用户将很难从如此海量的信息中提取出他们需要的信息。目前,搜索引擎已经成为人们获取信息的主要手段之一。搜索引擎就是在繁琐复杂的互联网信息中通过特定的检索策略,对信息进行搜索与分类,通过分析用户提交的请求,按照用户的要求和习惯进行组织,从而达到用户快速检索特定信息的目的。目前搜索引擎提供的搜索方式主要有整句、主题词、自由词等等,用以适应不同用户的需求。 二、搜索引擎的产生与发展 蒙特利尔大学的Alan Emtage 实现了最初的搜索引擎,称为Archie 引擎,Archie 引擎可以在特定的网络中进行相关的信息检索。由于其工作原理与现代搜索引擎非常接近,我们通常认为他 开创了现代搜索引擎领域。搜索引擎的发展大致经历过了三代: (1)第一代搜索引擎是1994年Michael Mauldin 将John Leavitt 的“网络爬虫”程序接入到其索引程序中的Lycos 。由于 结构和技术相对不成熟,它的搜索速度比较慢,更新速度也不能满足用户的检索要求。 (2)美国斯坦福大学的David Filo 和美籍华人杨致远合作开发成功了第二代搜索引擎,它创立了一些用户关心的目录,用户可以通过目录进行检索。 (3)Google 的正式推出标志着第三代搜索引擎的诞生。其集成了搜索、分类、多语言支持等功能,同时提供了摘要、排序、快照等功能,另外与强大的硬件系统配合,大大改变了互联网用户检索网络信息的方式。第三代搜索引擎主要结构如图-1所示。 查询接口的作用是用户进行交互,即提取用户的输入,并将检索结果返回。 检索器依据用户的需求,可以方便地索引库中查找相应的文档,按照相关度规则进行重排后返回。 索引器负责对文档建立索引,使文档以便于检索的方式重新组织。 分析器负责对收集器收集的信息进行分析和整理。 信息收集器的主要任务是对互联网上的各种信息进行收集,同时记录信息URL 地址(网络 爬虫完成这项工作)。 图1 搜索引擎结构图 三、搜索引擎的工作原理 搜索引擎不是搜索互联网,它搜索的是预先整理好的索引数据库;同样,搜索引擎也不能理解网页上的内容,它只能匹配网页上的文字。搜索引擎的工作流 程如图-2所示。 图2 搜索引擎的工作流程 搜索引擎的工作流程可主要分为四个步骤:通过网络爬虫(Spider )从互联网上根据相关算法(深度优先、广度优先)抓取网页,抓取网页后对网页中的信息进行加工,加工后将处理后的信息保存到索引数据库中。当用户在索引数据库中搜索查询相 关的信息资源时,搜索结果通过搜索引擎的处理后,对返回结果进行排序,展现给用户。即: (1)利用网络爬虫从互联网上抓取网页:利网络爬虫,按照某种搜索策略,沿着URL 链接爬到其他网页,重复这些过程,并把所有爬过的网页抓取回来。 (2)建立索引数据库:对爬取到的网页进行分析,提取相关关键信息,得到每一个网页针对页面中文字及链接中每一个关键词的重要性,屏蔽掉不重要的词语后,用信息建立网页索引数据库。 (3)处理用户的查询请求:系统接收到用户要查询的关键字后,调用检索器进行搜索,并将返回的结果进行相关度排序,最后按照优先度降序的方式存储在返回结果集合中。 (4)将查询结果返回给用户:搜索结果以网页的形式将结果集中的返回给用户。方便用户查看。 按照上面的步骤就可以简单的架构一个搜索引擎系统供用户使用。目前有很多开源的搜索引擎产品已经完成了上述相关内容,使用者只需要进行相应的配置就可以使用,大大的简化了搜索引擎的开发。目前,比较流行的开源搜索引擎有Nutch 、Solr 等等。 四、搜索引擎的核心技术 搜索引擎的核心技术包括索引技术和检索技术。 (一)索引技术 顺序查找,即通过线性匹配文本进行查找是一种不使用索引进行检索的例子。它无需对文档中的信息进行预处理。这种检索方式在文本较大时检索速度会变得非常慢,通常情况下不使用这种检索方式。

搜索引擎发展综述

搜索引擎发展综述 李锐lirui@https://www.sodocs.net/doc/ad13242900.html, (中科院计算技术研究所北京100080) 摘要:本文简述了搜索引擎的起源和发展,介绍了国内外的研究现状,对其分类、性能评测、关键技术等方面做了一定的讨论,在此基础上对其发展趋势作了大胆的预测。 关键词:搜索引擎;Web挖掘;信息检索 Internet自诞生以来不断成长,其内容不断丰富,整个网络逐渐堆积成一个前所未有的超大型信息库。Internet作为一个信息平台在人们的日常生活和工作中发挥着越来越重要的作用,人们越来越多地通过Internet获取信息。在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的" 信息丰富,知识贫乏"的奇怪现象。搜索引擎正是为了解决这个"迷航"问题而出现的技术。 搜索引擎(Search Engine简称SE)是一个信息处理系统,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,一般包括信息搜集、信息整理和用户查询三部分。从用户的角度来看,它就是一个帮助人们进行信息检索的工具。 1. 发展回眸 现代意义上的搜索引擎的祖先,是1990年由美国蒙特利尔大学的学生Alan Emtage等人发明的Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 真正意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,Stanford大学的两名博士生,David Filo和美籍华人杨致远(Jerry Y ang)共同创办了超级目录索引Y ahoo,并成功地使搜索引擎的概念深入人心,Y ahoo也被称为第一代搜索引擎。从此搜索引擎的发展也进入了黄金时代。1998年9月,同样是Stanford大学两位博士生Larry Page和Sergey Brin在风险投资公司的资助下,成功开发了新一代搜索引擎——Google。它具有比Y ahoo先前使用的技术更快、更准确搜索到所需信息的特点,被视为第二代搜索引擎的代表。现在Internet 上已有数千个能提供检索服务的站点,这些站点的搜索引擎在收录的范围、内容、检索方法上都各有不同,采用的技术也各具特色。比较著名的有Google,Y ahoo,AltaVista,Dogpile,百度等。目前,搜索引擎的研究、开发十分活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的产业之一。它要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。又由于搜索引擎有大量的用户,由此衍射出许多商机,具有很好的经济价值。根据iResearch艾瑞市场咨询《2003年中国搜索引擎研究报告》的研究数据显示,中国的搜索引擎市场2003年达到了5.2亿元人民币,比2002年的2.3亿一年增长了

相关主题