搜档网
当前位置:搜档网 › TRS全文检索参数

TRS全文检索参数

项目

具体参数全文检

索数据库1

★要求与地方志目前使用的网站内容管理系统同品牌,或能够进行无缝衔接;

★要求原厂服务,且必须原厂家在南宁当地有常驻技术人员,;投标时必须提供加盖公章的原厂服务承诺书;

16个并发Licenses版本

全文检索数据库系统用以搭建站内全文检索应用,及实现统一入口跨全站搜索的网站全文检索应用,具体要求如下:

系统技术要求

实现结构化和非结构化数据的统一检索,并全部字段都能建立索引,实现基于元数据(meta-data)和全文(full-text)的联合

查询。

支持多种数据源数据的全文索引。可自动将关系型数据库(如Oracle、SQL Server、MySQL、Sybase)中的数据导入全文数

据库,并自动保持同步更新,使用户在享有关系型数据库卓越

的数据处理功能的同时,拥有实时全文检索功能。

支持Text、HTML、XML、RTF、MS OFFICE文档(Word/Execl/Powerpoint)和PDF文件自动建立索引。

支持GB18030和UTF8大字符集, 便于对中文偏僻字和各国文字的支持。

词典管理:检索时能够让用户自行维护词典,包括同义词典、近义词典、反义词典、主题词典进行扩展检索。

允许使用文中的任意字、词、短语、句和片段进行检索

★汉语分词准确率及字词混合索引机制:切分正确率达到99.1%以上;由于汉语分词不能达到100%准确,所以中文检索系统

需要提供一种索引方式(字词混合索引),保证一定查准率的同时

提供100%查全率。

支持对检索结果的各种排序:检索结果与检索词的相关度排序;

基于字段的排序;后进先出的快速排序。同时对多库检索结果

可以进行混排。LIFO(后进先出的快速排序)对实际运行系统

的性能提高有很大作用。TOPn排序可通过结果记录数的裁减以

减少检索历史的存储来提高检索速度。

支持有多个文本字段和非文本字段参与的相关排序。

自动分库(Partitioning):充分利用多库并行检索技术,进一步提高了检索速度;使得数据加载速度保持稳定,进一步提高

了数据更新速度。

自然语言检索:输入一个检索串或一句话,分词后进行高频词过滤、词语个数限定、词语之间的位置关系等处理,根据词语

在文章中的位置和频度,以及词语的倒文档频度,计算相关度,

按相关度高低排序后输出结果。

★为了专题检索的需要, 必须提供布尔算符、关系算符、邻近算符、同在算符、频率算符、截词符(通配符),以及长检索表达式

的支持(>1MB字节)。

★检索结果的分类统计等分析功能: 统计检索结果在各库表中的分布情况;检索结果的分类统计,支持用正则表达式来筛选

分类统计的目标字段值,并支持抽取部分子串组成新的类别。

★西文大小写无关检索、全半角无关检索、中文简繁体扩展检索。

具有系统级、数据库级、记录级和字段级四级安全控制机制。

支持数据的加密与压缩传输。

支持主流的操作系统平台Windows/Linux/Solaris/AIX/HPUX;

支持主流开发平台,提供CAPI,Java API,.Net API二次开发

接口。

★支持分布式检索和负载均衡集群功能:实现海量数据的无限扩展;实现高并发用户的高性能访问。

系统功能要求

全方位检索手段:提供多种检索运算符。包括外部特征与正文内容的各种逻辑组合检索(与、或、非、异或)、位置检索(同段、

同句、相差几个字以及前后次序有关等)、二次检索、渐进检索、

模糊检索、历史检索、词根检索、大小写敏感检索、概念检索、

对检索结果按与检索表达式的相关性程度排序等。

支持扩展检索:包括主题词典自动扩展检索, 同义词/反义词自动扩展检索, 全半角自动扩展检索, 简繁体自动扩展检索等。

支持语义检索:支持长句检索,系统可自动分词,按句子语义进行检索。并可选择关键词再次检索。

支持检索结果的分类统计与分析:统计检索结果在各库表中的分布情况; 检索结果的分类统计,支持用正则表达式来筛选分类

统计的目标字段值,并支持抽取部分子串组成新的类别。

★支持检索结果排序:支持多字段加权的相关性排序, 并且可以设置文档的不同字段以不同的权重, 提升关键字段的权重;

法规标准库及全文检索系统

法规标准库及全文检索系统 一、产品研发背景 为了使电力企业相关人员更方便的查询到国家、行业发布的各种法律、法规及行业标准,避免企业自己搜索各种文件时,不能保证文件信息、版本的正确性和及时性,提高工作效率。开发法规标准库及全文检索系统。 二、产品特点 内容齐全 由中电方大上传和管理软件数据库中文件,上传文件包括电力行业的法律、法规、行业标准和各企业集团规定,还包含一些对这些法律、法规解读的文章或论文,对法律、法规进行更深层次的挖掘理解。企业在生产、培训时使用该软件可以更方便的查询到需要的文件。 文件实时更新 系统中的文件由中电方大进行管理,对每一个文件的过期或作废等,中电方大都保持实时更新,保持系统的与时俱进,保证文件为实时适用的最新版本。 文件查询方便 文件的查询搜索功能,即能输入文件名或关键字在数据库中全部搜索,又能按照法律、法规、标准或是生效年份等不同条件进行查询搜索。 全文所搜功能 此功能是系统的一大亮点。为了便于查询文件及对应文件内容的搜索,系统支持全文搜索功能。如在搜索界面输入“压力容器”,在结果列表中即会显示相关文件的名称,也会显示部分带有关键字的内容。

三、产品功能 系统支持相关法律法规的全面搜索及预览功能。 四、产品解决问题 系统解决了企业在需要获取相关法规文件时不能确定文件的准确性、最新性等问题。 五、提供的产品服务 ◆提供本产品终身更新服务 ◆提供功能个性化开发服务 六、产品适用范围 产品适用于各类企业 七、公司简介 北京中电方大科技股份有限公司,成立于2004年,新三板挂牌上市公司(证券代码430411,简称:中电方大)。 本公司是处于软件和信息技术服务业的安全与应急服务提供商,为电力企业用户提供安全与应急管理及信息化及对应的整体解决方案。公司于2012年获得国家电监会(现国家能源局)颁发的电力安全生产标准化一级评审机构资质,从事发电企业、电力建设企业的安全生产标准化评审业务。于2014年获得国家能源局指定的电力安全培训机构资质,为发电企业、电网企业相关负责人和安全生

英文数据库,全文检索 文档

四)利用英文全文数据库——Elsevier,Springer,EBSCO(BSP/ASP) 1、检索课题名称:探析公益广告中的商业元素 2、课题分析: 中文关键词为:公益广告,商业元素 英文关键词为:PSAs Commercial elements Business Elements 3、选择检索工具:Elsevier 数据库,Springer数据库,EBSCO(BSP/ASP)数据库。 4、构建检索策略:Commercial elements and the public service ads 5、简述检索过程: ①,选定在Elsevier 中期刊、图书、文摘数据库等全部文献资源中检索2000 年以后的关于公益广告中的商业元素的文献 利用确定的检索策略(Commercial elements and the public service ads ),文献全文(含文献题目、摘要、关键词)中检索,检到184 篇相关文献。 ②,选定在Springer 中期刊、图书、文摘数据库等全部文献资源中检索2000 年以后的关于公益广告中的商业元素的文献 利用确定的检索策略(Commercial elements and the public service ads ),文献全文(含文献题目、摘要、关键词)中检索,检到64篇相关文献。③,选定在EBSCO(BSP/ASP)中期刊、图书、文摘数据库等全部文献资源中检索2000 年以后的关于公益广告中的商业元素的文献 利用确定的检索策略(Commercial elements and the public service ads ),文献全文(含文献题目、摘要、关键词)中检索,检到381篇相关文献。 6、整理检索结果: 从以上文献中选择出3 条切题文献 ①、Constructing female identities through feminine hygiene TV commercials M a Milagros Del Saz-Rubio a, , and Barry Pennock-Speck b, [Author vitae] a Universidad Politécnica de Valencia, Camino de Vera s/n 46022, Valencia, Spain b Universitat de València, Avenida Blasco Ibá?ez 32, 46010, València, Spain Received 9 July 2008; revised 10 January 2009; accepted 18 April 2009. Available online 3 June 2009. In this paper we report the results of a qualitative multimodal analysis of a corpus of Spanish and British TV ads featuring female hygiene products such as tampons, liners and sanitary towels/pads. We contend that advertisers of menstruation-related products employ a wide range of strategies to convey both overt information about the products advertised, as well as to –and more importantly –indirectly transmit stereotypical beliefs of women which inevitably helps reproduce and sometimes perpetuate a gender-biased type of discourse (Holmes and Marra, 2005). Crook's (2004) distinction between the product-claim and the reward dimension in ads has been taken as the starting point for our analysis. Within the product-claim dimension we have focused on what information is transmitted through the application of some of Brown and Levinson's (1987) generic positive and off-record politeness strategies. On the other hand, within the reward dimension attention is shifted to how information surfaces the language in an indirect fashion through attention to different format types, visual imagery, voices and music. Results indicate that ads either tend

NC65全文检索配置方法说明文档

全文检索(NC65版本) NC65全文检索的配置和使用需要3步,具体如下: 一.在第一次启动环境,或要改变服务器结构,比如从单机改为集群,在服务停止时需要删除Nchome下anteindex文件夹。如果没有这个文件夹,不需要进行这一步。如果搜索不能正常工作,也可以通过在停服务时删除这个文件夹,重启集群服务器,尝试解决搜索的出现的相关问题。在其他正常情况下,服务器的停止和重启,不需要删除anteindex文件夹。 二.数据源配置。搜索需要在配置界面中,指定可以进行搜索服务的数据源。 点击Nchome\bin\sysconfig.bat,会出现以下界面。 在NC63中,我们使用的是档案索引这个页签的配置,到了NC65,配置移到了搜索引擎下。如上图所示,在【搜索引擎】的【搜索源分组】页签下,选择要提供搜索的表,比如bd_material_table物料表,点击设置数据源按钮,在弹框中勾选要提供服务的数据源,点击确定。每一张要提供搜索服务的表都需要设置数据源,如果客户不知道哪些要用哪些不要用,就请为每一张表都配置数据源。数据源配置完成后点击保存按钮。 搜索的数据源配置只需要进行一次。如果要更改数据源,就需要重新配置。 三.建立索引。

在第一次使用搜索服务,或者因为上文提到的某种原因删除anteindex后,需要手动一键重建索引。 一键手动重建索引需要在服务器完全启动后,也就是说客户端可以正常登录的时候,才能进行。(删anteindex文件夹需要在停服务时进行,一键重建索引需要在服务器完全启动时进行)。如下图所示: 在【搜索引擎】的【搜索管理】页签,在服务器完全启动后点击重爬全部按钮,只需要点一次,一两分钟后,搜索服务就可以正常使用了,也不需要点击保存按钮。如果不是第一次使用搜索服务,或者没有删除anteindex 文件夹,正常的服务停止和重启不需要再点击重爬全部按钮。 图中大红框选中的是,可以为每一张表设置更新的频率,比如一天更新一次,又或者每隔一段时间周期性的更新。这是索引更新的补偿机制,用户在前台操作的时候,对数据进行增添删改,索引会实时自动更新。所以这个补偿机制也可以不进行关注。 全文检索不能生效的常见问题解答? a、检查数据源配置的是否正确。项目上出现过配置为其他数据源或者修改数据源名称后,没有同步修改此处的数据源的现象。后续这一块有望实现自动配置正确的数据源。

全文检索需求及选型

全文检索需求 档案管理系统 需求整理 1、一个文档有多个附件; 2、文档支持格式:pdf,CEB,txt,html,office(world、excel)、wps 文档,tf、tff; Ceb格式,目前在档案系统已经存在一个对应的txt文件; 现在有两种方案来处理ceb格式:一是把档案系统中的ceb对应的txt文件,迁移过来;二是ceb文件重新转换一次。 3、权限管理,权限有个人、角色、部门分类; 4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询;可以分多个字段查询(比如:档案类型、查询年份) 5、准确显示摘要和高亮显示; 6、矩阵分析(智能分析相似文档,数据挖掘的一部分); 档案的现在方案 a)使用lucene2.x 版本; b)系统是二级部署;

c)每个网点比如福建,按地市创建索引文件。每个地市的索引文 件的大小在800M左右,这样单个档案系统的一个网点的索引 总大小应该在10G左右(目前的大小)。 d)每个地市只可以单独查询,目前没有实现合并查询。 e)新建索引和增量索引是分开处理的。 f)权限控制,目前是用户在请求单个文档的时候才验证权限;在 索引和检索两个层次上没有做控制。 其他特点 知识管理系统 需求整理 1、目前是一个文档对应一个附件,但以后有可能支持多个附件; 文档支持格式:知识管理中各种文档都会存在,尽量支持大部分数据格式。 2、支持的格式可以灵活扩展。 3、权限管理,权限有个人、角色、组织、部门等层次; 4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询; 5、准确显示摘要和高亮显示; 6、智能分析(相似文档,数据挖掘的一部分);

全文检索系统整体方案设计

1全文检索系统方案 1.1全文检索需求 1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检 索、跨库检索等多种检索途径; 2)支持字索引和词索引; 3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复 合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关 键词查询优先级的设置; 4)提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检 索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询 结果集; 5)能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实 现关键字检索; 6)支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接 口以支持特殊文档格式的全文检索; 7)在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为 最新,即支持增量索引机制; 8)用户可自行设定时间,让系统自动定时进行更新索引; 9)对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得 超过10秒; 10)提供跨数据源、数据格式的搜索; 11)同过相关性搜索,能够把和搜索条件相关联的信息搜索出来; 12)不但能够对图片的描述信息进行搜索,还能对图片内容的检索; 13)提供COM与SOAP的搜索接口(Interface) 可让其它应用程序或查询网 页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏 览器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果; 14)查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符 合关键词出现的内容片断; 15)在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文 字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的 位置; 16)查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条 件进行排序; 17)可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索 时,不在标记过的文件中进行查询; 1.2全文检索系统总体方案 系统将采用以下全文检索流程。

文档全文检索方法

文档全文检索方法 利用索引服务(Indexing Service)和ASP建立面向整个网站OFFICE文档全文搜索程序, 配置Index Server 在执行Web服务器上的搜索之前,首先必须创建至少一个索引,并遵循以下步骤完成这项工作。 ⒈启动Windows 2000 Server服务器上的索引。 缺省情况下选择图标位于管理工具组中的计算机管理。窗口的右边提供关于当前在服务器上存在的索引信息。默认有两个索引:System和Web。 ⒉要创建新的索引,用鼠标右键单击索引服务或右边的面板,选定新建编录。 显示添加编录对话框,指定索引的名称并用浏览按钮选取位置。索引服务不会立即开始索引,此时将弹出一条消息框,单 击确定继续。为了达到最佳的性能,索引服务可以放在和Web服务器隔离开的硬盘上。 ⒊指定索引的目录,用右键单击新建的编录名,从弹出选单中选定属性,将出现如图2所示的对话框。 第一个选项卡常规显示刚刚输入的内容,在第二个选项卡跟踪中的WWW服务器下拉列表中选取你要索引的Web网站。 ⒋有了创建的编录,现在可以挑选你想在索引中包括的目录。 这个强大的特性使你能创建几个用不同方式搜索内容的索引。例如,你可能想快速浏览从完整的文本中所引出的章节,这 个特性使你能在Index Server内执行这项任务。要添加一个目录,用右键单击右边的面板,选定新建目录。在出现的对话 框中通过浏览按钮选择目录并指定别名。如果必须登录到服务器才能得到需要的内容,则可以提供将使用的用户名和密 码,以便得到需要的内容。如果想检查受保护的内容,则更要维护内容的安全性,这一特性非常有用,这样只有被授权的 用户(也许是那些为此付钱的人)才能得到完整的内容。 还可以使用这个工具排除Web站点中不想索引的子目录。例如,检索Scripts/CGI目录就不会对用户有什么用。为此,只要 双击该目录,将包括在索引中选定为否即可,见图3。 ⒌在已经为站点包括/排除了所有目录后,用右键单击右面板,从弹出选单中选定启动,重新启动Index Server服务。

全文检索原理

全?文检索 我们?生活中的数据总体分为两种:结构化数据和?非结构化数据。 ?结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据 等。 ??非结构化数据:指不定长或?无固定格式的数据,如邮件,word?文档等。当然有的地?方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯?文本按?非结构化数据来处理。 ?非结构化数据又?一种叫法叫全?文数据。 按照数据的分类,搜索也分为两种: ?对结构化数据的搜索:如对数据库的搜索,?用SQL语句。再如对元数据 的搜索,如利?用windows搜索对?文件名,类型,修改时间进?行搜索等。 ?对?非结构化数据的搜索:如利?用windows的搜索也可以搜索?文件内容,Linux下的grep命令,再如?用Google和百度可以搜索?大量内容数据。 对?非结构化数据也即对全?文数据的搜索主要有两种?方法: ?一种是顺序扫描法(Serial Scanning):所谓顺序扫描,?比如要找内容包含某?一个字符串的?文件,就是?一个?文档?一个?文档的看,对于每?一个?文档,从头看到尾,如果此?文档包含此字符串,则此?文档为我们要找的?文件,接着看下?一个?文件,直到扫描完所有的?文件。如利?用windows的搜索也可以搜索?文件内容,只是相当的慢。如果你有?一个80G硬盘,如果想在上?面找到?一个内容包含某字符串的?文件,不花他?几个?小时,怕是做不到。Linux下的grep命令也是这?一种?方式。?大家可能觉得这种?方法?比较原始,但对于?小数据量的?文件,这种?方法还是最直接,最?方便的。但是对于?大量的?文件,这种?方法就很慢了。 有?人可能会说,对?非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快(由于结构化数据有?一定的结构可以采取?一定的搜索算法加快速度),那么把我们的?非结构化数据想办法弄得有?一定结构不就?行了吗? 这种想法很天然,却构成了全?文检索的基本思路,也即将?非结构化数据中的?一部分信息提取出来,重新组织,使其变得有?一定结构,然后对此有?一定结构的数据进?行搜索,从?而达到搜索相对较快的?目的。 这部分从?非结构化数据中提取出的然后重新组织的信息,我们称之索引。 这种说法?比较抽象,举?几个例?子就很容易明?白,?比如字典,字典的拼?音表和部?首检字表就相当于字典的索引,对每?一个字的解释是?非结构化的,如果字典没有?音节表和部?首检字表,在茫茫辞海中找?一个字只能顺序扫描。然?而字的某些信息可以提取出来进?行结构化处理,?比如读?音,就?比较结构化,分声母和韵母,分别只有?几种可以?一?一列举,于是将读?音拿出来按?一定的顺序排列,每?一项读?音都指向此字的详细解释的页数。我们搜索时按结构化的拼?音搜到读?音,然后按其指向的页数,便可找到我们的?非结构化数据——也即对字的解释。

TRS全文检索系统文档

1.1.1 全文检索系统结构 根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:TRS全文数据库系统(TRS Database Server) TRS 全文检索网关(TRS Gateway) TRS信息发布应用服务器系统(TRS W AS) TRS全文数据库系统(TRS Database Server)采用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视群雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。 主要特点包括: ●异构海量数据统一管理,非结构化和结构化数据联合检索 ●Native XML内核,实现全息检索 ●智能辅助检索,支持知识挖掘 ●精确计算,检索速度和准确性共达最优 ●动态索引实时更新,面向事务处理 ●支持Unicode编码,提供多语种查询引擎 ●多级机制保障,信息采集和检索高度安全 ●集群检索,保证高可靠性,随需轻松扩展规模 TRS全文数据库系统(TRS Database Server)通过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。 TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。 全文检索系统架构图如下所示:

TRS信息发布应用 服务器系统 全文检索系统架构图 1.1.2 全文检索网关 TRS 全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。 数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现检索,利用TRS Gateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。TRS全文数据库是TRS 公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:分词词典、主题词典、停用词典等。 应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索

全文检索使用说明文档

Solr4.7使用说明文档 一:使用流程 1.Solr 是一种可供企业使用的、基于Lucene 的搜索服务器. 2.apache官方网站下载solr并解压,包括Solr工程例子.解压文件如下图1.按说明配置 仓库名称. 3.创建Solr工程,在WEB/IF下的config.properties文件中配置访问本地磁盘 中Solr仓库的访问路径: (eg:documentSolrUrl=http://localhost:8066/SENATOR-Sol r/document/) 4.在Solr工程web.xml配置过滤器等. 在src目录下创建service接口.实现类(在该类中编写创建,搜索和删除索引逻辑代码),以及hessian接口实现类. 5作为后台被其他系统调用,配置hessian配置文件. 5.在其他系统中如果用到全文检索 (1).配置前台hessian配置文件,保证调用到Solr工程中方法. (2).在上传文件时添加对应索引至仓库.修改时删除原有文件索引,添加新 的索引.删除文件时按照ID删除索引. 6.前台工程中配置Hessian文件.调用Solr工程中查询方法按关键字检索, 6.Solr配置 在本地磁盘新建Solr配置文件夹,比如D:/solr_config。此文件夹目录结构如图 core0文件夹相当于数据库,用来存储索引。dic extract文件夹存放Solr配置jar包,不用更改。core0/conf目录下有两个配置文件如图 schema.xml文件用来配置要存储的索引字段,solrconfig.xml是索引查询配置solr.xml用来引入要使用的索引数据库,结构如图

oracle全文检索

全文检索(oracle text) Oracle Text使Oracle9i具备了强大的文本检索能力和智能化的文本管理能力,Oracle Text是Oracle9i采用的新名称,在oracle8/8i中被称为oracle intermedia text,oracle8以前是oracle context cartridge。Oracle Text的索引和查找功能并不局限于存储在数据库中的数据。它可以对存储于文件系统中的文档进行检索和查找,并可检索超过150种文档类型,包括Microsoft Word、PDF和XML。Oracle Text查找功能包括模糊查找、词干查找(搜索mice 和查找mouse)、通配符、相近性等查找方式,以及结果分级和关键词突出显示等。你甚至可以增加一个词典,以查找搭配词,并找出包含该搭配词的文档。 Oracle text 需要为可检索的数据项建立索引,用户才能够通过搜索查找内容,索引进程是根据管道建模的,在这个管道中,数据经过一系列的转换后,将其关键字会添加到索引中。该索引进程分为多个阶段,如下图 1.数据检索(Datastore):只是将数据从数据存储(例如web页面、数据库大型对象或本地文件系统)中取出,然后作为数据流传送到下一个阶段。 2. 过滤(Filter):过滤器负责将各种文件格式的数据转换为纯文本格式,索引管道中的其他组件只能处理纯文本数据,不能识别 Ms word 或 excel 等文件格式。 3. 分段(Sectioner):分段器添加关于原始数据项结构的元数据。 4. 词法分析(Lexer):根据数据项的语言将字符流分为几个字词。 5. 索引(Index):最后一个阶段将关键字添加到实际索引中。 测试环境: Linux AS release 4 (Nahant Update 3), oracle10g(10.2.0.2.0) 内容简介: 本文档主要以实验为主,文档中包含了大量的实验例子,部分测试用例来自document,部分来自网友的测试,所有的例子都在oracle10g中测试通过。

相关主题