当前位置：搜档网 › 基于XML非结构化数据管理论文

基于XML非结构化数据管理论文

基于XML的非结构化数据管理

摘要：非结构化数据的管理一直是困扰系统设计人员的一个问题，本文列出当前非结构化数据管理几种方式并提出了基于可扩展标记语言（xml）的非结构化数据管理方式，结合office非结构化文档转换为xml文档的实例来体现基于xml的非结构化数据管理方式对非结构数据的有效管理。

关键词：非结构化数据可扩展标记语言数据管理

0 引言

随着全球信息化进程的加快，海量信息随即产生，这些信息一般被划分为两大类，一类是能够用数据库二维逻辑表来表现的结构化数据，如数字、符号等；而另一类信息则是无法用数据库二维逻辑表来表现的非结构化数据，如文本、图像、声音等。现实应用中很大一部分数据存储在使用功能强大的工具例如microsoft office excel和microsoft office word所创建的文档中，此外随着传感技术、网络技术与计算机技术的迅速发展与普及，数字摄影、文档扫描、视频产品和音频格式应用也进一步扩大了非结构化数据格式的范围。据统计资料表明，这些数据中20%左右有效地存储在了各种类型的结构化数据库中，但还有80%左右的非结构化数据分散在整个业务过程及外部环境中。

如何对这80%左右的非结构化数据进行有效管理应用，数据管理是作为迈向这一目标的关键步骤，也是应用的必然选择与突破口。但是非结构化数据的管理一直是困扰系统设计人员的一个问题，目

非结构化数据管理系统

非结构化数据管理系统 1 范围本标准规定了非结构化数据管理系统的功能性要求和质量要求。本标准适用于非结构化数据管理系统产品的研制、开发和测试。 2 符合性对于非结构化数据管理系统是否符合本标准的规定如下： a)非结构化数据管理系统若满足本标准基本要求中的所有要求，则称其满足本标准的基本要求； b)非结构化数据管理系统在满足所有基本要求的前提下，若满足某部分扩展要求，则称其满足本标准的基本要求和该部分扩展要求； c)非结构化数据管理系统若满足本标准基本要求和扩展要求中的所有要求，则称其满足本标准的所有要求。 3 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB 18030—2005 信息技术中文编码字符集 GB/T AAAAA-AAAA 非结构化数据访问接口规范 4 术语和定义下列术语和定义适用于本文件。 4.1 非结构化数据unstructured data 没有明确结构约束的数据，如文本、图像、音频、视频等。 4.2 非结构化数据管理系统unstructured data management system 对非结构化数据进行管理、操作的大型基础软件，提供非结构化数据存储、特征抽取、索引、查询等管理功能。 5 缩略语下列缩略语适用于本文件。 IDF：逆向文件频率 (Inverse Document Frequency) MFCC：梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient）

PB：千万亿字节（Peta Byte） SIFT：尺度不变特征转换（Scale-invariant Feature Transform） TF：词频 (Term Frequency) 6 功能性要求 6.1 总体要求非结构化数据管理系统的总体要求如下： a)应包括存储与计算设施、存储管理、特征抽取、索引管理、查询处理、访问接口、管理工具七个基本组成部分； b)宜包括转换加载、分析挖掘、可视展现三个扩展组成部分。 6.2 存储与计算设施 6.2.1 基本要求存储与计算设施基本要求如下： a)应支持磁盘、磁盘阵列、内存存储、键值存储、关系型存储、分布式文件系统等一种或多种存储设施； b)应支持单机、并行计算集群、分布式计算集群等一种或多种计算设施。 6.2.2 扩展要求无。 6.3 存储管理 6.3.1 基本要求存储管理基本要求如下： a)应提供涵盖原始数据、基本属性、底层特征、语义特征的概念层存储建模功能； b)应提供逻辑层的存储建模功能； c)支持整型、浮点型、布尔型、字符串、日期、日期时间、二进制块等基本数据类型； d)支持向量、矩阵、关联等数据类型； e)应支持根据建好的逻辑层存储模型创建存储实例； f)应支持在创建好的存储实例上插入、修改、删除非结构化数据； g)应支持删除存储实例； h)应支持非结构化数据操作的原子性。 6.3.2 扩展要求存储管理扩展要求如下： a)应支持全局事务的定义并保证事务的原子性、一致性、隔离性和持久性； b)应支持数据类型的多值结构和层次结构； c)应支持在不同的存储设施上创建存储实例并实现自动映射； d)应支持PB级数据存储。 6.4 特征抽取

非结构化数据管理：ERP力不从心 ECM接力

对于国内相当多的企业来说，ECM这个概念还比较陌生，但提起ERP，很多人都耳熟能详。事实上，ERP是以数据库管理为核心的，而ECM是以非结构化数据管理为核心。凯德云M-Files是由美国M-Files公司开发的软件产品，主要用于企业内容管理(ECM)、文档管理(EDM)、质量管理、知识管理、项目协同。调查显示，企业中80%的数据是以非结构化的形式存在的，例如电子邮件、报表、办公文档、扫描文件、网页等，而这些非结构化数据往往散落在企业的各种应用系统中，无法得到统一的管理，更惶谈从中挖掘出价值。 ERP与ECM的关联在廖强(EMC中国区副总裁、内容管理及归档事业部大中华区总经理)看来，现在非结构化数据的管理需求产生了，实际上就是一个很自然的过程，跟以前ERP比较的话，内容管理与ERP同等重要，内容管理是管着80%的非结构化信息，ERP管理着20%的结构化信息。其次从复杂性来讲，因为ERP牵涉了管理的方方面面，内容管理却没有那么复杂。从投资来讲，大家都在讲收益率，企业现在实际上逐渐地认识到内容管理的重要性。这几年内容管理逐渐地跟ERP、CRM，包括银行的核心系统，包括电信的计费系统等成为企业信息化的新重点。也就是说，随着内容管理逐渐地深入客户的核心业务，对企业的工作效率、收益、信息安全等都将得到提高。 ECM已进入第三代 IDC在2008年上半年针对中国企业所做的一项调查显示，在受调查的434个最终用户中，接近60%的用户表示有计划投资内容管理软件。而在2007年的类似调查中，这一比例还只有30%多。这一结果表示，内容管理在组织中的优先级大大提高。IDC分析认为，用户渴望投资内容管理解决方案，主要有两方面的原因：一是日益增长的法规要求;二是通过内容管理功能更好地优化、自动化纸质业务流程。廖强分析说，综合当今内容管理市场，内容管理解决方案可以分为三代。第一代是小型供应商提供单点解决方案，主要用于解决零碎的业务问题，例如光盘系统管理、记录管理、Web内容管理、数字资产管理、工作流/BPM管理等。第一代内容管理的特点是有众多小型技术公司，每个公司都使用专门构建的应用程序解决一些零碎的业务问题。第二代是中型供应商在单点解决方案的基础上，提供较为全面的内容管理功能套件。第二代内容管理是由整合驱动的，在这一阶段，中型公司纷纷展开收购，并开始构建成套的内容管理应用程序。这是一个从单点产品到内容管理套件的变化过程，许多公司都是从点入手，而逐渐架构起较为完善的内容管理解决方案。但在这个过程中，内容管理底层平台的健壮性和面向应用的灵活性及可扩展性往往被忽视。前两代内容管理带来的问题是：各个系统之间往往会形成信息孤岛的现象。而且，当应用出现变化时，需要对各个单点产品逐一修改，不能快速满足应用变化速度。在第三代内容管理中，内容管理正逐渐成为企业信息基础架构的一部分;企业对内容管理的需求，已并不满足于应用某些点的产品去实现特定业务的管理，而是需要一个高性能、高可扩展性、能支持企业业务快速发展并能满足企业业务变化需求的内容管理平台。开放性成长任何一个软件公司的理想是要做到能够尽量满足客户的最终需要，但这很难实现，主要原因是需求的复杂度，很难有一个企业所提供的软件产品能够适应各式各样的不同需求。廖强介绍说，Documentum平台一直以来就不是自行运转，Documentum平台一定跟结构化结合在一起。比如在国内某银行的应用，像有一套贷款审批，因为它要审核你的原始的资质，你的房产证等，这些都需要EPR系统与Documentum。从我们整个的发展方向来看，ECM是关注着技术性、扩展性、高性能，可对接性，希望把自己的开发能力提供给整个社

在企业信息系统中,有超过80数据属于非结构化数据,它们包括.

在企业信息系统中，有超过80%的数据属于非结构化数据，它们包括文档，邮件，报表，网页，XML，声音，影像，多媒体影像，扫描文件，工程图，记录资料，演示文稿等。今天，随着信息的巨量增加，这些非结构化数据或数字内容正在以每年200%的速度快速增加，许多企业事实上已经淹没在内容的汪洋之中。您的企业面对浩如烟海的非结构化数据是否已经准备好了？在处理这些数据时，您的企业将面临哪些问题和挑战？ CIO发展中心特别策划了一次调研活动，希望能够让CIO了解到国内企业对非结构化数据管理的现状和趋势。请您在百忙之中抽出时间，回答我们的问卷，谢谢！调研问卷 1．您是否听说过内容管理(或者:非结构化数据管理)? □没听说过（那您是否听说过知识管理、文档电子化、信息权限管理、业务流程管理） □略有了解 □知道注：非结构化数据是指文档、图纸、声音、图像、网页文件等难于用数据库形式保存的数据。 2．贵公司目前正在使用的IT应用系统有： □ERP（SAP，Oracle，其他ERP系统请标明________） □业务流程管理系统 □OA办公自动化系统 □文档访问控制系统 □协作系统 □图纸扫描和电子化管理系统 □客户关系管理系统 □影像管理系统 □档案管理系统 3．贵单位非结构化信息管理过程中是否存在以下的问题：（可多选）： □大量纸面文件和图档难于保存和管理，文档管理仍停留在手工管理的阶段 □电子单据的内容的访问安全性难于保障 □无法实现对内容的保留期限的控制 □难以实现协同工作 □随着业务发展，现有系统难于承受非结构化数据（如大量的纸文件、单据、图表、邮件等）的海量增加 □内容管理系统如何与现有业务系统的无缝整合 □难于实现对影像系统的电子化管理

(完整版)非结构化数据来袭

非结构化数据来袭有人说，人类仅仅开发使用了自己大脑容量的10%，要能够利用其他的90%，人类的洞察力和成就将会无比惊人。这种说法的准确性可能有待研究确定，但与之类似，的确属实的情况是企业一直在分析应用的是只占数据总量20%的那些跑在ERP等系统里的结构化数据。如果再能结合利用其余80%的非结构化数据，那效果就可想而知了。基础技术在不断发展，而电子商务、移动应用、社交网络等日益活跃，这导致大量的像影像资料、办公文档、扫描文件、Web 页面、电子邮件、微博、即时通信以及音视频等非结构化数据迎面而来，企业应接不暇。结构化vs 非结构化相对于存储在关系型数据库里，用二维逻辑表来表现的结构化数据而言，那些不方便用数据库二维逻辑表来表现的数据就是所谓的非结构化数据，包括报表、账单、影像、办公文档、扫描文件、Web 页面、电子邮件以及多媒体音频和视频信息等。据统计，企业中20%的数据是结构化的，80%则是非结

构化或半结构化的。当今世界结构化数据增长率大概是32%，而非结构化数据增长则是63%，至2012年，非结构化数据占有比例将达到互联网整个数据量的75%以上。而非结构化数据中50%~75%的数据都来源于人与人的互动，都是以人为中心产生的。我们都很熟悉结构化数据，典型的就是事务数据、定量的数据。企业收集、存储、查询、利用它们来制定商业战略、预判趋势、运行报表、进行分析、优化运营。企业在结构化数据的利用方面已经做得很好，通过它能提供重要的业务洞察力，更有效率和有效益地服务于客户，遵循监管法规，为决策制定者提供所需的即时的、持续的关键信息以优化业务。但今天，许多企业已经意识到，结构化数据仅仅是企业所拥有数据的一小部分。与业务信息系统中大量用于交易记录、流程控制和统计分析的结构化数据相比，非结构化数据具有某种特定和持续的价值，这种价值在共享、检索、分析等使用过程中得以产生和放大，并最终对企业业务和战略产生影响。比如在医疗行业，逐渐普及的电子病历的建设中，既存在结构化的电子病历数据，也存在非结构化的电子病历数据，而非结构化的电子病历数据的重要性并不比结构化数据低。因为描述病人病情的自然语言要比患者基本信息等结构化数据更丰富形象，而临床产生的大量影像文件对医生的诊断

非结构化数据存储解决方案

1.非结构化数据存储在上图中，描述了非结构化数据存储架构的基本组成部分，其中： 1. 文件存取统一接口，封装了对数据中心所以非结构化数据的读写操作接口。 2. Hadoop HDFS 负责对大文件的存储，以HDFS：为文件协议标准 3. HBase 通过维护一张文件表完成对小文件的存储，以HBase：为文件协议标识1.1文件存取统一接口 1.1.1 文件存储接口对文件进行存储前，接口根据文件的大小和HDFS文件分块的配置大小进行比较，当文件超过设定大小时，接口认为该文件是大文件，直接分配到HDFS文件存储接口进行写入；否则当文件小与块大小时，根据系统维护的Hbase小文件存储通用存储表进行存储管理。

1. 对直接存储到HDFS的文件，则文件路径以HDFS为中心存储文件协议头，文件路径则根据该文件的业务属性做完文件的路径，文件名称保留原有名称，例如：HDFS://aaa/bbb.zip 2. 对通过Hbase管理的小文件，则文件路径以HBASE为中心存储文件协议头，文件路径不需要分文件夹，直接以文件的唯一标识标识即可，例如：HBASE://uuid 1.1.2 文件读取接口文件读取时，通过识别URL，确定文件的存储方式，然后找到对应的存储接口获取文件。

1.1Had oop HDFS存储接口完成大文件的存储与读取接口操作。 1.2Hbase存储接口文件通用存储表结构：表存在两个列簇，default列簇负责存储基础属性信息，用一个单独的列簇存储图片内容。 HBase是采用面向列的存储模型，按列簇来存储和处理数据，即同一列簇的数据会连续存储。HBase在存储每个列簇时，会以Key-Value的方式来存储每行单元格(Cell)中的数据，形成若干数据块，然后把数据块保存到HFile中，最后把HFile保存到后台的HDFS 上。由于用单元格 (Cell)存储图片小文件的内容，上述存储数据的过程实际上隐含了把图片小文件打包的过程。默认情况下，HBase数据块限制为64KB。由于图片内容作为单元格(Cell)的值保存，其大小受制于数据块的大小。在应用中需根据最大图片大小对HBase数据

企业如何管理非结构化数据

企业如何管理非结构化数据？移动应用要求企业的信息化往移动端发展已经是一种趋势，移动端的非结构化数据也变的越来越重要，因此，做好移动端和PC端非结构化数据的协同应用是企业面临的难题。大数据应用要求大数据时代的到来，让每一个企业都在挖掘大数据的价值，同样，作为大数据的一部分，非结构化数据必将给企业带来巨大的应用价值。物联网应用要求随着移动及大数据应用，物联网已经在国内逐步推进，非结构化数据是物联网应用基础之一，所以做好非结构化数据管理也是势在必行。最重要的是，进入高度信息化的大数据时代，企业对信息系统高敏捷协作有了更高度的要求。网络消耗难题分析：文件同步的传统机制是造成网络消耗最大问题企业的邮件、OA、ERP、文件服务器等应用所涉及到的文件数据共享都是采用文件全量同步、或者是文件全量上传与下载的文件传输方式，这种传统的文件传输方式最大的问题是没有文件增量同步功能，就是当一个文件做过一小点的改动后，要进行同步时，不是只传改动的那部份数据，而是又将整个文件进行同步。大数据存储和保护难题：传统SAN式存储的扩展性差并且自身没有实现大数据归档备份保护机制非结构化数据共享往往是随机会产生大并发量访问存储数据的要求，

需要存储系统高弹性、高可扩展性、高可靠性，并且可以灵活的组成一个跨地区网络的以“本地数据本地访问”原则来解决网络大带宽消耗难题，这都是传统的SAN难以做到的。非结构化数据不安全根本：本地应用程序编辑预览文件时需要同步或拷贝一整个文件的机制例如当共享一个pdf文件时，或者是word文件给其他人，他们需要在自身安装有对应的pdf或微软office软件并需要完整将这个文件读入他们计算机系统才能浏览或编辑这个文件，这就意味着这个文件的数据已经可以存储到他们的计算机上了。这是非结构化最难以控制的数据泄漏安全问题根源所在。 LFS企业私有文件云是一个统一、稳定、可靠、安全、高弹性扩展的非结构化数据中心系统解决非结构化数据管理的最佳思路是：集中存储、统一管理

结构化和非结构化数据定义

结构化、非结构化数据相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）。非结构化WEB数据库主要是针对非结构化数据而产生的，与以往流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理，在处理连续信息（包括全文信息）和非结构化信息（包括各种多媒体信息）中有着传统关系型数据库所无法比拟的优势。结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据) 非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等所谓半结构化数据，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，HTML文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。数据模型：结构化数据：二维表（关系型）半结构化数据：树、图非结构化数据：无 RMDBS的数据模型有：如网状数据模型、层次数据模型、关系型其他：结构化数据：先有结构、再有数据半结构化数据：先有数据，再有结构随着网络技术的发展，特别是Internet和Intranet技术的飞快发展，使得非结构化数据的数量日趋增大。这时，主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而，数据库技术相应地进入了“后关系数据库时代”，发展进入基于网络应用的非结构化数据库时代。我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase 数据库是一种面向最终用户的非结构化数据库，在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平，在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点： (1)Internet应用中，存在大量的复杂数据类型，iBase通过其外部文件数据类型，可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源，如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。 (2)它采用子字段、多值字段以及变长字段的机制，允许创建许多不同类型的非结构化的或任意格式的字段，从而突破了关系数据库非常严格的表结构，使得非结构化数据得以存储和管理。 (3)iBase将非结构化和结构化数据都定义为资源，使得非结构数据库的基本元素就是资源本身，而数据库中的资源可以同时包含结构化和非结构化的信息。所以，非结构化数据库

结构化和非结构化定义和特征

结构化、非结构化数据相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）。非结构化WEB数据库主要是针对非结构化数据而产生的，与以往流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理，在处理连续信息（包括全文信息）和非结构化信息（包括各种多媒体信息）中有着传统关系型数据库所无法比拟的优势。结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据) 非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等所谓半结构化数据，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，HTML 文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。数据模型：结构化数据：二维表（关系型）半结构化数据：树、图非结构化数据：无RMDBS的数据模型有：如网状数据模型、层次数据模型、关系型其他：结构化数据：先有结构、再有数据半结构化数据：先有数据，再有结构随着网络技术的发展，特别是Internet和Intranet技术的飞快发展，使得非结构化数据的数量日趋增大。这时，主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而，数据库技术相应地进入了“后关系数据库时代”，发展进入基于网络应用的非结构化数据库时代。我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库，在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平，在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点：(1)Internet应用中，存在大量的复杂数据类型，iBase通过其外部文件数据类型，可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源，如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。(2)它采用子字段、多值字段以及变长字段的机制，允许创建许多不同类型的非结构化的或任意格式的字段，从而突破了关系数据库非常严格的表结构，使得非结构化数据得以存储和管理。(3)iBase将非结构化和结构化数据都定义为资源，使得非结构数据库的基本元素就是资源本身，而数据库中的资源可以同时包含结构化和非结构化的信息。所以，非结构化数据库能够存储和管理各种各样的非结构化数据，实现了数据库系统数据管理到内容管理的转化。 (4)iBase采用了面向对象的基石，将企业业务数据和商业逻辑紧密结合在一起，特别适合于表达复杂的数据对象和多媒体对象。 (5)iBase是适应Internet发展的需要而产生的数据库，它基于Web是一个广域网的海量数据库的思想，提供一个网上资源管理系统iBase Web，将网络服务器(WebServer)和数据库服务器(Database Server)直接集成为一个整体，使数据库系统和数据库技术成为Web的一个重要有机组成部分，突破了数据库仅充当Web体系后台角色的局限，实现数据库和Web的有机无缝组合，从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。 (6)iBase全面兼容各种大中小型的数据库，对传统关系数据库，如Oracle、Sybase、SQLServer、

非结构化信息管理和搜索的发展现状

1 关键词全文检索技术日显局促，亟待突破世界范围的WWW正以目前每9个月增加一倍的速度飞速发展，并还将以指数速度继续增加。而另一方面，在从Web或数据仓库中找到你所需要的内容却并非进展迅速，虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup发布的2004Web可用性调查结果显示，所有用户（包括偶尔使用或经验丰富的用户）对搜索结果满意的次数百分比仅为42%，经验丰富的用户这一数字可以达到50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明，非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见，搜索引擎必须采取措施使自己变得更为聪明，同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具，能同管理结构化信息一样，有效地管理我们的非结构化信息。 2 有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出 2004年7月，位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx，该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说，当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时，搜索引擎能够给出相关内容的搜索列表，而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容，还可以搜索电影电视等多媒体内容，不仅可以搜索互联网内容，还可以搜索本机和局域网上的内容。Blinkx 同时还可以搜索不同的文本格式内容，如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”，这样的搜索引擎一直以来都是人们的梦想，或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域，它不只是代表一系列产品，也不只是一家公司的名字，最主要的是它代表着一种搜索理念和技术[3]。一旦它成功，桌面搜索的格局自然也会跟着发生翻天覆地的变化。如果安装了Blinkx的客户端软件，一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时，系统会自动分析这个文档，然后自动从本机或网络上抓取相关文章或链接，以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说，用户完全可以拿一篇文章来作为“查询关键词”，Blinkx通过对这篇文章进行分析，会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。 2005年元旦刚过Blinkx进入中国市场，其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台，大约有30多台服务器正在运行着Blinkx的后台系统[5]。 Autonomy公司是Blinkx公司的股东之一，Blinkx的核心技术也来自Autonomy，因为这种密切关系，Blinkx被认为是Autonomy的“样板工程”。此前，Autonomy一直像汽车发动机一样隐藏在幕后。Autonomy 虽然在公众中的知名度不太大，但在商业应用领域中却名声显赫，并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且，Autonomy还是一个“历史悠久”的IT公司，同时在美国和英国上市，拥有超过1.47亿美元的现金。 3 Autonomy的模式识别技术，可以帮助用户发现一些事前不知道的相关信息目前，人类研究的信息搜索技术有四个方向：关键字搜索，模式识别，语义分析，神经网络。除了关键词搜索比较成熟外，其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy，语义分析和神经网络两个技术方向目前尚无压倒性的代表者，一年半载不会有突破性的研究成果。所以，模式识别就成了目前比较先进的信息搜索技术。采用“模式识别”搜索方法，可通过判别相关识别度的高低来对数据进行检索，可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词，这篇文章有可能和企鹅有关，但是“大海”这个词用在很多不同的地方，有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词，这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词，但是很多相关度较低的词出现在一起就会带来很高的相关度，并且缺少某个描述词对其产生的结果影响微乎其微。如果说传统的“关键字”搜索方法为“search”（搜索）的话，autonomy采用的“模式识别”方法则应

Egg非结构化数据库软件-设计说明书

产品概述产品介绍 Egg是一个高性能、可扩展、并支持分布式存贮的非结构化数据库，同时也具备了部分非关系型数据库具备的结构化查询功能。该类型的数据库被广泛应用于搜索引擎、海量信息检索系统、音频视频管理系统等领域，成为这些领域中必不可少的一个组成部分。Egg是一个完全由C编写的，成熟的软件，并且是埃帕Cooling搜索引擎软件、Cooling云桌面平台软件、Cooling云输入法的重要组成部分，已经运用到了互联网、信息检索、数据挖掘、虚拟化等多个领域中。行业背景随着互联网的不断发展，搜索、云计算、WEB 2.0等全新的应用模式不断涌现出来。这些新应用都有着一些非常显著的特点，如：信息量巨大、信息结构化程度低、信息更新频度高、信息增长幅度大，并发访问频繁等。传统的关系型数据库，虽然能够胜任企业级别的信息管理，但在处理互联网级别的应用时，往往无法满足于以上的特点，暴露出了很多问题。 ●海量数据的高效存贮与访问要求海量数据应用中最早，最典型的应用是搜索引擎；最有发展的是云计算；最流行的是WEB2.0中的SNS社区。据CNNIC统计，截止2009年底，仅中国的网页数量就达到了336亿，较之2008年底，增长幅度接近100%。搜索引擎不光要存贮这些网页的基本信息，同时又要解决平均每天几千万网页的增长量。云计算、需要将原先用户端的应用、服务、数据移到服务端，利用服务端的计算、存贮、带宽、管理优势，提供相比传统桌面应用更有竞争力的服务方式。WEB 2.0中最主流的SNS社区，每天都要产生大量的用户动态信息，以Facebook为例，每月用户动态记录就达到2.5亿条；另如一些Web门户，都已经达到上亿帐户数量。所有的此类应用中的存贮要求，都已经超过了关系型数据库可以容纳的范围。Google是最早采用了廉价硬件（Commodity Hardware）建立分布式存贮的互联网公司；Amazon则在云计算平台中，采用了Yahoo与apache合作开发的分布式文件系统Hadoop；Facebook则为业界贡献了Cassandra，这一分布式的非关系型数据库。 ●高可用与可扩展性的要求关系型数据库具备一定的高可用性与可扩展性，但这是建立在企业级可预测数据的前提之下的。而对互联网应用来说，没有任何人能预测下一年新增的网页数量、云计算平台的使用人数以及社区将拥有的用户数。唯一可以肯定的就是，所有这些数据都会以一个相当快的速度增长。当一种存贮方式，无法满足面对应用的增长而动态扩展，将对互联网业务的发展，产生严重的负面影响。此外，互联网应用要求所有系统都要能够全天侯提供服务，即便系统升级、增加设备、出现故障。而传统关系型数据库的扩展、维护都需要停止数据库实例，而无法实现实时维护，这也导致了传统的存贮方式，无法满足目前互联网发展的需求。 ●高并发访问的要求搜索引擎、云计算、WEB 2.0每天都要面对大量的用户访问。2010年，Google与Facebook