搜档网
当前位置:搜档网 › 支持高效查询检索的大数据资源描述模型

支持高效查询检索的大数据资源描述模型

第35卷第5期哈 尔 滨 工 程 大 学 学 报Vol.35?.52014年5月Journal of Harbin Engineering University May 2014

支持高效查询检索的大数据资源描述模型

张文燚1,项连志2,王小芳1

(1.哈尔滨工程大学电子政务建模仿真国家工程实验室,北京100037;2.哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001)

摘 要:针对当前尚无能够以统一的查询接口形式支持高效查询检索的大数据资源描述模型的问题,通过扩展大数据分区管理模型的痕迹属性,引入扩展项泛函,以支持差异化大数据信息资源组织模式的构建。在此基础上,给出了支持大数据资源高效检索的倒排检索模式,并证明其远比遍历检索模式和层次检索模式高效。同时,给出了方言模式下的统一查询机制。目前,大数据资源描述模型已在住房和城乡建设部的信息资源统一规划和国家住房信息系统建设中取得了成功的应用。

关键词:大数据;资源描述模型;泛函;差异屏蔽;倒排索引;高效检索;方言模式

doi :10.3969/j.issn.1006-7043.201402008

网络出版地址:http ://https://www.sodocs.net/doc/2b14759230.html, /kcms /doi /10.3969/j.issn.1006-7043.201402008.html

中图分类号:TP311.5 文献标志码:A 文章编号:1006-7043(2014)05-0594-08

A big data resource description model for efficient retrieval

ZHANG Wenyi 1,XIANG Lianzhi 2,WANG Xiaofang 1

(1.Modeling and Emulation in E-government National Engineering Laboratory ,Harbin Engineering University ,Beijing 100037,China ;2.College of Computer Science and Technology ,Harbin Engineering University ,Harbin 150001,China )Abstract :Because there is no big data resource description model that can support efficient retrieval with the form of a unified query interface at present ,this paper extends the big data partition management model?s trace attrib-utes ,and introduces an extension item functional to support the construction of a differentiation big data information resource organization mode.On this basis ,this paper gives an inverted retrieval mode for supporting the efficient re-trieval of big data resources ,and demonstrates that it is more efficient than the ergodic retrieval mode and the hier-archical retrieval mode.Meanwhile ,the uniform query mechanism is given under the dialect mode.So far ,the big data resource description model has achieved success with the unified information resource planning and the national housing information system construction of the Ministry of Housing and Urban-Rural Development.Keywords :big data ;resource description model ;functional ;differential shading ;inverted index ;efficient retriev-al ;dialect mode 收稿日期:2014-02-11.网络出版时间:2014-04-16.

基金项目:电子政务建模仿真国家工程实验室基金资助项目(发改办高

技[2013]2685号);住房和城乡建设部信息资源规划和电子政

务顶层设计资助项目((2009)01号).

作者简介:张文燚(1968-),男,教授,博士生导师;

项连志(1983-),男,讲师,博士研究生.

通信作者:项连志,E-mail :xlz work@https://www.sodocs.net/doc/2b14759230.html,. 大数据的多样性(Variety )决定了组成大数据各种不同来源的数据资源之间不可避免地存在着多种形式的结构差异和语义冲突[1]。因此,建立一种

能够屏蔽结构差异和语义冲突的大数据资源统一描

述模型,使之以统一的查询接口形式,支持面向完整

大数据资源的高效查询检索,对于推动大数据查询分析应用发展有着重要的理论贡献和实用价值。1994年,Gupta P 等以DataJoiner 的形式给出了一个面向异构分布关系数据资源的统一访问视图[2],1995年,M.J.Carey 等通过扩展ODMG-93对象模型,给出了一种为不同来源的异构分布数据资源,提供面向对象的统一视图的Garlic 方法[3]。DataJoiner 和Garlic 主要研究屏蔽结构差异的技术方法,不能有效解决语义冲突屏蔽问题。Michael Siegel 等于1991年给出了一种基于规则的语义规

相关主题