搜档网
当前位置:搜档网 › 知识图谱研究综述

知识图谱研究综述

知识图谱研究综述
知识图谱研究综述

知识图谱构建方法研究

基于多数据源的知识图谱构建方法研究 摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。 0 引言 在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(Knowledge Graph)[1]作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[2]。 随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱[3];金贵阳等[4]利用知识图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐[5]在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等[6]构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等[7]提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案,并开发面向用户的中文知识图谱系统。 现有的行业领域知识图谱通常采用手工构建方式,缺乏统一的构建方法,且这类知识库目标是特定行业领域,因此,其描述范围极为有限。针对这些问题,提出了将不同领域知识库进行融合成一个知识图谱,旨在构建语义一致、结构一致的多数据融合知识图谱,实现对不同领域内的知识进行查询和展示,从而提高了数据查询效率。 本文提出一个多数据源融合的知识图谱构建流程,并对关键技术进行研究,包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据,构建了多数据融合的知识图谱。 1 知识图谱构建过程 知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系信息,使其能够被迅速的访问和操作[8]。知识图谱构建过程通常可以分成两步:知识图谱本体层构建和实体层的学习[5]。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。 知识图谱的构建方法通常有自顶向下和自底向上两种[2]。所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其它等高质量的数据源中,提取本体和模式信息,添加到知识库中;而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织、实体对齐和实体链接等,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。然而,在实际的构建过程中,并不是两种方法孤立单独进行着,而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合,首先采用自顶向下的方式来构建本体库,然后采用自底向上的方式进行提取知识来扩展知识图谱。

科学知识图谱在学科评价中的应用研究[开题报告]

(2011届) 本科毕业论文(设计) 开题报告 题目:科学知识图谱在学科评价中的应用研究学院:商学院 专业:信息管理与信息系统 班级: 学号: 姓名: 指导教师: 开题日期:

一、选题的背景、意义 1.该选题的历史背景及国内外现状 科学知识图谱,是将传统的文献计量方法与现代的文本挖掘和复杂网络、数学、统计学、计算机科学方法以及可视化技术等有机地整合在一起的一种综合分析科学发展的知识发现方法。从20世纪 50年代至今,科学知识图谱的研究已经有几十年的历史。 (1)引文分析理论的发展促进了科学知识图谱的兴起。20世纪60年代,加菲尔德(Eugene Garfield)创办科学引文索引 (SCI)。1965年,普赖斯以SCI为数据来源,发表了一篇科学计量学的杰作《科学论文的网络》。在这篇论文中,普赖斯第一次提出并界定了“研究前沿”的概念。到了20世纪70、80年代,匈牙利的三位学者T.布劳温 (Tibur Braun)、W.格伦采尔 (Wolfgang Glanze1)和A.舒伯特 (Andres Schubert)以SCI数据库为基础,出版了《科学计量学指标》,这实际上是世界科学地图和科学知识图谱的雏形。 (2)复杂网络系统和社会网络分析的兴起丰富了引文分析理论与方法。美国社会心理学家斯坦利·米尔格兰姆(Stanley Milligram)于1967年通过社会网络人际关系的“六度分隔”试验发现了著名的“小世界”现象。90年代中期,比利时情报计量学专家埃格赫 (Leo Egghe)和鲁索 (Ronald Rousseau)合作出版了《情报计量学引论》,促进了科学知识图谱的产生。进入21世纪,社会网络分析的探索与应用向纵深发展,风靡全球。 (3)信息可视化为科学知识图谱提供了强大的技术支持。1999年陈超美出版了该领域的第一部学术专著《信息可视化与虚拟环境》,R.斯宾塞 (Robert Spence)2000年出版了《信息可视化》之后相关研究如雨后春笋般涌现。 总体来讲,无论是企业还是科研领域,我国对知识图谱的关注滞后于国外。相比国外知识图谱的研究状况,我国起步稍晚,但是也取得了一些成绩。国内在知识图谱的应用方面缺少理论上的实证分析,主要是将知识图谱作为一个工具,应用于各个领域,而且相对于国外,应用研究还比较薄弱。目前而言,国内知识图谱研究中存在主要困难和问题如下: (1)研究手段和方法的严重滞后 国内近几年有关知识图谱的研究也有一些,如大连理工大学的刘则渊教授带领的团队进行了科学计量学、管理学人机工程学学科以及国内所有工程领域研究前沿的知识图谱构建;武汉大学的马费成、刘青林、社科院的蒋颖等也对国内外知识管理、数字资源管理、战略管理、文献计量学等领域进行了共词图谱的绘制;南京大学的邓三鸿、浙江大学的潘有能等初步建立了图书情报学科的学科知识地图;金莹以CSSCI 数据粗略构建了我国社会科学的学

探究知识图谱

探究知识图谱 我思故我在。人的思维活动主要有感觉、认知、记忆、学习、联想、计算、推理、判断、决策、抽象、概括等10大类。没有了这些思维活动,人自然就是死人了。模仿人的思维活动,用计算机解决现实问题,就是人工智能的目标。 人工智能其实就是对现实问题的求解,其方法主要是应用逻辑推理,而面向现实的逻辑推理能否实现的关键,在于知识表示方法。确实,知识是很难用逻辑和数学表示清楚的。人们为此探索出了各种各样的知识表示方法。 现在比较常用的知识表示方法主要有:状态空间法、问题规约法、谓词逻辑法、产生式法、语义网络法、框架法、脚本法等。没错,在浏览器中经常看到的脚本一词,就是一种知识表示方法。但是目前看来,语义网络法风头强劲。 知识,究其本质,就是信息的联接。在网络空间,通过链接很容易实现知识的联接。互联网搜索领域的老大,谷歌公司使用了一种能够提供智能搜索服务的技术,这个技术就是知识图谱。 知识图谱其实就是一个知识库,这个知识库从从语义角度组织网络数据。计算机领域的库这个概念,借用了现实生活中仓库这个概念。计算机的库,首先是描述信息,组织信息,存储信息,有点象是图书馆给书分类,贴标签,按标签上架。这些工作的目的,是为了方便检索,查找。知识库,

就是把知识贴上标签,放在一个计算机的库里。那么,问题来了,知识在这个库里,怎么表示呢? 显然,这个问题已经超越了计算机应用,进入了哲学领域,需要回答什么知识?或者说知识的本质是什么?好在哲学上有一关于本体论的研究,给我们解决这个问题带来了曙光。 本体论探究的是客观事物的本质及其组成,本体就是事物的本质和它的组织。本体论主要探究两个问题,一个问题是“事物的本质是什么?”,另一个问题是“事物的一般特征是什么?”。由这些探究逐步可以构建一个分类体系,比如植物学,其实就是一个门、纲、目、科、属、种的分类体系。由一个一般特征,可以再往下找到几个一般特征予以分类。分类是很不容易的,可以说,迄今为止,人类的知识体系,就是一个分类体系。归根到底,知识就是分类加关联。 有了对知识本质的理解,就有了知识表示的方法。其中的一种方法就是语义网络。语义网络其实就是一种网络图,先有一个节点,让后通过节点的关系,指向另一个节点。比如,老王是个节点,然后通过儿子关系指向小王,小王通过儿子关系指向小小王等,老王通过媳妇关系指向麻子,麻子通过儿子关系指向小王等。这样老王家就构成了一个网络图,这个网络图还可以成为老王家这样一个大节点,老王家通过同事关系指向老李家,老王家、老李家通过邻居关系指向小

第13章++知识图谱与知识推理

第13章知识图谱与知识推理 王泉 中国科学院大学网络空间安全学院 2016年11月

?13.1概述 ?13.2知识图谱构建 ?13.3 知识图谱中的知识推理–13.3.1 表示学习技术 –13.3.2 张量分解技术 –13.3.3 路经排序算法?13.4 本章小结

?13.1概述 ?13.2知识图谱构建 ?13.3 知识图谱中的知识推理–13.3.1 表示学习技术 –13.3.2 张量分解技术 –13.3.3 路经排序算法?13.4 本章小结

实体和关系 ?实体 (entity):现实世界中可区分、可识别的事物或概念–客观对象:人物、地点、机构 –抽象事件:电影、奖项、赛事 ?关系 (relation):实体和实体之间的语义关联 –BornInCity, IsParentOf, AthletePlaysForTeam

?知识图谱 (knowledge graph):实体和关系所构成的异质、有向图,是表征实体间语义关联的语义网络 ?节点代表实体 ?边代表不同类型的关系 (异质) ?两个节点之间有边相连表明它们之间存在相应关系 ?边是有向的表明关系是非对称的

?三元组 (triple/triplet):也称事实 (fact),是最基本的知识存储方式,表现为(主语, 谓词, 宾语)形式 (Tom, BornInCity, Paris) (Tom, LivedInCity, Lyon) (Tom, Nationality, France) (Tom, ClassMates, Bob) (Paris, CityLocatedInCountry, France) (Lyon, CityLocatedInCountry, France) (Bob, BornInCity, Paris)

科学知识图谱研究综述

?新技术应用? 科学知识图谱研究综述 梁秀娟 (湘潭大学公共管理学院 湖南湘潭411105) 文 摘 随着可视化技术的发展,将其与引文分析技术相结合,可以直观、形象地向人们揭示学科以及学科之间的联系。本文结合国内外在引文分析和可视化方面的最新研究,从起源、概念、绘制方法、应用及研究展望等方面对科学知识图谱进行了较为详细的分析。 关键词 引文分析 可视化 科学知识图谱 Rev i ew of M app i n g Knowledge D o ma i n s L i a ng X i ujuan (Public Manage ment School of Xiang Tan University,XiangTan HuNan,411105) Abstract:W ith the devel opment of visual technol ogy which co mbined with citati on analysis technol2 ogy,it can reveal the link bet w een subjects intuitively and vividly.I n this paper,combined with the latest research on citati on analysis and visualizati on,we make a detailed intr oducti on in the areas of mapp ing knowledge domains fr om the origin,concep ts,techniques,app licati ons and the latest p r o2 gress. Key words:Citati on analysis,V isualizati on,Mapp ing knowledge domains 随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。科学知识图谱(Mapp ing Knowledge Domains)正是在这一研究领域中出现的一个新的热点。 1 科学知识图谱的起源 科学知识图谱是引文分析与数据、信息可视化相结合的产物。引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。正式的引文分析始于上个世纪50年代初,1964年美国的尤金?加菲尔德(Eugene Garfield)创立引文数据库S C I(Science Citati on I ndex,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。S C I不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在《应用引文数据撰写科学历史》(The use of citati on data in writing the hist ory of science)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作———《巴比伦以来的科学》《小科学,大科学》《科学文献的网络》中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用“知识图谱”这一概念,但是,实际上以引文分析为基础的“知识图谱”理论与方法己经应运而生了[2]。国内自上个世纪80年代引入S C I,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。 与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的

知识图谱构建方法研究

知识图谱构建方法研究 Company number:【0089WT-8898YT-W8CCB-BUUT-202108】

基于多数据源的知识图谱构建方法研究摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。 0 引言 在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(Knowledge Graph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。 随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱;金贵阳等利用知识图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等

信息抽取层、知识融合层、知识加工层

《知识图谱构建技术综述》—— 笔记 刘峤李杨段宏刘瑶秦志光《计算机研究与发展》, 2016, 53 (3):582-600 一、摘要 说明知识图谱的定义和内涵 将知识图谱分成信息抽取层、知识融合层、知识加工层 分类说明三个层次涉及的关键技术的研究现状 面临的挑战和关键问题 二、知识图谱的定义与架构 2.1 定义 知识图谱:是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是。“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联,构成网状的知识结构。 知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。(从图的角度看,图中节点表示实体(概念),节点之间的边表示实体与实体之间的关系) 2.2 架构 知识图谱自身的逻辑结构 数据层:知识以事实(fact)为单位存储在图数据库。 模式层:模式层在数据层之上,是知识图谱的核心。储存提炼过的知识,采用本体库进行管理模 式层。 知识图谱所采用的技术(体系)架构(本文的重点) 知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程.这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工。

2.3 构建方式 自顶向下:从高质量数据中提取本体和模式信息,加入到知识库中。 自底向上:从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,加入到知识库中。 三、知识图谱的构建技术

3.1 信息抽取 信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。关键技术包括:实体抽取、关系抽取和属性抽取。 实体抽取(命名实体识别NER) 指从文本数据集中自动识别出命名实体。(最关键最基础) 关系抽取 1. 实体抽取得到的是离散的命名实体,还需从相关预料中提取出实体之间的关系。 2. 关系抽取就是解决如何从文本语料中抽取式体检关系这一问题。 属性抽取 1. 属性抽取的目标是从不同信息源中采集特定实体的属性信息。由于可以将实体的属性视为实体与 属性值之间的一种名词性关系,因此也可以将属性抽取问题视为关系抽取问题。 2. 属性抽取一般是从百科类网站上的半结构化数据中抽取,或者是采用数据挖掘的办法直接从文本 中挖掘实体属性与属性值之间的关系模式。据此发现对属性名和属性值在文本中的定位。

科学知识图谱研究综述

#新技术应用# 科学知识图谱研究综述 梁秀娟 (湘潭大学公共管理学院湖南湘潭411105) 文摘随着可视化技术的发展,将其与引文分析技术相结合,可以直观、形象地向人们揭示学科以及学科之间的联系。本文结合国内外在引文分析和可视化方面的最新研究,从起源、概念、绘制方法、应用及研究展望等方面对科学知识图谱进行了较为详细的分析。 关键词引文分析可视化科学知识图谱 R evie w of M apping Know ledge Dom ains L iang X i u j uan (Pub lic M anage m en t School of X iang Tan Un iversity,X iangTan H uN an,411105) Abst ract:W it h the develop m ent o f v isual techno logy w hich co mb i n ed w ith citation analysi s techno-l ogy,it can reveal the link bet w een subjects int u iti v e l y and v ividly.I n t h is paper,co mb i n ed w it h the latest research on citation ana l y sis and v isua lizati o n,w e m ake a de tailed introducti o n i n t h e areas o f m apping kno w ledge do m a i n s fro m the or i g i n,concepts,techniques,applications and the latest pr o-gress. K ey w ords:C itati o n analysis,V isualization,M app i n g kno w ledge do m ains 随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。科学知识图谱(M app i ng K now l edge Dom ains)正是在这一研究领域中出现的一个新的热点。 1科学知识图谱的起源 科学知识图谱是引文分析与数据、信息可视化相结合的产物。引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。正式的引文分析始于上个世纪50年代初,1964年美国的尤金#加菲尔德(Eugene G arfield)创立引文数据库SCI(Science C itati on Index,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。SCI不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在5应用引文数据撰写科学历史6(T he use of c itati on data i n w riti ng the hist o ry o f sc i ence)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作)))5巴比伦以来的科学65小科学,大科学65科学文献的网络6中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用/知识图谱0这一概念,但是,实际上以引文分析为基础的/知识图谱0理论与方法己经应运而生了[2]。国内自上个世纪80年代引入SCI,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。 与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的

知识图谱研究方法心得

体育政策研究现状、前沿热点与演化分析 ——基于科学知识图谱的可视化分析心得 一、主要内容 作者基于科学知识图谱可视化分析,通过Web of Science TM 文献资料数据库检索体育政策研究论文,以“体育政策”的标题、摘要、关键词和收录全文为研究对象,运用引文分析、共被引分析、聚类分析、词频分析、社会网络分析等基本方法,对体育政策研究的现状、前沿热点和演化路径进行分析,采用Cite SpaceⅢ可视化软件绘制科学知识图谱,将数据以图像形式呈现出来。 通过运用Cite SpaceⅢ可视化软件,一是通过选择“country”(国家)和“institution”(机构),时区分割设置为2(Time Slice Length=2),绘制了体育政策发文高产国家分布图;二是通过选择参数“Author”(作者),绘制了体育政策发文高产作者知识图谱;三是通过选择参数“Category”(学科),绘制了体育政策研究领域的学科贡献网络图谱;四是通过导入文献,在主题词资源(Term Source)中选择标题(Title)、摘要(Abstract),节点类型(Node Types)选择关键词(Keyword),绘制出了体育政策研究领域的学科贡献网络图谱。

分别对以上四个图谱进行分析得到以下结论:1.美国是体育政策研究的中心,无论从发文量还是文章的中心性都高居第一,高校是体育政策研究发文量的高产机构;2.体育政策领域研究者形成一小部分核心作者群,但数量较少,研究作者总体成离散性分布;3.体育政策研究需要多学科的支持,社会科学学科和公共科学学科是体育政策发文量的高产学科,形成以这两个学科为主流的研究领域;4.体育政策的关注点在不断的发展和变化,正在由对儿童的关注过渡到整体的公共健康,由体育活动过渡到发挥体育的教育功能,由对体育行为的控制过渡到形成终身体育的锻炼意识。 二、当前体育领域知识图谱研究方法应用现状 在中国知网通过以体育、知识图谱为主题和关键词进行搜索,根据关联度选取了104篇期刊、论文,进行分类发现当前体育领域应用知识图谱研究方法主要呈现在以下内容:一、单项运动。主要包括英文期刊中马拉松研究、、我国龙舟科研成果、国内外体育舞蹈研究、国外滑雪运动风险研究、太极拳运动研究、舞龙舞狮研究、攀岩运动研究、我国速度滑冰研究、国外篮球运动研究、国内外排球领域研究、羽毛球运动研究、我国乒乓球研究、我国体育舞蹈、国内外健美操、国内外啦啦操、网球研究、电子竞技现状、竞技游泳、国际有氧运动科学研究等项目的研究分析;二、学校体育教育。主要包括我国冰雪教学研究、我国体育教师教育研究

基于知识图谱和人工智能技术的数据关系智能辨识及可视化应用

XXX公司科学技术项目可行性研究报告 项目名称:基于知识图谱和人工智能技术的数据关系智能辨识及可视化管理研究 申请单位: 起止时间:2020年1月1日-2020年12月31日项目负责人: 通信地址: 邮政编码: 联系电话:

传真: 申请日期:2019.09

一、目的和意义 XXX公司(以下简称“公司”)正在大力推进泛在电力物联网及坚强智能电网建设,对电网及电网企业的信息化水平提出了更高的要求,尤其是对于数据资产的深入挖掘利用、全业务流程的协同贯通,有着迫切的需求。因此,全面建设了全业务统一数据中心,实现了源端全业务融合、后端大数据分析。 随着全业务统一数据中心的全面建设,数据的价值发现及使用越来越受重视。为追求企业数据价值最大化,历史数据贯通以及基于业务规则的数据异常发现势在必行。目前虽然通过主数据管理,统一编码管理等方式进行了数据贯通和数据管理,但是对于历史数据的梳理和贯通却收效胜微。主要存在以下问题: (1)对于历史数据的贯通多采用人工的方式,质量难以得到保证。 (2)需要对原业务系统进行改造,返工工作量及配合成本巨大。 (3)缺乏有效的保障措施,难以确保数据贯通的持续有效。 (4)缺乏知识提取技术,尤其是对于半结构化和非结构化数据知识提取存在盲区,丢失了很多有价值数据,缺乏覆盖电网全业务的知识图谱。 (5)缺少统一的知识库,数据搜索需在多个数据库或应用中分别实现,缺乏关联性,搜索体验差,缺乏智能推荐等功能。 (6)数据资源缺乏全生命周期管控,数据处理各个环节不能有效监管。 因此,亟需在全业务统一数据中心的数据仓库与数据集市之间通过语义标准构建业务数据知识图谱,引入数据化决策模型和监控体系,建立公司信息全息画像,实现业务数据的跨业务贯通,并提供网格化的高速检索和深度挖掘功能,提升企业管理的规范化、标准化、精益化水平。

基于Web的领域知识图谱构建平台的研究与实现

基于Web的领域知识图谱构建平台的研究与实现领域知识图谱通常是从特定领域资源中抽取实体和实体之间的 语义关系而构建的语义网络,它包含的知识体系具有很强的领域针对 性和专业性。领域知识图谱构建平台则是为领域专家提供的,基于海 量数据构建领域针对性强、准确度高的知识体系的简单易用的半自动化工具,应具备如下三个特点:构建流程定义完备;能够涵盖领域知识 图谱构建过程中数据获取、信息抽取、知识融合、构建图谱、知识更新等各个流程;引入大数据处理能力;海量数据处理加工成为知识的 过程离不开大数据平台的支持,因此平台需要具备大数据处理能力; 简单易用,可操作性强;由于领域知识图谱具有很强的领域针对性和 专业性,使用门槛过高不利于领域专家在构建过程中进行监督与干预。但是在当前大多公开的领域知识图谱构建平台中,还存在知识图谱构 建流程定义不完善、缺乏大数据相关技术的支持和对于领域专家来说可操作性差的问题与挑战:当前大多公开的领域知识图谱构建平台对 于知识图谱构建流程定义不完善,孤立地强调了知识图谱构建环节的 某几个方面,诸如知识图谱中的数据采集、知识表示、图谱可视化等,不足以支撑全生命周期知识图谱构建工作;当前大多公开的领域知识 图谱构建平台鲜少提及知识图谱构建过程中对应需要大数据相关技 术的支持,缺乏对知识图谱实际构建过程的指导价值。在基于平台构 建领域知识图谱的过程中,为保证精确度,往往需要领域专家的监督 与干预,但是自然语言处理技术和大数据处理流程对于领域专家来说 理解难度大,技术实现门槛高,可操作性差,对领域知识图谱的普及和

应用产生了一定的限制。针对以上问题与挑战,本文重点围绕领域知识图谱的构建技术和流程进行研究与分析,完成了基于Web的领域知识图谱构建平台的设计与实现,主要研究内容有以下三项:1)设计并实现了基于Web的领域知识图谱构建平台,为领域专家提供构建流程定义完备、具备大数据处理能力且简单易用的知识图谱构建服务。在开发过程中为实现知识图谱构建流程的自定义编排,提出并实现了一种可视化Web服务组合编排技术。此外,还提出并实现了 DSACC(Dynamics Scheduling Algorithm for Concurrent Connections)算法,解决了知识图谱可视化过程中大数据量渲染的前端性能优化问题。2)提出并实现了一种基于大数据驱动的领域知识图谱构建方法,在完成第一项研究内容后,本文对知识图谱构建流程进一步总结,旨在研究在知识图谱构建过程中对应需要大数据相关技术的支持,为知识图谱的实际构建过程提供一定的参考价值。3)以基于Web的领域知识图谱构建平台为工具,以一种基于大数据驱动的领域知识图谱构建方法为指导,完成人工智能产业知识图谱的构建。图谱涵盖3458家人工智能企业,1087个人工智能领域技术标签,16324条专利数据,69866条相关新闻,全面展示人工智能产业发展现状,进一步证明平台与方法的有效性和完整性。

知识图谱的发展与构建

第41卷第1期 2017年2月 南京理工大学学报 Journal of Nanjing University of Science a n d T echnology Vol.41 No.1 Feb.2017知识图谱的发展与构建 李涛i2,王次臣^2,李华康 (南京邮电大学1.计算机学院;2.江苏省大数据安全与智能处理实验室,江苏南京210003) 摘要:知识图谱作为一种智能、高效的知识组织方式,能够帮助用户迅速、准确地查询到自己 需要的信息。本文通过回顾学者及科研机构或公司对知识图谱的研究内容,对知识图谱的发展 和构建方法作了全面的介绍,包括知识图谱概念的起源、发展以及最终形成;构建知识图谱的数 据来源;构建过程中涉及的方法,包括本体和实体的抽取,图谱的构建、更新、维护,以及面向知 识图谱的内部结构挖掘和外部扩展应用。最后,对知识图谱的未来发展方向和面临的挑战作了 展望。虽然现在已经有很多知识图谱被应用到各类系统中,但是其基础理论和应用技术,仍需 展开进一步的研究。 关键词:知识图谱;构建方法;实体;知识挖掘;扩展应用 中图分类号:TP39 文章编号:1005-9830(2017)01-0022-13 D O I:10.14177/https://www.sodocs.net/doc/8b18565340.html,ki.32-1397n.2017.41.01.004 Development and construction of knowledge graph Li Tao1,2,Wang Cichen1,2,Li Huakang1,2 (1. School of Computer Science;2.Jiangsu Province Key Lab of Big Data Sec Processing,Nanjing University of Posts and Telecommunications,Nanjing210003,China) A b s tra c t:Knowledge graph,as an intelligent and efficient way for knowledge organization,enables users to quickly and accurately query the information they need.In this paper,we provide a comprehensive survey on the development and construction of knowledge graph by reviewing and summarizing recent advances i n the research and practice of knowledge graph systems in the relevant literature.In particular,our introduction includes the concept origin,development,and eventual formation of t he knowledge graph,various data sources for the knowledge graph,the ontology construction and the entity extraction,and the process of knowledge mining,updating,and maintenance.Finally,we discuss the technical challenges,development trends,and future research 收稿日期:2016-07-25修回日期:2016-12-18 基金项目:国家自然科学基金(61502247,11501302,61502243,91646116);中国博士后科学基金(2016心600434); 江苏省科技支撑计划(社会发展)项目(B E2016776);江苏省“六大人才高峰”项目(X Y D X X J S-C X T D- 006);江苏省博士后科研基金(1601128B)资助 作者简介:李涛(1975-),男,博士,教授,主要研究方向:数据挖掘,E-mail:toweiiee@njupt. edu. c n。 引文格式:李涛,王次臣,李华康.知识图谱的发展与构建[J].南京理工大学学报,2017,41(1):22-34. 投稿网址:http://zrxuebao. njust. edu. cn

国内知识图谱研究综述与评估20042010年

国内知识图谱研究综述与评估:2004-2010年 * 汤建民/余丰民 2012-9-21 10:11:12 来源:《情报资料工作》2012年01期【英文标题】Review and Evaluation of Knowledge Mapping Research in China: 2004-2010 【作者简介】汤建民,男,1967年生,浙江树人大学科学计量学研究中心主任、教授,杭州310015;余丰民,1976年生,浙江树人大学图书馆副研究馆员,杭州310015 【内容提要】文章综合运用词频统计、共词分析及可视化技术等文献计量方法,分析了国内知识图谱研究的整体现状,包括论文的总量分布、发表期刊分布、作者分布、机构分布、基金资助分布及论文研究热点等,并综合归纳了论文研究的主要内容。在此基础上,对该研究领域的现状和存在的问题进行了综述和评估,并提出了相应的对策。 This paper combines word frequency analysis, co-word analysis and visualization to demonstrate the general situation of knowledge mapping study in China. The authors discuss the distribution of papers, published journals, authors, organizations and funds as well as the focus of the existing papers and sum up main contents of the study. On this basis, the paper reviews and evaluates the status of the research and its existing problems, puts forward relevant counter-measures.

各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果

各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果摘要: 知识图谱是一种在移动互联网大时代下产生的新型知识表示方法,而精化是知识图谱应用研究的主要内容之一,其主要任务是知识图谱补全和错误检测等,在信息检索、机器人、智能问答等领域有着重要的应用前景。因此,对知识图谱精化进行研究具有十分重要的意义。对当前知识图谱精化方法进行了较为全面、深入的总结,并对知识图谱未来的主要研究方向进行了展望。 ? 0 引言 随着链接开放数据源(如DBpedia)的出现以及谷歌在2012年提出知识图谱的概念,全球掀起了研究知识图谱的热潮,涌现出了大量的知识图谱构建技术[1-5],并构建了各种知识图谱,这些知识图谱要么是开放的,要么是公司私有的,如Freebase[2]、维基数据(Wikidata)[3]、DBpedia[4]、YAGO[5]等,但无论采用哪种技术,构造出来的知识图谱都不完美[6]。随着研究的深入,越来越多的研究者开始关注知识图谱的覆盖率和正确率。而提高知识图谱的覆盖率和正确率是知识图谱精化的主要目的,对知识图谱进行精化具有十分重要的意义。 近年来,该领域的研究进展非常迅速,涌现出了一大批研究成果,已经研发出了多种知识图谱精化方法,这些方法主要集中在讨论知识图谱补全[7-28]和知识图谱错误探测[29-34]两个方面,这也是本文从这两个方面进行综述的原因。 本文的贡献是:(1)讨论各种知识图谱精化方法;(2)为国内同行介绍本领域的最新研究成果,了解该领域的研究进展,从而推动我国在该领域的发展。 1 知识图谱精化相关概念 1.1 知识图谱的概念 “知识图谱”是一种描述真实世界客观存在的实体、概念及它们之间关联关系的语义网络。可以利用知识图谱开发语义检索和自动问答等应用[1]。知识图谱的结构如图1所示。可见,

基于文献计量的科学知识图谱发展研究

收稿日期:2009-05-16 修回日期:2009-07-23 作者简介:任红娟(1979-),女,博士研究生,研究方向为情报分析、文献计量和战略情报;张志强(1964-),男,教授,博士生导师,研究方向为战略情报、地球科学、生态经济学。 基于文献计量的科学知识图谱发展研究 The Evolution of Mapping K now ledge Domains B ased on the Bibliometrical Method 任红娟1,2 张志强1 (1.中国科学院国家科学图书馆兰州分馆 兰州 730000;2.中国科学院研究生院 北京 100090) 摘 要 利用文献计量方法综合研究科学知识图谱领域发展状况的研究相对比较少的问题,从构建种子数据集,并利用一级引用在进行数据集扩展的基础上,采用作者共被引和共词分析方法对科学知识图谱研究领域的知识结构进行了划分,并利用逐年演化的高频词共现关系分析了该领域的演化趋势和研究重点,从定量和定性结合的角度对科学知识图谱研究领域进行了全面的描述。关键词 作者共被引 共词分析 科学知识图谱 中图分类号 G 310 文献标识码 A 文章编号 1002-1965(2009)12-0086-05 0 引 言 科学知识图谱[1],是将传统的文献计量方法与现代的文本挖掘和复杂网络、数学、统计学、计算机科学方法以及可视化技术等有机地整合在一起的一种综合分析科学发展的知识发现方法。它利用一定的方式把抽象数据映射在2D 或3D 的图形中,从宏观、中观、微观各个层面来揭示一个领域或者学科、主题发展的概貌,使得人们能够从各个角度全面地审视一个学科的结构和研究热点、重点等信息。由于图形展示方式,非常符合人的认知习惯,而且比起文本信息,人的大脑能够处理更多的图形信息,因此科学知识图谱的方法越来越受到各个领域研究者的关注。 虽然自文献计量学出现以来就有了科学知识图谱发展的雏形[2-4],但其真正的发展是在20世纪90年代末。十多年来科学知识图谱方法体系在不断的发展和扩充,如今处在一个什么样的发展阶段?主要研究哪些内容?领域的主要领军人物是谁?领域的研究结构如何?这些信息到目前都还不十分明了。虽然国内外的学者对于科学知识图谱的发展都进行了综合的研究[5-7],但主要还是从描述和内容总结的角度出发的。从定量的角度来研究科学知识。 图谱领域的发展,尤其是领域的演化趋势还很少有人涉及。因此,本文主要从计量学的角度对科学知识图谱研究领域的主要参与主体和研究的内容以及研究的动态进行了深入的研究。 1 科学知识图谱主要代表人物和主要研究内容分析 1.1 种子数据集的构建和基础分析 选取汤姆森科技的SCI 和SSCI 数据库,利用“science mapping ”or “mapping science ”or “visualiz 3knowledge domain 3”or “knowledge domain 3visualiz 3”or “mapping knowledge domain 3”为检索词进行主题检索,选取数据库收录的 所有年限的数据,检索结果共得到70篇文献。去除与该领域不相关的遥感和地理学领域的文献并经过去重处理,共得到50篇文献,是该领域的研究成果的集中代表。从这些文献的来源期刊的学科分布来看,主要集中在信息科学和图书馆科学、计算机科学和信息系统学科领域。 从学科的产出分布来看,德莱克斯大学的陈超美是这个领域最高产的作者,论文数量达到了8篇,可以说是科学知识图谱领域的领军人物。他不但比较早就开始关注和研究科学知识图谱方法,而且还自行研发了CITESPACE 一代和二代可视化软件[8],主要用于分析文献、期刊和作者之间的共被引关系。利用 PFNETs 、期望值最大化、时间序列等算法,把基于文献 的数据转化为多彩的可视化图谱。目前这个软件已经在知识图谱和文献计量领域被广泛采用。 排在第二位的是Small ,他是科学计量和文献计量领域的重要代表人物之一。从Small 的几个代表作品来看,在知识图谱领域他主要关注大科学的图谱,而不是学科专业知识的展示和揭示,着重宏观知识图谱方 第28卷 第12期2009年12月 情 报 杂 志JOURNAL OF IN TELL IGENCE Vol.28 No.12Dec. 2009

相关主题