搜档网
当前位置:搜档网 › 基于文献计量的科学知识图谱发展研究

基于文献计量的科学知识图谱发展研究

基于文献计量的科学知识图谱发展研究
基于文献计量的科学知识图谱发展研究

收稿日期:2009-05-16 修回日期:2009-07-23

作者简介:任红娟(1979-),女,博士研究生,研究方向为情报分析、文献计量和战略情报;张志强(1964-),男,教授,博士生导师,研究方向为战略情报、地球科学、生态经济学。

基于文献计量的科学知识图谱发展研究

The Evolution of Mapping K now ledge Domains B ased on the Bibliometrical Method

任红娟1,2 张志强1

(1.中国科学院国家科学图书馆兰州分馆 兰州 730000;2.中国科学院研究生院 北京 100090)

摘 要 利用文献计量方法综合研究科学知识图谱领域发展状况的研究相对比较少的问题,从构建种子数据集,并利用一级引用在进行数据集扩展的基础上,采用作者共被引和共词分析方法对科学知识图谱研究领域的知识结构进行了划分,并利用逐年演化的高频词共现关系分析了该领域的演化趋势和研究重点,从定量和定性结合的角度对科学知识图谱研究领域进行了全面的描述。关键词 作者共被引 共词分析 科学知识图谱

中图分类号 G 310 文献标识码 A 文章编号 1002-1965(2009)12-0086-05

0 引 言

科学知识图谱[1],是将传统的文献计量方法与现代的文本挖掘和复杂网络、数学、统计学、计算机科学方法以及可视化技术等有机地整合在一起的一种综合分析科学发展的知识发现方法。它利用一定的方式把抽象数据映射在2D 或3D 的图形中,从宏观、中观、微观各个层面来揭示一个领域或者学科、主题发展的概貌,使得人们能够从各个角度全面地审视一个学科的结构和研究热点、重点等信息。由于图形展示方式,非常符合人的认知习惯,而且比起文本信息,人的大脑能够处理更多的图形信息,因此科学知识图谱的方法越来越受到各个领域研究者的关注。

虽然自文献计量学出现以来就有了科学知识图谱发展的雏形[2-4],但其真正的发展是在20世纪90年代末。十多年来科学知识图谱方法体系在不断的发展和扩充,如今处在一个什么样的发展阶段?主要研究哪些内容?领域的主要领军人物是谁?领域的研究结构如何?这些信息到目前都还不十分明了。虽然国内外的学者对于科学知识图谱的发展都进行了综合的研究[5-7],但主要还是从描述和内容总结的角度出发的。从定量的角度来研究科学知识。

图谱领域的发展,尤其是领域的演化趋势还很少有人涉及。因此,本文主要从计量学的角度对科学知识图谱研究领域的主要参与主体和研究的内容以及研究的动态进行了深入的研究。

1 科学知识图谱主要代表人物和主要研究内容分析 1.1 种子数据集的构建和基础分析 选取汤姆森科技的SCI 和SSCI 数据库,利用“science mapping ”or “mapping science ”or “visualiz 3knowledge domain 3”or “knowledge domain 3visualiz 3”or “mapping knowledge

domain 3”为检索词进行主题检索,选取数据库收录的

所有年限的数据,检索结果共得到70篇文献。去除与该领域不相关的遥感和地理学领域的文献并经过去重处理,共得到50篇文献,是该领域的研究成果的集中代表。从这些文献的来源期刊的学科分布来看,主要集中在信息科学和图书馆科学、计算机科学和信息系统学科领域。

从学科的产出分布来看,德莱克斯大学的陈超美是这个领域最高产的作者,论文数量达到了8篇,可以说是科学知识图谱领域的领军人物。他不但比较早就开始关注和研究科学知识图谱方法,而且还自行研发了CITESPACE 一代和二代可视化软件[8],主要用于分析文献、期刊和作者之间的共被引关系。利用

PFNETs 、期望值最大化、时间序列等算法,把基于文献

的数据转化为多彩的可视化图谱。目前这个软件已经在知识图谱和文献计量领域被广泛采用。

排在第二位的是Small ,他是科学计量和文献计量领域的重要代表人物之一。从Small 的几个代表作品来看,在知识图谱领域他主要关注大科学的图谱,而不是学科专业知识的展示和揭示,着重宏观知识图谱方

第28卷 第12期2009年12月 情 报 杂 志JOURNAL OF IN TELL IGENCE

Vol.28 No.12Dec. 2009

法的理论和应用研究。排名第三、第四位的Borner和Boyack也是科学知识图谱研究领域中非常关键的人物。尤其是Borner,她进行了很多文献可视化方面的研究。2003年,美国科学院组织的“mapping knowledge domains”讨论会,她就是主要的组织者之一,而这次会议的召开也揭开了我国科学知识图谱研究的序幕,大连理工大学的刘则渊教授正是由于捕获到了这次会议的内容才引发了他对于科学知识图谱研究的浓厚兴趣。

从领域研究的主要参与机构来看,德莱克斯大学、布鲁内尔大学、美国的圣蒂亚国家实验室、荷兰的伊拉兹马斯大学和中国的大连理工大学WISE实验室都是研究成果比较丰富的机构。

由于本文获取的数据量相对比较少,而且很多文献计量的研究领域虽然没有采用知识图谱这个术语但是从事的同样也是这方面的研究,因为这些数据对于全面了解科学知识图谱研究领域并不充分。但是扩大检索词就会检索到很多不相关的信息,即使选取更多的关键词也会出现很多漏检和误检的情况,因此本文从目前科学知识图谱研究方法的融合思想出发,基于内容和引用结合的思想,通过引用这些核心文献的引文来进行数据集的拓展,这样不但避免了大量不相关信息的混入,也融入了很多由于术语的不同而内容相似的内容,扩充了分析数据源,有利于更加完整和全面地把握领域的发展状况。而且利用引文作为数据拓展方法能够把更多前沿的研究内容引入,是一种比较理想的领域数据集构建方法。

 1.2 数据集的扩展和分析 本文利用这50篇初始文献作为种子,把直接引用它们的文献也融入到科学知识图谱发展分析的数据源当中,也就是只进行一级的拓展,并没有从引用它们的文献的引用文献再进行拓展。因为网络过大的话又会使得很多不相关的污染信息源融入到分析的数据之中,不仅增加了分析的复杂度,而且也会使得得出的结论过于离散,起不到聚合分析的效果。经过去重处理之后,共得到416篇文献。

1.2.1 高产作者分析。我们利用HistCite[9]对这些文献的作者进行分析,发现产出最高的作者仍是陈超美,与种子数据源得到的结论是相同的,这也说明了陈超美在科学知识图谱领域的突出地位,而且这个数据集的构建是基于引用种子源得到的,这也在一定程度上印证了陈超美不光产出多,而且影响力也非常大。而排在第二位的是Thelwall,他是网络计量学研究的代表学者之一,在网络计量领域有着极其重要的地位,他主要关注文献计量学在网络环境中的方法的拓展。排在第三位的仍是Borner,虽然在信息科学和图书馆学领域,学者的合作,尤其是基于合著来揭示的合作现象在整个领域来说趋势很不明显,但是从Borner的作品来看,她与陈超美、Boyack、McCain、K lavans等知名的可视化和计量学方法的专家都进行过合作,从该数据集来看,Borner的作品合作率达到了84.2%,而且近年来合作出版的论文数量在逐渐的增多,虽然不能直接地说明合作促进了Borner的研究的产出数量和质量,但是也可以在一定程度上有所印证。

从产出TOP10的作者来看,G arfield和Small具有特殊性,原因在于他们的作品发表在20世纪80年代和90年代居多,这是由于科学知识图谱是在文献计量和科学计量的基础上发展起来的一种研究方法,而G arfield和Small在科学计量学的泰斗地位在全作者分析当中就被凸显了出来。

从机构产出来看,排名前10名的机构分别为德莱克斯大学、印第安纳大学、伍尔夫汉姆普顿大学、圣蒂亚国家实验室、布鲁奈尔大学、阿姆斯特丹大学、俄克拉荷马州大学、皇家图书馆和信息科学学院、亚利桑那大学、科学信息学会,这些机构在计量学研究和科学知识图谱研究领域都是世界领先的。

1.2.2 作者共被引分析。这416篇文献的参考文献中共有6419个作者,被引参考文献为12682篇,篇均作者人数不足2,由此也可以看出科学知识图谱领域的合作程度相对比较低。选取被引频次大于等于50的42位作者作为分析的对象,表1列出了被引频次排名前10名的作者和被引次数。根据这些高被引作者的共被引数据,构建作者共被引矩阵,并利用CO2 SINE方法对这个共现矩阵进行标准化处理,利用多维尺度分析方法和凝聚层次聚类方法,对这个矩阵进行可视化显示,如图1所示。这42位作者根据相似程度共分成两个大类,其中Shiffrin自成一类,这是由于Shiffrin本身并不是研究计量学的,也和科学知识图谱相关的技术研究、应用研究没有交集,他作为2003年美国科学院“mapping knowledge domain”讨论会的组织者,和Borner一起写了《mapping knowledge domains》一文,这篇综述性的文章提高他的被引频次,而他本人的研究领域是心理学。对第二大类进一步细分,分成了4个子类。其中Wise是一个独立的结点,他主要从事研究可视化技术。图1中最大的一个子类由很多高被引的作者组成,他们是科学知识图谱、科学计量学研究的主力。其次是由The Wall、Borgman等人为代表的一类,他们主要关注新的科学交流形式的研究。而另外一类是主要是从事复杂网络的特性和相关的技术研究。综合的来看,从42个高被引的研究内容得到科学知识图谱5个相关的子领域,分别研究心理学、科学计量、计量学在新的交流环境下的拓展、可视化技术和复杂网络。由于被引作者有6000多个,而本文选取的数

?

7

8

?

第12期 任红娟,等:基于文献计量的科学知识图谱发展研究

量仅占6/1000左右,虽然总被引次数占到了18.5%,但这些高影响力作者并不能从整体反映领域的全面的知识结构。而我们将被引频次阈值设为20,利用社会网络方法进行分析,结果分成了11个子类,主要包括文献计量学、网络计量学、可视化技术、社会网络分析、人工智能和人机交互、资源的分类和聚类、统计学、社会结构技术、管理科学,此外还有部分比较分散的研究主题,例如图书馆利用的可视化研究、数字图书馆和物理学等。比起前面的结构划分更加细化,内容也更加丰富。但是,从总体上来看,由于科学知识图谱植根于计量学,所以主要还是围绕计量学的方法和应用拓展方面的研究。

表1 科学知识图谱领域被引频次前10名的作者及被引频次排名作者被引次数

1Small H349

2Chen CM240

3G arfield E234

4White HD231

5Price DJD171

6Borner K162

7Leydesdorff LA132

8Boyack KW126

9McCain KW118

10Vanraan AFJ103

图1 科学知识图谱领域被引频次大于50的42位作者关系图

1.2.3 科学知识图谱主要研究内容分析。词是体现文献内容的最小单元,根据高频词就可以在一定程度上了解领域的大体研究内容[10]。本文选择作者关键词作为词频分析对单元,由于作者关键词是作者对研究内容的高度概括,是作者经过慎重考虑所做的选择,而且关键词主要以词组或者短语的形式存在,这些词的逻辑组合,是揭示论文主要内容的很好方式。为了更好地反映科学知识图谱的主要研究内容,本文选择了频次大于1的所有关键词,并对关键词进行了同词干词的处理,共得到158个关键词,如表2所示,是频次大于5的19个高频词列表。

表2 科学知识图谱领域频次大于5的高频作者关键词列表

排名 词或短语频次排名 词或短语频次1

Information Visual2

ization

2211Hyperlinks8 2Bibliometrics2012Knowledge Discovery7

3Webometrics1513

Knowledge Visualiza2

tion

7 4Citation Analysis1214Intellectual Structure6

5Pfnet1215Co-citation Analysis6

6Scientometrics1216

Co-citation Net2

works

6 7Text Mining917Citation6

8Information Retrieval818Network Visualization6

9

Knowledge Manage2

ment

819Factor Analysis6 10Mapping Science8

由表2可知,科学知识图谱主要利用文献计量、科学计量以及网络计量的方法,特别是利用引文分析,并利用比较成熟和优秀的可视化算法,例如PFNETs,对各种抽象的信息和知识利用图形表示的方法展示的一种方法,是一种非常重要的知识发现、知识管理以及信息检索工具,目前主要用于科学文献中的知识发现,用于揭示领域的知识结构和领域的研究重点,利用各种共现方法来形成网络图谱是科学知识图谱最常用的方

法。从前19个高频词,我们没

有看到诸如“mapping knowl2

edge domains”or“visualizing

knowledge domain”这类的词,

由此可见,虽然没有采用这个

术语的很多研究也都属于这个

研究的范畴。

根据所选关键词,形成共

词矩阵,对这些词利用TF/IDF

来进行标准化处理,得到共词

相似矩阵。由于利用MDS方

法最多只能处理100个对象,

因此本文仍采用社会网络分析

工具对共词网络进行分析,虽

然概念网络不属于社会网络的范畴,但是现在所谓的社会网络分析工具应该被称作复杂网络分析工具,适用于各种对象复杂关系的揭示和分析。得到的图谱如图2所示,可以把这些词粗略地分成9个连通图,根据每个组件的词,可以看出科学知识图谱的研究分支包括:科学计量学、文献计量学和网络计量学的各种方法在知识图谱中的应用和研究;科学交流理论;图论;认知冲突理论;绩效评价研究;知识和信息的共享研究;社会网络分析、各种领域的应用

?

8

8

? 情 报 杂 志 第28卷

图2 科学知识图谱研究领域的共词图谱

拓展研究和可视化技术以及各种相似性计算和图演化的方法研究。

从内容分析和引文分析的结果来看,文献计量学、网络计量学、科学计量学在知识图谱方法中应用,以及科学交流理论、社会网络分析,可视化技术研究以及图论是从两个角度都能揭示出来的研究分支,这在一定程度上说明了科学知识图谱研究并不是文献计量、科学计量方法的简单的可视化方法,而是有更加宽泛的研究内容,有许多不同于计量学的特色的内容存在,是对科学计量学和文献计量学方法的深度拓展。2 科学知识图谱主题演化分析

要了解一个领域的发展现状和发展趋势,还需要从动态的、演变的观点来考量。本文主要通过词的演化过程来了解科学知识图谱研究领域的发展重点和发展趋势,研究了2003~2008年近6年科学知识图谱的高频关键词以及这些词之间的关系。图3~图5是2006~2008年前20个高频词的关系

图,图中的结点大小表示词的频次,结点越大表明该词在当年的研究中占有的地位越高,也就表明了结点代表的研究内容的重要性和突出性。结点之间的线表示词间的共现关系,与结点连接的线的数量越多表明该词与其它词的联系越紧密。从研究结果来看,2003年科学知识图谱研究领域对于网络信息可视化、

链接可

图3 2006年20个高频词分布图

图4 2007年20个高频词分布图视化非常关注。2004年,在关注网络信息分析的同时,主要采用利用共被引、作者同被引以及引文分析等方法对许多领域进行的应用拓展分析。2005年,领域研究进一步深化,更加关注可视化的各种算法研究,共词分析方法运用也在增多,这也说明很多学者认识到但利用引用揭示学科结构并不完备,同时复杂网络的分析方法在科学知识图谱研究当中逐步地得以实施。

?

98?第12期 任红娟,等:基于文献计量的科学知识图谱发展研究

图5 2008年高频词分布图2006年,相比前几年没有很明显的主题变化趋势,但是对于复杂网络、复杂网络结构的研究不断地加强,这说明科学知识图谱的研究内容在不断的丰富,研究数据也更加复杂。2007年,比起2006年,研究的内容更加多样,关注科学的协作、科学的演化以及科学的知识结构等动态性内容的分析。2008年,科学知识图谱走向融合的发展方向,把共词、共引以及各种可视化技术、数据挖掘技术融合在一起,注重方法的融合、数据源的融合和数据处理方法的融合,而未来这将是科学知识图谱发展的主流,同时2008年的高频词中出现了“创新”一词,这和世界范围内的各种创新思想、创新运动和创新实践是密不可分的,说明科学知识图谱的方法与时代发展的脉搏紧紧相连。

3 结 语

本文利用作者共被引和共词分析方法对科学知识图谱领域的结构和研究内容进行了比较详尽的分析。但是对于方法本身的精准性和可靠性没有进行深入的研究,而且共词分析方法只是简单地去除了停用词,没有很好地进行词干的处理以及词权重进一步赋值,因此会对分析的结果准确性有一定程度的影响。在今后的研究中应该更加深入到科学知识图谱方法本身的研究。

科学知识图谱作为文献计量学、科学计量学、网络计量学、可视化技术以及社会网络分析、统计物理学、数据挖掘和人工智能等多个学科方法融合的一个研究领域,无论是研究内容的丰富性,研究方法的广博性还是从应用的广泛性、分析效果的强大性而言,都是一种非常具有发展前景的研究领域。从现阶段的科学知识图谱研究来看,方法的重复应用、数据源选取单一、研究过程缺乏科学性和严谨性都是科学知识图谱研究发展的拦路石,为了能够推动科学知识图谱研究不断地开拓新的局面,就需要有不断探索和创新的精神去解

决领域中存在各种各样的不足和难题。

特别是对科学知识图谱研究的质量和细

节的关注将是推动科学知识图谱更好发

展的一个重要研究方向。从对该领域定

性和定量的分析,我们可以了解到,科学

知识图谱的研究方法的选择具有比较大

的随意性,有的作者选取共被引分析方

法,有的选择共词方法,有的选择文献耦

合方法。对于数据源的选取,从一个或

几个数据库获取数据时并没有考证数据

的可靠性和代表性,而数据源选取的不

严谨,对于分析的结果有很大程度的影

响。而在分析的过程对于分析对象选择、阈值的选取、标准化方法以及聚类和可视化方法,甚至结果的分析都带有太多的主观臆断,因此使得整个分析的结果的准确性和可靠性大大折扣。而且一个学科作为一种复杂系统,但从一个角度来进行分析难免会有所偏颇,从对科学知识图谱内容的分析可知,融合的思想在科学知识图谱研究中逐渐地显现,而未来把各种方法有机地结合起来是促进其作为决策和评价依据的主要突破口。总的来说,从科学知识图谱发展的现状和未来的发展趋势来看,提高研究方法的准确性和严谨性,关注方法研究本身的质量控制是未来科学知识图谱一个非常值得关注的研究问题。

参考文献

[1] 陈 悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,

2005,23(2):149-154

[2] D Price.Science since Babylon[M].Yale University Press,1961

[3] G arfield E,Sher I H,Torpie R J.The Use of Citation Data in

Writing the History of Science[M].Philadelphia:Institute for Sci2

entific Information,1964

[4] G arfield,E.Scientography:Mapping the Tracks of Science[J].

Current Contents:Social&Behavioral Sciences,1994,7(45):5-

10

[5] Borner K,Chen C M.,Boyack,K W.Visualizing Knowledge Do2

mains[J].Annual Review of Information Science&Technology,

2003(37):179-255

[6] 陈 悦等.科学知识图谱的发展历程[J].科学学研究,2008,26

(3):449-460

[7] Morris,S A,Van D V M.B.Mapping Research Specialities[J].

Annual Review of Information Science and Technology,2008

(42):213-295

[8] CitespaceⅡ[CP].[2007-09-30].http://cluster.cis.drexel.

edu/cchen/citespace/

[9] HistCite[CP].[2009-02-27].https://www.sodocs.net/doc/c72783255.html,/

[10] 李文兰,杨祖国.中国情报学期刊论文关键词词频分析[J].情

报科学,2005,23(1):68-70

(责编:刘影梅)

?

9

? 情 报 杂 志 第28卷

科学知识图谱在学科评价中的应用研究[开题报告]

(2011届) 本科毕业论文(设计) 开题报告 题目:科学知识图谱在学科评价中的应用研究学院:商学院 专业:信息管理与信息系统 班级: 学号: 姓名: 指导教师: 开题日期:

一、选题的背景、意义 1.该选题的历史背景及国内外现状 科学知识图谱,是将传统的文献计量方法与现代的文本挖掘和复杂网络、数学、统计学、计算机科学方法以及可视化技术等有机地整合在一起的一种综合分析科学发展的知识发现方法。从20世纪 50年代至今,科学知识图谱的研究已经有几十年的历史。 (1)引文分析理论的发展促进了科学知识图谱的兴起。20世纪60年代,加菲尔德(Eugene Garfield)创办科学引文索引 (SCI)。1965年,普赖斯以SCI为数据来源,发表了一篇科学计量学的杰作《科学论文的网络》。在这篇论文中,普赖斯第一次提出并界定了“研究前沿”的概念。到了20世纪70、80年代,匈牙利的三位学者T.布劳温 (Tibur Braun)、W.格伦采尔 (Wolfgang Glanze1)和A.舒伯特 (Andres Schubert)以SCI数据库为基础,出版了《科学计量学指标》,这实际上是世界科学地图和科学知识图谱的雏形。 (2)复杂网络系统和社会网络分析的兴起丰富了引文分析理论与方法。美国社会心理学家斯坦利·米尔格兰姆(Stanley Milligram)于1967年通过社会网络人际关系的“六度分隔”试验发现了著名的“小世界”现象。90年代中期,比利时情报计量学专家埃格赫 (Leo Egghe)和鲁索 (Ronald Rousseau)合作出版了《情报计量学引论》,促进了科学知识图谱的产生。进入21世纪,社会网络分析的探索与应用向纵深发展,风靡全球。 (3)信息可视化为科学知识图谱提供了强大的技术支持。1999年陈超美出版了该领域的第一部学术专著《信息可视化与虚拟环境》,R.斯宾塞 (Robert Spence)2000年出版了《信息可视化》之后相关研究如雨后春笋般涌现。 总体来讲,无论是企业还是科研领域,我国对知识图谱的关注滞后于国外。相比国外知识图谱的研究状况,我国起步稍晚,但是也取得了一些成绩。国内在知识图谱的应用方面缺少理论上的实证分析,主要是将知识图谱作为一个工具,应用于各个领域,而且相对于国外,应用研究还比较薄弱。目前而言,国内知识图谱研究中存在主要困难和问题如下: (1)研究手段和方法的严重滞后 国内近几年有关知识图谱的研究也有一些,如大连理工大学的刘则渊教授带领的团队进行了科学计量学、管理学人机工程学学科以及国内所有工程领域研究前沿的知识图谱构建;武汉大学的马费成、刘青林、社科院的蒋颖等也对国内外知识管理、数字资源管理、战略管理、文献计量学等领域进行了共词图谱的绘制;南京大学的邓三鸿、浙江大学的潘有能等初步建立了图书情报学科的学科知识地图;金莹以CSSCI 数据粗略构建了我国社会科学的学

科学知识图谱研究综述

?新技术应用? 科学知识图谱研究综述 梁秀娟 (湘潭大学公共管理学院 湖南湘潭411105) 文 摘 随着可视化技术的发展,将其与引文分析技术相结合,可以直观、形象地向人们揭示学科以及学科之间的联系。本文结合国内外在引文分析和可视化方面的最新研究,从起源、概念、绘制方法、应用及研究展望等方面对科学知识图谱进行了较为详细的分析。 关键词 引文分析 可视化 科学知识图谱 Rev i ew of M app i n g Knowledge D o ma i n s L i a ng X i ujuan (Public Manage ment School of Xiang Tan University,XiangTan HuNan,411105) Abstract:W ith the devel opment of visual technol ogy which co mbined with citati on analysis technol2 ogy,it can reveal the link bet w een subjects intuitively and vividly.I n this paper,combined with the latest research on citati on analysis and visualizati on,we make a detailed intr oducti on in the areas of mapp ing knowledge domains fr om the origin,concep ts,techniques,app licati ons and the latest p r o2 gress. Key words:Citati on analysis,V isualizati on,Mapp ing knowledge domains 随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。科学知识图谱(Mapp ing Knowledge Domains)正是在这一研究领域中出现的一个新的热点。 1 科学知识图谱的起源 科学知识图谱是引文分析与数据、信息可视化相结合的产物。引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。正式的引文分析始于上个世纪50年代初,1964年美国的尤金?加菲尔德(Eugene Garfield)创立引文数据库S C I(Science Citati on I ndex,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。S C I不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在《应用引文数据撰写科学历史》(The use of citati on data in writing the hist ory of science)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作———《巴比伦以来的科学》《小科学,大科学》《科学文献的网络》中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用“知识图谱”这一概念,但是,实际上以引文分析为基础的“知识图谱”理论与方法己经应运而生了[2]。国内自上个世纪80年代引入S C I,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。 与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的

基于文献计量的_图书馆文献计量_研究综述

?综述?评介? 基于文献计量的“图书馆文献计量"研究综述 兰东明 (中北大学图书馆,山西太原030051) 摘要:运用文献计量学的方法,基于CNKI提供的数据,对近年来“图书馆文献计量”的研究论文从年代、期刊、著者、主题四方面的情况进行了统计分析,并对其主题分布进行了综述。 关键词:图书馆;文献计量 中图分类号:G255文献标识码:A文章编号:1004—1680【2009)05—0074—03 文献计量学是运用数学和统计学的方法,定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。其计量对象主要是文献量、作者数、词汇数等内容。运用文献计量学对图书馆文献计量的相关论文进行统计分析,有利于发现图书馆研究方面规律性的内容,对以后图书馆方面的研究能起到积极的指导作用。 近年来,国内较多的学者运用文献计量学方法对图书馆相关内容进行了深入地统计、分析和研究,取得了不小的成果。本文从文献计量学的角度人手,对“图书馆文献计量”的相关论文进行统计分析。 1研究方法 本文的数据取自CNKI《中国期刊全文数据库》。CNKI目前是我国最大的连续动态更新的期刊全文数据库,因此通过CNKI所得到的数据较具准确性和说服力。本人应用CNKI网络版作为统计源,使用“图书馆文献计量”为检索关键词,时间设定为1994—2008年,检索时间为2008年12月1日,得到相关论文136篇,然后使用MicrosoftEx?cel2003软件,再运用文献计量学的方法对这些论文进行了整理归纳分析。由于本人在理工科高校图书馆工作,所以不对医学类图书馆文献计量的论文进行研究,特此说明。 2统计结果 2.1论文发表时间分布 从表l可以看出,对于“图书馆文献计量”的研究,比较早的是在1994年。其中2007年发表的此类论文最多,共计30篇,占发文总量的22.06%。截止到2008年12月1日已经发文136篇。 74 表1“图书馆文献计量”研究论文年代分布 年代论文篇数所占比例% 199421.74 199532.2l 199621.47 199721.47 199821.47 199975.15 200064.4l 200l42.94 200264.41 200342.94 200464.41 20051611.75 20062417.64 20cr73022.06 20082115.43 合计136100.00 2.2论文发表期刊分布 研究论文的来源期刊有利于了解该主题的分布特点,同时掌握该研究领域的核心期刊群,对“图书馆文献计量”的研究能起到很大的帮助作用。136篇论文发表在42种不同的期刊上,图书情报类期刊共发文120篇,占88.24%,其余的论文分布于各种学报及教育杂志中。发表图书馆文献计量论文3篇以下的期刊有28种,发表4篇以上的期刊有14种, 万方数据

科学知识图谱研究综述

#新技术应用# 科学知识图谱研究综述 梁秀娟 (湘潭大学公共管理学院湖南湘潭411105) 文摘随着可视化技术的发展,将其与引文分析技术相结合,可以直观、形象地向人们揭示学科以及学科之间的联系。本文结合国内外在引文分析和可视化方面的最新研究,从起源、概念、绘制方法、应用及研究展望等方面对科学知识图谱进行了较为详细的分析。 关键词引文分析可视化科学知识图谱 R evie w of M apping Know ledge Dom ains L iang X i u j uan (Pub lic M anage m en t School of X iang Tan Un iversity,X iangTan H uN an,411105) Abst ract:W it h the develop m ent o f v isual techno logy w hich co mb i n ed w ith citation analysi s techno-l ogy,it can reveal the link bet w een subjects int u iti v e l y and v ividly.I n t h is paper,co mb i n ed w it h the latest research on citation ana l y sis and v isua lizati o n,w e m ake a de tailed introducti o n i n t h e areas o f m apping kno w ledge do m a i n s fro m the or i g i n,concepts,techniques,applications and the latest pr o-gress. K ey w ords:C itati o n analysis,V isualization,M app i n g kno w ledge do m ains 随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。科学知识图谱(M app i ng K now l edge Dom ains)正是在这一研究领域中出现的一个新的热点。 1科学知识图谱的起源 科学知识图谱是引文分析与数据、信息可视化相结合的产物。引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。正式的引文分析始于上个世纪50年代初,1964年美国的尤金#加菲尔德(Eugene G arfield)创立引文数据库SCI(Science C itati on Index,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。SCI不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在5应用引文数据撰写科学历史6(T he use of c itati on data i n w riti ng the hist o ry o f sc i ence)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作)))5巴比伦以来的科学65小科学,大科学65科学文献的网络6中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用/知识图谱0这一概念,但是,实际上以引文分析为基础的/知识图谱0理论与方法己经应运而生了[2]。国内自上个世纪80年代引入SCI,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。 与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的

文献计量学综述

文献计量学综述 一、起源及发展 早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。 三阶段:萌芽、发展和分化 萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。这些研究都为文献计量学的诞生与后期的发展奠定了基础 发展(1934- 1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到 成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。 迁移衍生: 专利计量学 文献计量学网络计量学 政策计量学 二、概念界定 文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法, 研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。学科交叉使得文献计量研究内容体系日益丰富。数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。 三、三大定律 布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。 齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。 洛特卡定律该定律描述著者人数与所著论文之间的关系。探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。 从表面上三大定律的统计对象各异,其结论也不尽相同,但是它们的研究方法存在着某些相似之处,事实上它们属于同一个分布体系。该体系被称为布-齐-洛体系。如果把期刊、字词、书籍、文章等称为信息发生源,将作品、论文、字词的出现、书籍的使用、文章的被引等称为产物,那么文献计量学的规律可认为是发生源数量与产物数量之间存在的函数关系。

我国信息计量学文献的文献计量研究

我国信息计量学文献的文献计量研究 牟 华 侯延香 (东北师范大学信息传播与管理学院,长春130117) 摘 要 通过对2000~2001年间我国信息计量学研究论文的统计,从论文数量、期刊情报源、著者情况、 主题等方面,定量地分析了这两年我国信息计量学的发展态势,并得到了多项结论。 关键词 信息计量学 计量研究 中图分类号 G 350 文献标识码 A 文章编号 100727634(2003)0820857203 The D ocu m en t M etr ic Research on Ch i nese I nform etr ics D ocu m en t M u H ua Hou Yanx iang (Info r m ati on Comm unicate &M anagem ent Schoo l of N o rth -earth N o r m al U niversity ,Changchun 130117) Abstract Based on the statistic of Ch inese info r m etrics research paper during 2000-2001,the paper quantitatively analyses the developm ent trend of Ch inese info r m etrics in recent tw o years from quantity ,peri odicals resource ,autho rs situati on and subject ,and gives m any conclusi ons 1 Keywords Info r m etrics M etric research 收稿日期:2002-10-18 信息计量学是在传统文献计量学及科学计量学的基础上扩展和演变而成的,是情报学发展的需要和必然产物。 1958年,布鲁克斯提出,似应以信息计量学(Info r m etrics ) 来替代文献计量学(B ibli om etrics )为宜,其理由是文献计量学仅拘泥于“书目的计量”,而且已不适于现代电子化载体文献的计量。进入21世纪以来,我国的许多研究人员不仅发表了大量的有关信息计量学的论文,并且从不同的角度和侧面对我国信息计量学进行了理论与应用研究。为更好地认识我国信息计量学研究现状,发现近两年信息计量学研究的重点和热点,普及信息计量学知识,繁荣学术研究和推动学科的全面发展,具有重要的科学意义和现实作用。 1 统计方法 本文的数据以《全国报刊索引》(哲社版)为基础,以《中国学术期刊题录数据库》为补充,共收集到296篇论文。并对这些论文的年代分布、期刊分布、著者分布和论文主题等进行了统计分析。 2 论文数量分析 研究论文数量在一定意义上可以反映出学科研究水平和发展速度,而某一时期文献量的变化,又从侧面体现学科发展历程的特点。2000~2001年有关信息计量学研究论文共296篇。从表1可以看出,2000年信息计量学研究论文 191篇,占论文总数的6415%;2001年为105篇,占论文总 数的3514%,明显的比2000年减少,说明信息计量学研究有下降的趋势。 表1 信息计量学研究论文的年代分析 年代 论文数量(篇) 百分比(%) 200019164152001 1053514 合计 296 100 3 期刊情报源分析 对我国信息计量学研究论文的期刊进行统计分析,不仅可以确定该领域的核心期刊,而且还可以了解各刊物的办刊特色。从统计上看,296篇信息计量学研究论文发表在91种刊物上,大体分布见表2和表3。 表2 信息计量学论文文献源分布 期刊类型种类(种)占总数比例(%)载文量(篇)占总载文量比例(%)平均载文量(篇) 图书馆学期刊2123116822197312情报学期刊661693311421515图书馆学情报学综合期刊12131257191264175文献信息学期刊551551169110高校学报242613299180112其他刊物2325134414186119总计 91 100 296 100 313 从表2可以看出,图书馆学、情报学和图书情报学综合期刊占总期刊数的4219%,而在其上发表的论文为218篇,占论文总数的73164%,说明我国信息计量学研究论文主要发表在图书馆学情报学期刊上,其中,仅情报学的6种期刊就发表论文93篇,是信息计量学研究论文的重点期刊。从表 2还可以看出,图书馆学、图书情报学的33种期刊,共发表 第21卷第8期 2003年8月     情 报 科 学   V o l 121,N o 18A ugu st,2003

文献计量学六大规律

文献计量学:文献分布定律,布拉德福定律,词频分布定律,齐普夫定律,科学论文作者分布定律,洛特卡定律,文献增长,科学文献老化,引文分析,情报冗余等。 文献信息源的定量研究开始于20世纪初。在20世纪70年代末,就形成了布拉德福定律、齐普夫定律、洛特卡定律、文献增长规律、文献老化规律、文献引用规律等六大规律,并在后来的研究中得到不断的完善与发展。 布拉德福定律:也称文献分散定律。是由英国文献学家布拉德福(S.C.Bradford)1934 年首先提出。它是定量描述科学论文在相关期刊中集中——分散状况的一个规律。经过后来的许多研究者的修正和研究,发展成为著名的文献分布理论。布氏定律的文字描述为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的…核心?区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a 2 …… 的关系(a>1)。”布氏定律主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。布氏定律的应用研究也获得了许多切实有效的成果,应用于指导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和科学评价的科学性。 洛特卡定律:是由美国的统计学家、情报学家洛特卡(A.J.lotka)研究出来的描述科学论文作者动态的最早的量化规律。在科研活动中,不同人的科研能力及其成果著述数量肯定是不同的。那么,在同样的一段抽样时间内,不同的科技工作者的论著数量分布有没有什么规律呢?1926 年,洛特卡发表了论文“科学生产率的频率分布”。他在文中统计分析了化学和物理学两大学科中一段时间内科学家们的著述情况,提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平方定律”。其经典公式为:f(x) =(C为常数)上式的意义为:设撰写X 篇论文的作者出现频率为f(X) ,则撰写X篇论文的作者数量与他们所写的论文数量呈平方反比关系。如撰写了2篇论文的作者数量大约是撰写了一篇论文的作者数量的1/4 (即1/2 2 ),写3篇论文的作者数量大约是一篇论文作者数量的1/9(即1/32),写n篇论文的作者数量大约是写一篇论文作者数量的1/n 2。洛特卡定律,探讨了科学论文著者的不平衡分布规律。通过他的研究成果,我们可以明确:在宏观的科学著述活动中,少数作者写出了大量的文章;反之,而大多数人的著述则是不多的。研究科技工作者及其论著间的数量关系有很重要的现实意义。在信息资源管理和信息利用过程中,可以用它来预测著者数量和文献数量,掌握作者的研究动态,提示不同领域中文献现状和趋势,便于对文献信息源进行有效的选择,搜集和科学管理。在科学学中,还可用它来研究科研工作者的创造活动规律,研究人才及其成果分布规律。如普赖斯就从洛特卡定律推论出“杰出科学家数量仅仅是科学家数量的平方根”。 齐普夫定律:是由美国语言学家齐普夫(G.K.Zipf)于1935年研究发现的关于文献中的词频分布规律。其具体表述如下:如果将一篇达到一定长度的文章中的词按其出现频率递减排序,根据频率高低编上相应的等顺序号,次最高的为 1 级,其次为2 级…… ,这样一直到若干级,如果用 f 表示词在文章中出现的频率,用r 表示词的等级序号,则有: fr = c (c 为常数) 应用词频分布规律及其参数,可以预测关键词的数量,计算各词汇的重要程度,对于文献标引与词汇控制、词表的编制、文献信息检索等方面都具有重要的应用价值。文献增长规律:随着科学的不断发展,科学文献的增长也成为一种客观的社会现象。对于这一现象人们在20 世纪初就已注意到。但一直到20 世纪40 年代后,由于当时图书馆管理的需要,特别是科学史研究以及科技情报工作发展的需要,文献增长规律才被研究者重视,取得了一系列研究成果。其中最具代表性的是普赖斯(D.Price )提出的科学文献的指数增长规律。普赖斯在其著作《巴比伦以来的科学》中考察统计了科学期刊的增长情况,发现科学期刊的数量大约每50 年增长10 倍。他以科技文献量为纵轴,以历史年代为横轴,不同

国内知识图谱研究综述与评估20042010年

国内知识图谱研究综述与评估:2004-2010年 * 汤建民/余丰民 2012-9-21 10:11:12 来源:《情报资料工作》2012年01期【英文标题】Review and Evaluation of Knowledge Mapping Research in China: 2004-2010 【作者简介】汤建民,男,1967年生,浙江树人大学科学计量学研究中心主任、教授,杭州310015;余丰民,1976年生,浙江树人大学图书馆副研究馆员,杭州310015 【内容提要】文章综合运用词频统计、共词分析及可视化技术等文献计量方法,分析了国内知识图谱研究的整体现状,包括论文的总量分布、发表期刊分布、作者分布、机构分布、基金资助分布及论文研究热点等,并综合归纳了论文研究的主要内容。在此基础上,对该研究领域的现状和存在的问题进行了综述和评估,并提出了相应的对策。 This paper combines word frequency analysis, co-word analysis and visualization to demonstrate the general situation of knowledge mapping study in China. The authors discuss the distribution of papers, published journals, authors, organizations and funds as well as the focus of the existing papers and sum up main contents of the study. On this basis, the paper reviews and evaluates the status of the research and its existing problems, puts forward relevant counter-measures.

基于文献计量的科学知识图谱发展研究

收稿日期:2009-05-16 修回日期:2009-07-23 作者简介:任红娟(1979-),女,博士研究生,研究方向为情报分析、文献计量和战略情报;张志强(1964-),男,教授,博士生导师,研究方向为战略情报、地球科学、生态经济学。 基于文献计量的科学知识图谱发展研究 The Evolution of Mapping K now ledge Domains B ased on the Bibliometrical Method 任红娟1,2 张志强1 (1.中国科学院国家科学图书馆兰州分馆 兰州 730000;2.中国科学院研究生院 北京 100090) 摘 要 利用文献计量方法综合研究科学知识图谱领域发展状况的研究相对比较少的问题,从构建种子数据集,并利用一级引用在进行数据集扩展的基础上,采用作者共被引和共词分析方法对科学知识图谱研究领域的知识结构进行了划分,并利用逐年演化的高频词共现关系分析了该领域的演化趋势和研究重点,从定量和定性结合的角度对科学知识图谱研究领域进行了全面的描述。关键词 作者共被引 共词分析 科学知识图谱 中图分类号 G 310 文献标识码 A 文章编号 1002-1965(2009)12-0086-05 0 引 言 科学知识图谱[1],是将传统的文献计量方法与现代的文本挖掘和复杂网络、数学、统计学、计算机科学方法以及可视化技术等有机地整合在一起的一种综合分析科学发展的知识发现方法。它利用一定的方式把抽象数据映射在2D 或3D 的图形中,从宏观、中观、微观各个层面来揭示一个领域或者学科、主题发展的概貌,使得人们能够从各个角度全面地审视一个学科的结构和研究热点、重点等信息。由于图形展示方式,非常符合人的认知习惯,而且比起文本信息,人的大脑能够处理更多的图形信息,因此科学知识图谱的方法越来越受到各个领域研究者的关注。 虽然自文献计量学出现以来就有了科学知识图谱发展的雏形[2-4],但其真正的发展是在20世纪90年代末。十多年来科学知识图谱方法体系在不断的发展和扩充,如今处在一个什么样的发展阶段?主要研究哪些内容?领域的主要领军人物是谁?领域的研究结构如何?这些信息到目前都还不十分明了。虽然国内外的学者对于科学知识图谱的发展都进行了综合的研究[5-7],但主要还是从描述和内容总结的角度出发的。从定量的角度来研究科学知识。 图谱领域的发展,尤其是领域的演化趋势还很少有人涉及。因此,本文主要从计量学的角度对科学知识图谱研究领域的主要参与主体和研究的内容以及研究的动态进行了深入的研究。 1 科学知识图谱主要代表人物和主要研究内容分析 1.1 种子数据集的构建和基础分析 选取汤姆森科技的SCI 和SSCI 数据库,利用“science mapping ”or “mapping science ”or “visualiz 3knowledge domain 3”or “knowledge domain 3visualiz 3”or “mapping knowledge domain 3”为检索词进行主题检索,选取数据库收录的 所有年限的数据,检索结果共得到70篇文献。去除与该领域不相关的遥感和地理学领域的文献并经过去重处理,共得到50篇文献,是该领域的研究成果的集中代表。从这些文献的来源期刊的学科分布来看,主要集中在信息科学和图书馆科学、计算机科学和信息系统学科领域。 从学科的产出分布来看,德莱克斯大学的陈超美是这个领域最高产的作者,论文数量达到了8篇,可以说是科学知识图谱领域的领军人物。他不但比较早就开始关注和研究科学知识图谱方法,而且还自行研发了CITESPACE 一代和二代可视化软件[8],主要用于分析文献、期刊和作者之间的共被引关系。利用 PFNETs 、期望值最大化、时间序列等算法,把基于文献 的数据转化为多彩的可视化图谱。目前这个软件已经在知识图谱和文献计量领域被广泛采用。 排在第二位的是Small ,他是科学计量和文献计量领域的重要代表人物之一。从Small 的几个代表作品来看,在知识图谱领域他主要关注大科学的图谱,而不是学科专业知识的展示和揭示,着重宏观知识图谱方 第28卷 第12期2009年12月 情 报 杂 志JOURNAL OF IN TELL IGENCE Vol.28 No.12Dec. 2009

Bibexcel进行文献计量分析和引文分析快速指南

Bibexcel进行文献计量分析和引文分析快速指南 Alan Pilkington 【a.pilkington@https://www.sodocs.net/doc/c72783255.html,】 概述与安装 本人使用Bibexcel业已多年,一直向大家推荐这个工具。但是,总是被人们问及如何上手使用,每次拿它进行分析的时候,总是要回头再次读一读自己手写的笔记。所以,我感到有必要就如何利用Bibexcel进行文献计量分析写出一个介绍性的东西,希望能给大家提供有用的信息。如果有任何建议或者发现任何错误,请通知我。 Bibexcel是一个用于文献计量分析、特别是引文分析的完美工具。用户可以在www.umu.se/inforsk网站上获得最新版本。其安装也十分简单,只需要把文件拷贝到硬盘的目录下即可,记住要把帮助文档也放在一个目录下。如果本指南不能满足你的需求请到该网站上浏览网页。 利用Bibexcel进行引文分析 第一步要有用于分析的来源数据。在引文分析中,来源数据就是从《科学引文索引》、《社会科学引文索引》中检索到来源文献。这两个数据库是商业数据库,是Web of Science或者ISI数据服务的组成部分,你所在的大学可能已经订购了它们。 《科学引文索引》和《社会科学引文索引》的使用 和平时一样,使用WOS/ISI检索功能检索到来源文献。在开始下载文献之前,必须了解你研究的内容。如果是对一种期刊的文章内容进行分析,其来源文献很容易确认下来。比较复杂的研究有可能是针对某一作者或者大学的某个系的文献记录。无论你的计划是什么,如果你是要从《科学引文索引》和《社会科学引文索引》中下载数据,下载和准备数据的步骤都是一样的: 在WOS,下载前需要对要下载的记录进行标记。然后开始下载所选择的论文,保证下载项目中包括论文的引文。可以通过“download for future analysis (为进一步分析而下载)”或者通过电子邮件发给自己,两种方式都生成纯文本文件。 如果下载的文献记录过多,下载中有的时候会导致数据传输超时。可以打开已经得到的文件查看(可以用Bibexcel中左上角的窗口找到文件,在左下角的窗口中可以看到文件的内容,也可以使用文本编辑器),找到文件的最后几行,看看是否存在HTML格式错误,如果有错误就表明下载中出现了超时。如果出现超时,解决的办法只有重新下载并注意减少下载记录的数量,比如减少检索的年限。如果是分段下载的,必须记住,在下一步分析之前,要把分离的文件重新组合到一起。用文本编辑器(如记事本)打开这些文件,剪切和粘贴,要保证在合成的文件的顶部只有一个文件头,而不是在已下载的每一个部分的开头: FN ISI Export Format VR 1.0 利用文本编辑器可以很容易查看纯文本中的数据,但是在使用诸如MS wor d之类的字处理器时候要当心,因为它们会增加字符、重新定义过的行格式和其他可以在后来引起问题的东西。

大数据在商业中的研究态势与前沿热点--基于科学知识图谱的文献计量分析

基金项目:国家自然科学基金项目 互联网+ 平台型企业创新生态系统的治理二协同效应与生态优势研究 (项目编号:71772163?项目负责人:谢洪明)成果之一?浙江省自然科学基金项目 浙江省自然科学基金项目 互联网+ 背景下平台生态系统的竞争力及其动态竞争 (项目编号:LY16G020009?项目负责人:谢洪明)成果之一? 作者简介:谢洪明?管理科学与工程博士?浙江工业大学管理学院教授二博士生导师?研究方向:企业战略管理?杨浩(通信作者)?浙江工业大学管理学院硕士研究生?研究方向:创新创业二战略管理? 大数据在商业中的研究态势与前沿热点 基于科学知识图谱的文献计量分析 谢洪明一杨一浩 (浙江工业大学管理学院?杭州310023) 摘一要:基于WOS数据库文献来源?运用文献计量方法?对2011 2018年和商业相关联的大数据研究文献数据进行文献统计分析以及关键词共现分析?绘制研究热点知识图谱?研究发现:基于商业的大数据研究呈现多科学交叉趋势?涉及管理二经济二信息技术等多个学科?信息技术二大数据与商业管理和经济的渗透发展二新时代背景下的大数据和商业深度融合应用是当下研究热点?社交网络二企业组织二知识管理是近几年来的前沿趋势?关键词:商业领域?大数据?知识图谱?研究热点 一一随着信息技术的发展?人类进入数字信息时代?互联网二云计算二物联网二GPS等新兴技术的涌现催生了海量数据?2011年?麦肯锡在题为?海量数据? 创新二竞争和提高生产率的下一个新领域?的研究报告中指出?数据已经渗透到每一个行业和业务职能领域?逐渐成为重要的生产因素?而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来?人二机二物三元世界的高度融合?带来数据规模的爆炸式增长?促进当今社会进入大数据时代?2008年9月世界顶级学术期刊?Nature?出版 BigData 专刊? 大数据 逐渐在学术界得到越来越多的关注?大数据在商业和消费者创造价值方面具有巨大的潜力?其所蕴含的潜在价值将被释放?引起新一波的创业方向二创造价值和投资机会 [1] ? 1一数据来源与研究方法 本文选择国际公认社会科学领域中最好的核心期刊数据库 ISIWebofKnowledge中的SCI ̄EX ̄ PANDED和SSCI数据库作为文献来源?主题词选择 bigdata ?将文献类型限制为论文和综述?年限为 2011 2018年?将学科类别限制在管理二商业二经济二商业与金融4个相关领域?通过对搜索结果进行精炼?最后得到739篇文献?筛除搜索结果中的新闻报道和无关联文献?最后确定726篇文献作为数据来源?科学知识图谱把知识域作为对象?以图像形式显示科学知识的发展进程与结构关系[2]?通 过对文献信息可视化分析?使研究者能够直观捕捉相关研究领域的作者和研究机构二关键词二参引文献二被引作者等?从而把握某一学科或知识域在一定时期发展的趋势与动向[3 ̄4]?本文使用CiteSpace可视化分析软件绘制可视化知识图谱?梳理和总结商业层面上大数据研究的热点与态势?并在此基础上提出未来该领域的研究展望?以提供理论价值和实践意义? 2一论文数据统计分析 2.1一文献增长趋势分析 通过对文献数量变化及时序规律的统计分析?可以把握某一领域的总体发展速度及研究水平?图1显示了近8年来商业领域大数据研究的时间特 征?该领域大数据研究文献从2011 2018年间呈现总体上升趋势?从检索到的726篇文献中可以发现?虽然大数据研究至今已经有十余年?但在2011年之前商业领域的大数据研究论文依旧是空白状态?直到2011年Lavalle二Steve等人在?MITSLOANMANAGEMENTREVIEW?上发表了题为?BigData? 2 4

科学知识图谱

科学知识图谱应用研究概述 廖胜姣肖仙桃 知识图谱是可视化显示知识资源及其关联的一种图形,可以绘制、挖掘、分析和显示知识间的相互关系,在组织内创造知识共享的环境,从而最终达到促进知识交流和研究深入的目的。从20世纪50年代至今,科学知识图谱的研究已经有几十年的历史。科学知识图谱出现之前,科学计量学家们一直努力在寻找一种同传统方法相比,具有更大的客观性、科学性、数据的有效性和高效率的新方法来研究科学学科的结构与进展。科学知识图谱出现之后,其相关的理论与应用研究不断涌现。本文试图从应用的角度对科学知识图谱的研究与发展状况进行一个系统的梳理,具体从应用领域、研究机构与网站以及绘图软件方面着手。 1应用研究现状 从20世纪50年代开始兴起的各种文献计量方法为科学知识图谱的出现奠定了坚实的理论基础,是科学知识图谱理论与方法的“根”。如今,知识图谱已经成为计量学领域的一个新兴分支,活跃在各个领域的研究中。笔者将从应用领域、研究机构和软件方面阐述科学知识图谱的应用研究状况。

1.1应用领域方面 科学知识图谱的应用领域很广,从科研到教学到社会问题的解决等,无不渗透。 1.1.1应用于科研领域 笔者认为,知识图谱最早是在科研领域活跃起来的。在知识图谱中,学科前沿之间的交互关系是以空间的形式展现出来的。研究发现,科学引文与被引文之间往往有着学科内容上的联系。通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体,分析推测学科间的交叉、渗透和衍生趋势,还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。这里仅列举近些年知识图谱的一些应用研究情况。White,McCain,Garfield,Boyack,Huang等对知识图谱的用途进行了不断的扩充,得出知识图谱的主要应用有:文献、专利的结构分析;学科动态、社会网络、领域发展分析等;Shiffrin等认为,涉及到展开的学科间科学区域的知识图谱旨在绘制图形、挖掘、分析、分类、导航以及显现知识等等。 将知识图谱方法应用于构建学科知识图谱的研究人员

文献计量学分析

文献计量学 用数学和统计学的方法,定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。其计量对象主要是:文献量(各种出版物,尤以期刊论文和引文居多)、作者数(个人集体或团体)、词汇数(各种文献标识,其中以叙词居多)文献计量学最本质的特征在于其输出务必是“量”。 文献计量学是以几个经验统计规律为核心的。例如:表征出科技文献作者分布的洛特卡定律(1926);表征文献中词频分布的齐普夫定律(1948);确定某一学科论文在期刊中分布的布拉德福定律(1934)等。文献计量学一直围绕这几个定律,沿着两个方向发展:其一是验证与完善这些经验定律;其二是扩大与推广这些经验定律的实际应用。 洛特卡定律:洛特卡定律是由美国学者A.J.洛特卡在本世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”。它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写3篇论文的作者数量约为写1篇论文作者数量的1/9;写n篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。该定律被认为是第一次揭示了作者与数量之间的关系。 f x=?/x2=0.6079/x2 x为科学工作者发表的论文数量;f x为发表x篇论文的著者出现的频率;C 为常数。 齐普夫定律:齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有f*r=C(C为常数)。人们称该式为齐普夫定律。 布拉德福定律:布拉德福定律是由英国著名文献学家B.C.Bradford于本世纪30年代率先提出的描述文献分散规律的经验定律。文字表述为:如果将科技期刊按其刊载某专业论文的数量多寡,以递减顺序排列,则可分出一个核心区和相

科学知识图谱效能评估可视化分析

系统效能是系统的实际行为表现与系统目标的匹配程度,其度量和评估往往牵涉系统科学、管理科学和行为科学等多个领域[1]。目前,国内效能评估研究成果多集中在武器装备[2]、火控雷达[3]、电子对抗[4]等领域,研究内容包括评估指标体系及模型构建、评估方法及模拟仿真。但是,这些研究主要是效能评估领域某一知识点的微观聚焦,缺乏对该领域研究现状整体格局的宏观可视化分析。科学知识图谱(MappingKnowledgeDomains)是用于显示科学知识发展进程和结构关系的图形,既是具有时间序列化的知识谱系,又是可视化的知识图形;可对知识或研究群体所构成的复杂网络进行聚类分析和共引分析,将海量数据以图形、图像等可视化集中表现形式,挖掘数据之间的潜在关联,实现数据可视化信息处理,以协助人们做出科学合理的决策[5-6]。科学知识图谱分析技术在大数据时代背景下发展迅速[7],目前被广泛应用于管理科学[8]、安全科学[9-10]、科技管理[11]等领域。笔者基于华裔学者陈超美开发的科学知识图谱可视化软件CiteSpaceV[12],以中国知网CNKI上的核心期刊为数据源,检索效能评估领域近20年所载论文,分析研究成果产出时序、研究力量分布、作者合作、机构合作、关键词及其文献共引、突变词分析;通过科学知识图谱的可视化分析呈现效能评估研究领域的知识结构、规律和分布情况,实现科学知识从微观聚焦到宏观可视化分析的突破,进而对效能评估领域研究动态的总体把握。 1效能评估研究成果可视化分析 1.1数据来源及方法。以“主题=效能评估”在中国知网(CNKI)上检索最近20年(1998年~2017年)的文献,共得到3089条数据;根据布拉德福定律可知,少数核心期刊集中了该研究领域的大量重要文献,于是在高级检索中将期刊来源类别选择为核心期刊和EI源期刊,检索条件:精确,经过筛选去除不相关的声明、通知、公告等,可得该领域的有效文献1248篇。将检索结果导出为Refworks文本文件,导入CiteSpaceV中进行格式转换,“TimeSlicing”选择1998年-2017年,“YearsPerSlice”设置1年为一个时间分区,“TOPNPerSlice”选择阈值50,即每个时区选择高频出现的前50个节点,采用网络裁剪运算策略(pruningslicednetwork),绘制作者、机构合作网络知识图谱,有效地完成效能评估领域科学研究进行可视化分析。1.2论文产出时间图谱。论文产出是衡量研究领域已有知识的累积量以及成熟程度的重要指标,笔者将效能评估研究近20年的核心期刊论文进行时间图谱分析如图1所示:效能评估领域研究论文产出曲线基本符合科学文献的指数增长规律———普赖斯逻辑增长曲线。1998年-2000年,国内效能评估研究还处于初级阶段,论文年平均不超过10篇,是普赖斯曲线缓慢增长的初级阶段;2001年-2003年,国内效能评估

相关主题