103
实践研究
摘要文章在文献综述的基础上探讨了大数据与高校图书馆数据监护之间的关联,认为大数据与数
据监护存在相辅相成的联系,大数据对高校图书馆的数据监护起着推动作用。
关键词大数据高校图书馆数据监护数据管理
An Exploration of Big Data -driven University Library Data Curation
Zhon g Shen g (L ibrar y of Chinese Arts Resear ch Colle g e ,Bei j in g ,100029)
Abstract The author firstly reviews present research documents ,discusses the connections between univer sity li -brar y 's data curation and bi g data ,and thinks there are connections of hel p in g each other between data curation and bi g
data ,at same time ,bi g data p la y s p r om p tin g role in universi t y libr ar y 's data curation .
Keywords
big data ,
university libr ar y ,
data curation ,
data management
大数据驱动的
高校图书馆数据监护探究
钟
声(中国艺术研究院图书馆
北京
100029)
1研究缘由———基于目前研究文献的述评1.1我国图书馆数据监护与大数据研究现状随着现代信息技术、通讯技术和E -Scienc e 的迅速发展,大量的科学数据得以产生;科学数据的作用正逐渐被重视,特别是科学数据的长期保存、维护、管理和二次开发利用等方面。于是,近两年来数据监护(Data Cur ation )、大数据(Big Data )作为新兴的研究领域应运而生。国外图书馆(尤其是美国高校图书馆)已充分意识到数据监护和大数据带来的机遇和挑战,并设法将图书馆服务边界拓展到科学研究和学术交流的新阶段———数据阶段;而我国图书馆在这方面则显得有些滞后。关于数据监护的含义,笔者引用英国联合信息系统委员会(Joint Infor mation S y stems Committee ,JISC )的界定:“数据监护是为确保数据当前使用之目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动。对于动态数据集而言,数据监护意味着需进行持续性补充和更新,以使数据符合用户需求”[1]
。而对于大数据,目前尚无公认的准确定义,较典型的描述是由美国国家科学基金会(NCF )提出
的:大数据是指“由科学仪器、传感设备、互联网交易、
电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”[2]
。我国图书馆界的学者密切关注数据监护与大数据的热点并积极展开研究。笔者为了探寻目前学术界在此方面的研究现状,特检索了中国知网的学术期刊全文数据库,发现国内学者更热衷于有关大数据的研究,其热度远强于对数据监护的研究,总体检索情况如表1。
表1
中国知网全文数据库检索记录一览表
注:检索字段:篇名;方式:精确查找;时段:2003.1-2013.12。
笔者对目前发表的文献进行了归类、整理,总结得出学术界针对数据监护的研究主要集中在以下主题:美国高校图书馆的数据监护及其对我国的启示[3-5]
;国外数据监护教育及其发展[6-7];科学数据监护的研究和实践[8-9]
;国外图书馆数据监护岗位的设置与需求状况[10];我国高校图书馆数据监护的必要性及策略建议等[11]。而关于大数据的研究主要涉及:
大数据的概
念界定、特征等[12];图书馆应对大数据的措施[13];大数据为图书馆带来的益处和图书馆服务方式的变革[14];大数据对图书馆科学研究的影响和图书馆大数据体系构建的学术环境等[15]。
1.2基于目前研究文献的评述
高校图书馆致力于信息服务的开展和读者满意度的提升,但往往忽视了对科学数据的研究,这对于图书馆的知识服务和长远发展是不利的。数据监护和大数据作为新兴信息技术的产物,不可避免地会对图书馆产生一定的影响和冲击;图书情报界的学者也必然会密切关注数据监护和大数据的研究进展。从目前发表的相关研究文献可以看出,图书馆界的学者从不同视角对数据监护和大数据进行了研究,取得了一定的成效;相比之下,对大数据的研究热情超过对数据监护的研究热度,而且还在继续“升温”。这对于提高高校图书馆学科馆员参与科学数据服务的知识水平,进而提高高校图书馆的数据分析和维护能力,进一步提升图书馆的社会价值肯定有较大的理论参考和现实借鉴意义。毋庸讳言,目前针对数据监护和大数据的研究尚存在一些缺陷,如:大多集中在对国外发展和应用情况的概括性介绍,而针对国内的经验总结较少;大部分学者重在理论研究而对相关实践的研究关注较少,有些甚至人云亦云,缺乏一定的创新;有学者提出了一些解决问题的策略建议,但较为笼统,缺乏必要的可行性分析,在现实中实施尚有一定难度。最主要的遗憾是没有将高校图书馆的数据监护和大数据结合起来进行研究。也许有人要问:“图书馆的数据监护和大数据有联系吗?”笔者可以肯定地回答这个问题:二者之间存在必然的联系。将它们结合开展研究,对于当前处于大数据时代的高校图书馆来说显得重要而迫切。关于这一点,往往被研究者们所忽略。为了验证此结论,我们不妨回看表1的检索记录,不难看出:迄今为止,国内仍没有出现将数据监护与大数据结合起来进行综合研究的文献(检索记录为0)。时下盛行的大数据与数据监护究竟有无必然的联系?高校图书馆又将如何看待?对此,笔者进行了认真的思考,并基于创新的视角,将高校图书馆的数据监护和大数据结合起来进行研究,希望引起图书馆界的关注和重视,这便是本文的研究缘由。
2大数据与数据监护:二者相辅相成
数据监护中的数据是特指通过科学实验和调查研究而产生的原始数据,这不同于计算机存储的数字化编码。目前学术界对数据监护的确切含义还没有达成共识,但这并不影响对数据监护的研究。数据的重要性已是有目共睹的:它是项目研究成果的重要组成部分,也是实现科技创新的必要基础。如果不对科学数据进行科学、高效的管理,那么项目成果将无法得到科学的验证,也就不能发挥科学数据共享和利用的社会价值。数据监护则承担起科学数据的选择、评估、组织、维护等具体工作,因此,数据监护对于发挥科学数据的最大价值具有较重要的意义。数据监护的对象是科学数据,而对海量的科学数据管理又是一项十分复杂的工程,因而构建科学有效的数据监护模型显得非常必要。有学者认为数据监护模型应包括科学研究产生数据、数据发表、数据监护这三大部分;数据监护需要数据监护人员与科研人员的共同参与,国家政策、教育的支持,而高校图书馆则是数据监护的最佳部门[8]。我国的科研机构,特别是中小科研机构在科学数据监护方面仍存在不少问题,也遇到一些障碍。
大数据是当前数据分析领域的前沿技术之一,可以这样简单地理解:大数据技术即是从各类型的数据中快速获得有价值信息的能力之技术。一般认为,大数据具有4种基本特性,或简称为“4V”特征:数据容量(Volume)巨大、多样性(Var iet y)、处理速度快(Velocity)、价值(Value)密度低[16]。关于大数据的应用领域成为社会公众关注的焦点,国外发达国家(特别是美国)的企业界已看到了应用大数据的商机,并掀起研究和应用大数据的热潮。对于图书馆界来说,大数据技术也可以助推图书馆界改善基础服务体系,拓展增值性的附加服务。大数据并不同于海量数据的概念,同时,大数据与现有的数据库技术也存在差异,其对比如表2所示[17]。
表2大数据与现有数据库技术的差异之比较
虽然数据监护与大数据是两个不同的概念,但它们二者之间有着必然的联系,笔者将其概括为相辅相成的关系(如图1所示)。首先,数据监护将有效应对大数据带来的挑战。高校图书馆是知识服务和学术信息交流的中心。随着信息技术和交流方式的变化,图书馆的数据类型在逐渐增加,大规模的海量数据将成为未来数字图书馆的重要组成部分。以往高校图书馆对这些大数据特别是科研数据缺乏有效的管理,致使数据未能发挥应有的价值。大数据给高校图书馆带来的挑战是多方面的,如数据存贮能力、复杂数据的分析处理能力以及服务方式的创新等;数据监护是对数据进行有效的维护和管理,提高了学科馆员的能力结构和技能要求,帮助高校图书馆应对在大数据环境中的挑战。其次,大数据催生数据监护人才岗位需求。大数据的收集、组织、存储等催生数据监护方面的人才需求,而高校图书馆恰好缺乏数据咨询馆员、数据处理专家和分析专家这样的数据监护人才。高校图书馆
实
践
研
究
104
图1高校图书馆数据监护与大数据联系示意图
为了拓展服务范围,将目标转向数据监护和管理服务,应当及时开展数据监护教育和培训计划,合理设置数据监护岗位,培养合格的数据监护人才。最后,大数据和数据监护二者共同促进高校图书馆的数据管理工作,对大数据时代中的图书馆员提出新的知识和技能要求,为图书馆员的职责转变和高校图书馆的服务变革带来新契机,抢占数据管理和服务的阵地。
3大数据驱动的高校图书馆数据监护
3.1大数据时代高校图书馆是数据监护的重要主体
全球知名咨询公司麦肯锡最早提出“大数据”的概念;2012年成为大数据的元年,大数据时代已经到来[18]。然而,对这些浩如烟海的大数据如何科学地管理和维护,如何培养专业的数据监护人员应对大数据环境所带来的挑战,则是众多机构感到头疼的问题。高校图书馆是大数据的重要“阵地”之一,其大数据主要包括图书馆的数字化资源、读者浏览历史所形成的非结构化数据以及社交网络时代出现的大量非结构化数据等。大数据可以帮助高校图书馆实现针对不同读者的个性化服务,为本馆的数据库采购部门提供资源评价意见等。随着科研大数据的不断增多,高校图书馆将逐渐实现转型,服务目标转向新的服务形式———数据服务,为此,必须要对科学数据进行数据监护。大数据时代的高校图书馆将成为数据监护的重要主体,因为高校图书馆具备数据监护的良好条件:一是具有数据监护的硬件设施条件。高校图书馆经过长期的数字图书馆建设,拥有专门的数据服务器和存储设施,而这些设备也可用作数据监护。二是高校图书馆逐渐增强了数据监护的意识。高校图书馆的传统服务模式受到影响和挑战,为了不被边缘化,必须积极创新探索新的服务方式。图书馆员已逐渐意识到高校图书馆可以尝试为用户开展科学数据的各项信息服务,以便更好地服务于科学研究,充分发挥高校图书馆知识保存和服务中心的价值,由传统的机构库或学术交流岗位向数据监护岗位转型。高校图书馆可凭借自身知识
资源丰富的优势,提供能稳定运作、高效率的统一数
据监护平台。
3.2大数据助推高校图书馆对数据监护的研究
国外高校的图书情报学院和图书馆在数据监护
的理论研究与实践应用方面均已取得较大的成效,尤
以美国较为突出。有学者总结了美国高校图书馆有关
数据监护的研究和实践特色:制定明确的数据监护规
划和发展策略,以便推动研究进程;追求数据监护的
良好协作;开展数据监护教育,培养优秀人才等[4]。另外,美国康奈尔大学图书馆推出一项以机构库为基础、
主要针对科研学者的数据监护研究和服务项目———
数据阶段型存储库(Data Sta g in g Re p ositor y,简称DataStaR),并得到较多基金机构的认可,在申报会上
专门做数据监护宣传[19]。大数据的出现和发展刺激了
数据监护人才新的岗位需求,促使国外学者开展数据
监护教育和技能培训的研究。有学者指出,国外学者
在数据监护教育方面的研究内容主要有三类:一是从
整体上分析数据监护相关利益者的角色与职责;二是
专门研究图书馆员在数据监护中的角色定位及职业
技能;三是追溯数据管理技能教育与培训机构以了解
其对数据管理人才的培养计划[6]。近几年国外学者将
研究重点逐渐转向图书情报学院为了满足社会需要
设置数据监护课程、培养符合实际需求人才所做的
实地调研,较典型的如:北德克萨斯大学信息学院Kim J.等为设计该学院“信息:监护、存档、管理、保存”(Information:Curatation,Archive,Manage,Pr eserve)
项目课程体系而做的系统调研[20];伊利诺伊大学图书
情报研究生院的Cra g in M.H.等为设计该学院开设的“数据监护教育项目”(Data Curation Education Program)
课程所做的调查研究[21];美国的北卡罗来纳大学教堂
山分校图书情报学院Lee C.为构建数据监护核心知
识能力矩阵所做的调研[22]。国外的数据监护研究和应
用实践为我国图情教育课程体系的构建及高校图书
馆的人才培养提供了新的启示和借鉴。然而令人遗憾
的是我国并没有对数据监护的研究和应用引起重视,目
前的研究文献仅简要提及,未见系统的专门研究。大数
据将为我国高校图书馆数据监护提供新的研究动向及
研究热点,图书馆通过对科研数据和读者数据的收集汇
总并进行大数据分析,可以分析用户需求和相关领域科
研热点的动向,并对分析的数据进行科学的管理和维护,为科研部门和学者提供决策参考服务。通过数据监护,让高校图书馆融入到科学研究领域的环境中,及时
了解科研动态,提升高校图书馆的社会价值。
3.3大数据催生高校图书馆对数据监护人才的需求
随着科学数据的不断增加,其作用逐渐得到重视。国外图书馆(尤以美国为典型代表)已意识到必须
应对大数据的机遇和挑战,并开始设置专门的数据监
实
践
研
究
105
106
欢迎订阅
人大复印报刊资料《图书馆学情报学》全文数据库
地址:北京9666信箱市场部邮政编码:100086
账
号:190101040000016
开户银行:中国农业银行东四北支行
中国人民大学书报资料中心隆重推出复印报刊资料《图书馆学情报学》(G9)回溯数据库。数据库以一张光盘形式提供。1982年—1994年数据库报价为1100元。1995年以后每季度更新数据,全年更新费为200元。该数据库可以全文检索,检索结果可以复制、拷贝、打印或者根据用户的需求进行再编辑。
联系单位:中国人民大学书报资料中心
联系电话:010-********/
38/4062512171户名:中国人民大学书报资料中心
网
址:www .zlzx .org
实
践
研究护岗位,较典型的如:数据专家(Data Scientist )、数据研究专家(
Data R esearch Scientist )、数据服务馆员(Data Services L ibrarian )、数据人文专家(
Data Humanist )等,将图书馆的服务边界加以拓展。大数据的收集汇总、组织与保存等刺激了高校图书馆对数据监护岗位的需求,催生了数据监护人才。这些数据监护岗位是为了适应大数据环境中高校图书馆新的数据服务角色与业务而设置的,对我国图书馆来说属于全新的岗位类型。高校图书馆是数据监护的主要探索者与引领者,为了跟上大数据时代的潮流,需要重新审视在科学数据管理中的角色定位,开展数据监护教育与培训,将已有的学科服务成员(如学科馆员、教学馆员、联络馆员等)培养成为素质较高的数据馆员或数据处理专家,这正是图书情报学家的神圣使命[23]。未来的图书馆员将走出去,参与到科研学者们的科研活动中,在馆外继续实现大数据的管理工作。
参考文献
[1]Lord P ,Macdonald A .Dat a C urat ion for e -Science in t he UK :
An Audit to E stablish Re q u irem ents for Future Curation and
Provision [E B /OL ].[2013-12-22].http ://www .jisc .ac .uk /uploaded _docum ents /e -scienceReportfinal .pdf .[2]What 's Bi g Data ?[E B /OL ].[2013-12-22].htt p ://www .
nsf .gov /funding /pgm _summ .jsp ?pim s _id =504767.[3]杨鹤林.数据监护:美国高校图书馆的新探索[J ].大学图
书馆学报,2011,29(2):18-21,41.[4]程莲娟.美国高校图书馆数据监护的实践及其启示[J ].图
书馆杂志,2012,31(1):76-78.
[5]杨鹤林.从数据监护看美国高校图书馆的机构库建设新思路———来自DataStaR 的启示[J ].大学图书馆学报,2012,30
(2):23-28.
[6]叶兰.国外数据监护教育与职业发展研究[J ].大学图书馆学报,2013,31(3):22-28,37.[7]夏姚璜.国外数据监护教育和培训实践及启示[J ].新世纪
图书馆,2013(6):35-37.
[8]张秋彦.高校科学数据监护研究[J ].情报科学,2013,31(5):42-45.[9]殷沈琴,张计龙,窦
方.欧洲科学数据监护的标准与实践
———UKDA 案例研究[J ].图书馆杂志,2013,32(6):76-80.
[10]叶兰.国外图书馆数据监护岗位的设置与需求分析[J ].
大学图书馆学报,2013,31(5):5-12.
[11]裴玉香.高校图书馆数据监护工作初探[J ].图书馆理论与
实践,2013(8):79-81.[12]姜
山,王
刚.大数据对图书馆的启示[J ].图书馆工作
与研究,2013(4):52-54,79.[13]容春琳.公共图书馆应用大数据的策略研究[J ].图书馆建
设,2013(7):91-95.
[14]韩翠峰.大数据时代图书馆的服务创新与发展[J ].图书
馆,2013(1):121-122.[15]张兴旺.图书馆大数据体系构建的学术环境和战略思考
[J ].情报资料工作,2013(2):12-17.
[16]The Whit e Hous e .B ig Data Across t he Federal Governm ent [EB /OL ].[2013-12-22].htt p ://www .wh itehou se .g ov /
sites /de fault /files /microsites /ost p /b ig _data _fact _sheet .pd f .
[17]Big Data :T he Next Front ier for Innovation ,Com petition and Prod uctivit y [E B /OL ].[2013-11-22].htt p ://w ww .mck
in sey .com /Features /Big Data .
[18]Th e Wall Street Journal .B ig -Data Success Stories :Splunk
[E B /OL ].[2013-12-22].http ://blogs .wsj .com /venturecap it al /2011/10/21/bi g -dat a -su ccess -stories -s p lunk /.[19]DataStaR [EB /OL ].[2013-12-22].http ://DataStaR .mannlib .cornell .ed u /.[20]Kim J ,War g e E ,Moen W .Di g ital C urat ion in the Acad em ic
L ibrary Job Market [EB /OL ].[2013-12-22].http ://w ww .asis .org /asist2012/proceedings /sub missions /283.pdf .[21]Cra g in M H ,Palm er C L ,Varvel Jr V E ,et al .Anal y zin g Dat a
Curation Job Descri p tion s [E B /OL ].[2013-12-22].htt p ://
www .ideals .illinois .edu /han dle /2142/14544.[22]Lee C .What do Job Postin gs Indicate about Digital Curation Com p et encies [E B /OL ].[2013-12-22].htt p ://ils .unc .edu /
digccurr /digccurr -saa -research -forum -2008.pdf .[23]武汉大学信息管理学院.美国匹兹堡大学信息管理学院院长Ron ald Larsen 来院交流访问:“I -school 教育与新一代
数据处理家”[E B /OL ].[2013-12-22].htt p ://www .sim .whu .ed u .cn /board /show _b oard _n ews .php ?board _news _id =2531.
[作者简介]钟
声,男,1967年生,中国艺术研究院图书馆馆员。
收稿日期:2014-01-06