搜档网
当前位置:搜档网 › 利用ElasticSearch和Redis检索和存储十亿信息

利用ElasticSearch和Redis检索和存储十亿信息

利用ElasticSearch和Redis检索和存储十亿信息
利用ElasticSearch和Redis检索和存储十亿信息

利用ElasticSearch和Redis检索和存储十亿信息

如果从企业应用的生存率来看,选择企业团队信息作为主要业务,HipChat的起点绝非主流;但是如果从赚钱的角度上看,企业市场的高收益确实值得任何公司追逐,这也正是像JIRA 和Confluence这样的智能工具制造商Atlassian于2012年收购HipChat的原因。

同时,或许你不知道的是,在Atlassian资源和人脉的帮助下,HipChat已经进入了一个指数增长周期。12亿的信息存储意味着他们现在每隔几个月的信息发送、存储和索引量都会翻一番。

如此快速的增长给曾经充足的基础设施带来了很大的压力,HipChat给我们展示了一个通用的扩展思路。从简单开始,经历流量高峰,然后思考现在怎么办?使用更大的计算机通常是第一个和最好的答案,他们也是这样做的。这给了他们一些喘息空间去考虑下一步怎么做。在AWS上,在某一个拐点之后,你开始走向云特性,也就是横向扩展,这就是HipChat

所做的事情。

然而HipChat的发展也并未是顺风顺水,安全性的担忧推动了HipChat的云(SaaS)版本之外内部部署版本的发展。

即使HipChat没有谷歌那么大规模,我们仍能从中学到好东西,比如他们如何及时索引和搜索十亿信息,这也是IRC之类和HipChat之间的关键区别。在负载下索引和存储信息,丢失信息是一个艰巨的挑战。

这是HipChat选择的路,我们一起展开……

统计

?每秒60条消息

?12亿文档存储

?4TB的EBS RAID

?在AWS上8个ElasticSearch服务器

?26个前端代理服务器,是后端应用服务器的一倍

?18个人

?0.5TB的搜索数据

平台

?主机:AWS EC2 East上的75个实例全部使用Ubuntu 12.04 LTS

?数据库:目前用于聊天记录的CouchDB,过渡到ElasticSearch。MySQL-RDS用于其它的一切

?缓存:Redis

?搜索:ElasticSearch

?队列/Worker 服务器:Gearman(队列),Curler(Worker)

?语言:Twisted Python(XMPP Server)和PHP(Web前端)

?系统配置:开源Chef+Fabric

?代码部署:Capistrano

?监控:Sensu和monit将警告抽送至Pagerduty

?图:statsd + Graphite

产品

?流量突发。在周末和假期将是安静的。在高峰负荷期间每秒有几百个请求。实际上占用大部分流量的并不是聊天信息,而是状态信息(away、idle、available),人们连接/断开等。因此每秒60条消息似乎很少,但是它只是一个平均水平。

?通知中心HipChat,在这里与团队合作,并得到来自工具和其他系统的所有信息。

有助于使每个人都在消息圈内,特别是远程办公。

?使用HipChat而不是IRC之类,很大的原因是HipChat存储和索引每一次对话,以便你以后搜索它们。强调搜索,这个特性的好处是你可以在任何时候做回溯,了解发生了什么和同意了什么。如果在发送一条信息时,你的设备无法访问,它也会将消息路由到同一个用户的多台设备中,并做临时消息缓存/重试。

?更多的用户带来更快的增长,他们在各个方面使用产品而带来的更多预定,也可以从他们的API集成中看到增长。

?存储和搜索信息是系统中主要的可扩展性瓶颈。

?HipChat使用XMPP协议,因此任何XMPP客户端都可以连接到系统中,这点非常有利于采用。他们已经建立了自己的本地客户端(Window、Linux、Mac、iOS、Android),并带有类似PDF浏览、自定义表情符号、自动用户注册等扩展。

?在以前,将Wiki这样的工具引入到企业文化是几乎不可能的。现在,企业级的工具多已在企业落脚,这是为什么?

?基于文本通信已被广泛接受。我们有短信、IM和Skype的形式,所以现在使用聊天工具是自然的事情。

?异地工作模式的崛起。团队越来越分散,我们不能只是坐在一起进行一个讲座,一切文档化的需要意味着组织通信将有一笔巨大的财富。

?增强的功能。把像内嵌图片、GIF动画等功能做得生动有趣,会吸引更广泛的群体。?HipChat有一个API,这使得它可以编写类似IRC bots这样的工具。例如使用Bitbucket提交——在10:08开发者X提交一些代码来修复一个漏洞。代码发送通过HipChat直接连接到代码提交和提交日志,完全的自动化。Bitbucket提交会击中一个web hook,并使用一个addons来张贴信息。Addons帮助编写bots,转入你的Bitbucket 账户。比如我有我的API令牌,我想在每次提交发生时张贴到这个API上,工作原理类似GitHub。

?在客户端Adobe Air启动时,内存泄露会导致宕机,因此将其移动到本地应用上。

这是个麻烦,也是机遇。同一个公司中都存在许多跨平台跨部门的用户,你需要站在用户的角度思考。希望用户在所有的系统中都有很好的体验,用户不仅仅是技术人员。XMPP服务器架构

?HipChat是基于XMPP协议的,XMPP节里的内容就是消息,可能是一行文本或者日志输出的长段等等。他们不想谈论自己的XMPP架构,所以没有很多的细节。

?他们没有使用第三方的XMPP服务器,而是利用Twisted Python和XMPP库建立了自己的服务器。这使得可以创建一个可扩展的后端、用户管理,并轻松的添加功能而不用在其它代码库上修改。

?AWS上的RDS用于用户身份验证和其它使用事务及SQL的地方。这是一个稳定、成熟的技术。对于内部部署的产品,则使用MariaDB。

?Redis用于缓存。信息,如哪些用户在哪些房间,状态信息,谁在线等都是信息。

所以,你连接的是哪个XMPP服务器并不重要,XMPP服务器本身并不是一个限制。

?痛点是Redis(还)没有集群,因此使用了高可用性的hot/cold模式,所以,一个从属节点已经准备就绪。故障转移从主节点到从属节点大概需要7分钟,从属节点

的发布是手动的,不是自动的。

?提高负载可以发现代理服务器中的弱点所在,也可以清楚能支撑多少个客户端。

?这是一个真正的问题,正如不丢失信息是一个很大的优势。显而易见,不丢失信息比低延迟更重要——用户更愿意晚点接收信息,而不是根本没有信息。

?使用6个XMPP服务器系统运作良好,然而随着连接点的增加,他们开始看到不可接受的延迟。连接不仅来自客户端,还来自bots支持他们的程序设计界面。

?在第一遍的时候,他们分离出前端服务器和应用服务器。代理服务器处理连接,后端应用程序处理的stanza。前端服务器数量由有效收听客户数量驱动,而不是由信

息发送数量驱动。保持那么多的连接打开,同时提供及时的服务是一个挑战。

?修复数据存储问题之后的计划是调查如何优化连接管理。Twisted的效果很好,但是他们有很多的连接,所以必须弄清楚如何更好地处理这些连接。

存储架构

?向HipChat发送的消息已达10亿条,同时还在不停增长,他们将CouchDB和Lucene对存储和搜索信息的解决方案推向极限。

?认为Redis将会是故障点,而Couch/Lucene会足够好。没有做合适的容量计划和查看信息增长率。增长速度比他们想象的更快,不应该集中那么多精力在Redis上,而应该专注于数据存储。

?当时他们相信通过增加容量来扩展,向上移动到越来越大的亚马逊实例。他们发现一点,随着不断地增长,他们利用这种方法只能再工作两个月。所以,他们不得不

采用其他的办法。

?Couch/Lucene超过一年没有更新,它不能做分类。这是采用其他办法的另一个原因。

?在亚马逊上大约10亿消息的一半是一个临界点。用一个专用的服务器和200G的RAM,他们之前的架构可能仍能工作,但在有限资源的云上就不能工作了。

?他们想留在亚马逊。

?喜欢AWS的灵活性,性能的添加只需要通过租用实例完成。

?亚马逊的片状。不要把你所有的鸡蛋都放到一个篮子里,如果一个节点出现故障,你必须要处理它,否则一些用户将会失去流量。

?使用动态模型。可以快速关闭一个实例,并带来新的实例。云原生类型的东西。可以随时关闭节点。关闭一个Redis主节点,可以在5分钟内恢复。目前美国东岸分

割4个可用地区,但是还没有多区域。

?EBS只让你拥有1TB的数据。在遇到之前,他们并不知道这个限制。使用Couch 时他们遇到了EBS磁盘大小限制。HipChat的数据是0.5TB。为了压缩,Couch必

须将数据复制到有双倍容量的压缩文件中。2TB的RAID在周末压缩过程中遇到了

限制,不想使用RAID解决方案。

?不选择亚马逊的DynamoDB,因为他们创建了一个HipChat服务器,在防火墙后面的托管服务。

?HipChat服务器驱动技术堆栈的决定。私人版是建立在自己主机上的解决方案。某些客户不能使用云/SaaS解决方案,比如银行和金融机构,国家安全局已经吓坏了

国际客户,因此聘请了两名工程师创建产品的安装版本。

?Redis集群可以自托管,也可以像ElasticSearch那样工作在AWS上。在内部部署版本中他们使用MariaDB,而不是RDS。

?不能考虑一个完整的SaaS解决方案,因为那会是一个锁定。

?现在过渡到ElasticSearch

?移动到ElasticSearch作为他们的存储和搜索后端,因为它可以储存他们的所有数据,它是高度可用的,它可以通过简单增加更多的节进行扩展,它是多用户的,它

可以通过分区和复制透明的处理节点损失,并且它建立在Lucene之上。

?并不真的需要一个MapReduce功能。看着BigCouch和Riak的搜索(表现一般),但ES在GET上的表现是相当不错的。喜欢坏了就扔,省去了故障检测。ES HA

已令他们在系统的坚固性上感到非常有信心。

?Lucene的兼容是一个巨大的胜利,因为所有的查询都已经兼容Lucene,因此它是一个自然的迁移路径。

?客户数据是相当多样的,从聊天记录到图像响应类型的差别也随处可见,他们需要能够快速地直接从12亿文档中查询数据。

?此举正变得越来越普遍,HipChat也使用ElasticSearch作为他们的key-value存储,减少需要数据库系统的数量,从而降低整体的复杂性。既然性能和响应时间都不错,那完全没有不用的理由。10ms到100ms的响应时间。在没有任何缓存的情况下,某些领域仍然超过Couch。那为什么还要用多个工具?

?使用ES,一个节点故障不会引起任何人的注意。在它再平衡时你会得到CPU使用率过高的警报,但是系统仍然运行。

?用8个ES去处理流量的增长。

?基于Java的产品JVM调整可能非常棘手。

?要使用ES,必须有堆空间容量计划。

?测试缓存。ES可以缓存过滤结果,这是非常快速的,但是你需要很大的堆空间。虽然8个主机拥有22G的内存,但还会随着缓存的打开被耗尽。所以如果不需要就关

闭缓存。

?缓存有问题,因为它会遇到内存不足的错误然后失败。集群会在几分钟内恢复,只有少数用户会注意到这个问题。

?因为网络的不可靠,Amazon的故障转移也可能存在问题。在集群中可能会引起错误的选举发生。

?使用ElasticSearch会遇到这些问题。原本有6个ES节点作为主节点选举运行,一个节点可能会耗尽内存或者遇到一个GC暂停并在网络中丢失。那么其他人就不会

看到这个主节点,进行选举,并宣布自己是主节点。他们选举架构中的缺陷是他们

不需要法定人数。因此就会出现Split Brain问题,从而引起很多问题。

?解决方案是在专用的节点上运行ElasticSearch主节点,那么需要做的事情就是成为主节点,从而避免了后续问题。主节点处理分片的分配是完成,谁是主要的,并且

完成复制分片分布图。实现再平衡要容易的多,因为主节点可以性能优良的处理所

有的再平衡。可以查询任何节点,并会做内部路由。

?使用月索引,每个月是一个单独的索引。每个初级索引有8个分片,然后有两个副本。如果一个节点丢失,系统仍能工作。

?不要把RDS移动到ES中。需要使用SQL的数据一般储存在RDS/MariaDB中,典型的是用户管理数据。

?在Redis集群被释放之前,Redis中大量的缓存是主/从设置。有一个Redis统计服务器,处于离线状态。Redis历史缓存的最后75条消息,用于防止在第一次加载对话时不间断的访问数据库。也有内部状态或快速数据的状态,比如登入用户数量。

常规

?Gearman用于异步工作,比如iOS的推送和传递电子邮件。

?AWS West用于灾难恢复,一切都会备份到AWS West。

?Chef用于所有配置。ElasticSearch有一个很好的Chef手册,轻松上手。像Chef,因为你可以开始写Ruby代码而不是使用Puppet风格的DSL,它也有一个很好的活跃的社群。

?收购经验。他们现在已经进入公司的核心资产和人才,但Atlassian不干扰工作,之所以相信,是有原因的。可以在内部要求,例如,如何扩大ElasticSearch ,当别人在Atlassian需要帮助时,他们可以加入帮忙的队伍。良好的整体体验。

?扁平的团队结构。仍然是一个小团队,目前大约有18人。两个人在DEVOPS,少数平台,IOS、Android的开发人员在服务器端,一个Web开发工程师(在法国)。

?Capistrano用于部署所有的主机。

?Sensu用于监控应用程序。让你无需监视堆空间ElasticSearch节点,然后在没有任何通知的情况下解决OOM问题。目前堆的使用率为75%,这正是他们想要的状态。?Bamboo用于持续集成。

?客户端版本还不正规,开发者驱动,有一个临时区域进行测试。

?集团标志。可以控制哪些群体得到了一个功能、测试特性能及缓慢释放特性,除此之外还能帮助控制主机的负载。

?功能标志。有利于ElasticSearch部署过程中的保护。例如,如果他们发现一个漏洞,他们可以关闭一个功能,并回去找Couch。用户不会注意到差别。在Couch和

ElasticSearch之间的过渡阶段,他们都有应用复制到两个存储。

?新的API版本将使用Oauth,因此,开发人员可以使用HipChat API在自己的服务器上部署。有客户使用自己的服务器是一个更具扩展性的模式。

未来

?未来几个月将会达到20亿条消息,估计ElasticSearch可以处理大约20亿条消息。

不确定如何处理负载的预期增长。预计要到Amazon West以获得数据心更多的的可用性和可能在不同的数据中心投入更多的用户。

?AWS自动扩展能力

?移动到语音,私人一对一视频、音频聊天、基本的会议

?将来可能使用RabbitMQ来传递消息

?与Confluence更大的集成。使用HipChat聊天,然后使用Confluence页面来捕捉细节。

经验教训

1. 企业应用程序是摇钱树。卖入一个企业是很痛苦的,销售周期长意味着太多的不确定性。但是如果你成功卖出,那就会获得丰厚的利润,所以你应该考虑企业市场。时代在变,企业却可能是滞后的,但是他们仍然采用新工具和新的做事方式,这其中就有机会。

2. 隐私在产品给企业推销时变得越来越重要,它会直接影响到产品的选择与否。HipChat 正在做他们产品的备用版本,以使那些不相信公共网络的客户满意。对于一个程序员来说,云作为一个平台非常有意义。对于一个企业来说,云可以是魔鬼。这意味着你必须做出灵活的技术堆栈选择。如果你在服务上100%依靠AWS,那你的系统移动到另一个数据中心将变得几乎不可能。这对Netfix也许并不重要,但是如果你想卖入企业市场,它就很重要了。

3. 纵向扩展以获得喘息的空间。当你等待弄清楚架构中下一步要做什么的时候,可以花很少的钱去纵向扩展,给自己几个月的喘息之机。

4. 选择不会失败的。HipChat做出了不会丢失用户聊天记录优先级,所以他们的架构将这个优先级反映给保存聊天记录到磁盘,在宕掉后系统恢复时会重新加载。

5. 进入本地。你的客户在许多不同的平台上,一个本地的应用将会提供最好的体验。对于一个初创公司,那是很多的资源,太多了。所以,卖给拥有更多资源的公司在某种程度上是说得通的,这样你可以建立更好的产品。

6. 功能和群组标志做出更好地发布惯例。如果你可以选择哪些组看到一个功能,如果你能在生产和测试中关闭功能,那么你就不用担心发布新的构建项目了。

7. 选择你真正自信的技术。ElasticSearch应对增长的横向扩展能力让HipChat很放心,同样也会有一个很好的用户体验,这才是最重要的。

8. 成为该流程的一部分,你变得更有价值,难以消除。HipChat作为人和工具之间的天然契合点,也是来编写实现各种有用工作流bots的天然点。这使得HipChat在企业中有发挥的平台,它使本来不可建造的功能得以实现。如果你能做到同样的事情,那么大家都会很需要你。

9. AWS需要在总线上存在一个单独的节点,这个要求看起来有点荒谬,但是在云环境下却非常重要,因为机器可用信息在第三方目的源中并不可见。如果着眼机架就会发现它经常有一个单独存在的总线插槽,如果其他插槽可用,他就会知道。这样,你就不必去猜测。在云中,软件采用基于原始TCP的连接技术和心跳,去猜测另一个节点是否发生故障,从而导致Split Brain问题及启用备库时产生数据丢失。这需要时间去演变,到达完全可靠还需要迈一大步。

10. 产品决策驱动堆栈的决定,HipChat服务器驱动技术堆栈的决定:Redis集群可以自托管;不选择亚马逊的DynamoDB,是因为HipChat在防火墙的后面创建一个托管服务。

11. 你需要打开视野。你需要容量规划,即使是在云中。除非你的架构从一开始就完全是原生云,否则任何架构都会有负荷的拐点,在拐点他们的架构将不再能够处理负载。看看增长速度,项目出来了。会打破什么?你将会做什么?而且不要再犯同样的错误。HipChat将如何处理40亿条消息?当下还无法知晓。

12. 了解系统的限制。EBS有1TB的存储限制,这是很大的限制,但如果你的存储已接近那个限制,就需要有一个计划了。同样,如果你的数据库,例如Couch,在压缩阶段要使用双倍的磁盘空间,那将会影响你的系统限制。

13. 这个世界会令你大吃一惊。六个月前HipChat认为Redis将会是最弱的环节,但现在它依旧很强壮,而Couch和EBS才是最薄弱的环节。

信息检索与利用题集及答案》

《信息资源检索与利用100题集及答案》 姓名:陈晨 学号:110803021101 班级:11级材料一班 第一章绪论 1.简述科技文献检索的意义。 答:人们无论学习、工作,还是进行科学研究,都离不开文献的检与利用。具体来说,科技文献检索 具有以下六个方面的意义:(1)有利于大学生信息素养的培育;(2)有利于复合性、开拓性人才的培养;(3)有利于促进智力资源的开发利用,推动社会进步与发展;(4)有利于帮助研究人员继承和借鉴前人的 成果,避免重复研究和走弯路;(5)有利于节省研究人员查找文献的时间,提高科研效率;(6)有利于为决策提供科学依据。 2.信息、知识、情报、文献的概念是什么? 答:(1)信息是被反映事物属性的再现。信息不是事物本身,而是由事物发出的消息、指令、数据等 所包含的内容。 (2)知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识。 (3)情报是人们在一定时间内为一定目的而传递的具有使用价值的知识或信息。 (4)文献是各种知识或信息载体的总称。其由知识信息内容、载体材料和记录方式三要素组成。 3.试述科技文献检索的定义及作用。 答:所谓科技文献检索,是指文献资料的查找与获得。其作用是检索者利用检索工具按照文献编排特 点,采取一定的途径、方法和步骤迅速、准确地查获自己所需要的文献资料,便于学习、工作和进行科学研 究。 4.科技文献有什么特点? 答:现代科技文献的发展具有以下明显特点:(1)数量急剧增长;(2)内容交叉重复;(3)文献出版分散;(4)文献失效加快;(5)文献语种增多;(6)文献载体电子化,文献传播网络化。 5.试述一、二、三次文献的概念?它们之间的关系如何? 答:(1)一次文献是作者在科学研究、教学和生产实践中以自己的研究成果为依据创作而成的文献, 又称一级文献或原始文献; (2)二次文献是文献情报人员将大量分散的、无序的原始文献进行筛选、整理、报道和组织所形成的 文献,又称二级文献或检索性文献; (3)三级文献是利用二级文献的线索,系统地检索出一批相关文献,并对其内容进行综合、分析、研 究和评述而编写出来的文献,又称三级文献或参考性文献。 关系:从一次文献到二次文献、三次文献是一个由博到约、由分散到集中、由无须到有序、由有序到 有机的结构化、系统化的程。 6.文献有哪些属性? 答:(1)知识信息性;(2)物质实体性;(3)人工记录性;(4)动态发展性。 7.文献的功能有哪些? 答:(1)存储知识信息;(2)传递知识信息;(3)教育与娱乐功能。 8.科技文献出版的种类有哪些?

信息存储与检索期期末试卷A

淮安信息职业技术学院2007~2008学年度第二学期 《 信息存储与检索 》期末试卷(A 卷) 考试班级:650514 1、模型、碑刻属于哪类信息资源( )。 A .口语信息资源 B. 体语信息资源 C.实物信息资源 D.文献信息资源 2、期刊、报纸属于哪种文献类型( )。 A . 图书 B. 工具书 C.连续出版物 D.特种文献 3、甲乙二人各有一条信息,二人交流后,每人拥有两条信息,说明信息具有( )。 A 客观性 B 相对性 C 依存性 D 共享性 4、查找特定类型的文件的高级搜索语法命令为( )。 A :filetype B :intitle C :site D :inurl 5、手册属于哪类检索工具书的范畴( )。 A.检索性工具书 B.参考性工具书 C.词语性工具书 D.图录性工具书 6、在没有检索工具或检索工具不齐备的情况下,我们可以使用( )。 A . 直接检索法 B. 抽查法 C.回溯检索法 D.循环检索法 7、下列各项属于类书的是( )。 A .《永乐大典》和《资治通鉴》 B. 《永乐大典》和《古今图书集成》 C. 《四库全书》和《古今图书集成》 D. 《天下郡国利病书》和《四库全书》 8、关于全文型(索引型)搜索引擎信息采集和索引机制,错误的说法是( )。 A. 采用网页采集机器人robot ,循着超链接不停采集访问到的页面 B. 网页采集机器人可以采集到所有的页面 C. 自动提取网页中的关键词建立索引 D. 网页的更新有一定的周期,有时候存储的网页信息已经过时 9、分类搜索引擎的典型代表是( ) 。 A .Google B .Baidu C .Yahoo! D .Search 系部 : 班 级: 学 号: 姓名 :

信息检索与利用期末复习

《信息检索与利用》考试题型说明: 一、判断题(1×10) 二、单选题(1×20) 客观题要涂答题卡。 三、填空题(2×5) 四、简答题(12×3) 五、实践题(12×2) 信息检索与利用客观复习题 一、判断题 1.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。 (对) 2.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。(对) 3.目前的搜索引擎能很好的处理自然语言。(错) 4.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。(错) 5.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检 索。(错) 6.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆 间建立合作机制,实现资源共享。(对) 7.关键词语言的最大优点是能用计算机进行自动抽词标引,它适合于计算机自动 编制各种类型的词索引。(对) 8.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道 德是前提,信息能力是保证,信息意识是准则。(错) 9.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网 站。(错)

10.用搜索引擎google检索专利和期刊的全文比用中国国家知识产权局专利数据 库、《维普中文科技期刊数据库》等数据库的查全率和查准率都要高。(错)11.GB/T 16159-1996,汉语拼音正词法基本规则[S].北京:中国标准出版社, 1996.该文献类型为标准文献。(对) 12.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样 的。(对) 13.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。如输入comput*, 将检索出computer、computing、computerized等词汇。(对) 14.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。(对) 15.不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。(对) 16.一次文献是指原始创作,即作者以本人的研究成果为基本材料而创作(或撰写) 的文献,主要包括期刊论文、专利说明书、会议论文、科技报告和学位论文等。 (对) 17.从一次文献、二次文献到三次文献,是文献从无序到有序、从无组织到系统化 的过程。(错) 18.题录、目录属于一次文献;期刊论文属于二次文献。(错) 19.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后 者是未经过词表规范的自由词。(错) 20.利用某个图书馆的书刊目录查询系统(OPAC),可以了解该图书馆收藏有哪些印 刷型图书和期刊。(对) 21.截词检索相当于用逻辑“或”扩展检索的范围,可以提高检索的查全率。(对) 22.将“红外线”扩展成“远红外线”和“近红外线”运用了上下位概念扩展法。 (对)、

江南大学阶段性机考信息检索与利用第1阶段测试题

考试科目:《信息检索与利用》第1章至第3章(总分100分) 一、单项选择题(每题2分,共20分) 1、( ) 是人类知识的总汇,被誉为“工具书之王”、“没有围墙的大学”。 A、四库全书 B、年鉴 C、辞海 D、百科全书 2、优先算符用()表达。 A、() B、* C、? D、“” 3、以下信息资源中,()是三次信息资源。 A、期刊 B、学位论文 C、年鉴 D、专利 4、图书是不少于()页并构成一个书目单元的文献。 A、48 B、49 C、58 D、59 5、百度(Baidu)检索框中输入多个词,词与词之间用空格隔开表示()关系。 A、逻辑或 B、逻辑非 C、逻辑与 D、短语或词组 6、查全率和查准率之间存在( )关系。 A、互逆 B、正比 C、交叉 D、包含 7、开放存取期刊简称()期刊。 A、OCR B、OA C、Open D、Access 8、国家科技图书文献中心简称(),是基于网络环境的科技信息资源服务机构。 A、OCLC B、NTSL C、NTIS D、NSTL 9、()是为特定目的而搜集的有使用价值的知识或信息。 A、文献 B、情报 C、文献 D、档案 10、()是将文献主题概念按知识学科性质进行分类和系统排列,并用号码表达各种概念的检索语言。 A、分类语言 B、主题语言 C、代码语言 D、Java语言 二、多项选择题(每题2分,共20分) 1、信息素养是一种综合的能力素养,包括()等多方面因素。 A、信息意识 B、信息知识 C、信息能力 D、信息伦理道德 2、信息资源按加工程度可以划分为()。 A、零次信息资源 B、一次信息资源 C、二次信息资源 D、三次信息资源 3、二次信息资源主要包括()等具有标引和检索性质的信息资源。 A、目录 B、题录 C、文摘 D、索引 4、以下连续出版物有()。 A、期刊 B、丛书 C、报纸 D、年鉴 5、在线不列颠百科全书的检索方式包括()。 A、专家检索 B、高级检索 C、快速检索 D、浏览检索

信息检索与利用(本科)试题及答案

文件检索 1、个人信息源又称为( B )。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的( A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献(A)。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D )。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C )。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有( A )。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有( A )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是( D) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成( A ) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。A、S类目 B、Q类目 C、T 类目 D、R类目 11、使用逻辑“与”是为了( B) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A ) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是( C ) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为(A )。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B ) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为(A ) A、著者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引 19、政府出版物主要包括两大类型的文献( B ) A、专利与标准 B、行政文件与科技文献 C、图书与期刊 D、档案与标准 20、ISBN是( B )的缩写A、国际标准刊号 B、国际标准书号 C、连续出版物代码 D、国内统一刊号 二、多选题(20分,每题2分) 1、文献的构成要素( A B C )A、信息内容 B、载体材料 C、信息符号 D、纸、光盘 2、下列各项哪些属于文献( A B C ) A、图书、期刊 B、光盘、磁盘 C、光盘数据库 D、纸张 3、期刊论文的外部特征有( A B C D ) A、文献题目 B、著者 C、文献出处 D、主题词 4、图书的外部特征有( A B C D ) A、分类号 B、著者 C、书名 D、出版社 5、检索词包括规范化词和非规范化词,下列选项中属于规范化词的有( A C D )。 A、叙词 B、标题词 C、关键词 D、主题词 6、著者(责任者)途径主要是通过( A B )进行检索。 A、著者索引 B、专利权人索引 C、主题索引 D、号码索引 7、以文献的外部特征为检索途径的有( B C D ) A、主题途径 B、分类途径 C、题名途径 D、责任者途径 8、信息检索按其检索手段划分,可以分成( A C ) A、计算机检索 B、文献检索 C、手工检索 D、全文检索 9、世界三大农业数据库是指( A B D ) A、CABI B、AGRIS C、EBSCO D、AGICOLA 10、印刷型检索工具常用的三种途径是(A B D) A、著者途径 B、分类途径 C、主题途径 D、刊名途径

信息存储与检索B卷

济南大学继续教育学院信息存储与检索试卷(B) 学年:学期: 年级:专业:学习形式:层次: (本试题满分100分,时间90分钟) 一.选择题(每题2分,共20分) 1.《四级英语阅读与完型填空》这本图书在中图法体系中的分类号可能是()。 A、G636.33 B、G216.2 C、I247.4 D、H319 2.布尔逻辑表达式:在职人员NOT(中年AND教师)的检索结果是() A、检索出除了中年教师以外的在职人员的数据 B、中年教师的数据 C、中年和教师的数据 D、在职人员的数据 3.()是指未检出的相关信息量与检索系统中实际与课题相关的信息总量的比 率。 A、查全率 B、查准率 C、误检率 D、漏检率 4.布尔逻辑检索中检索符号“OR”的主要作用在于()。 A、提高查准率 B、提高查全率 C、排除不必要信息 D、减少文献输出量 5.根据一定的需要,将特定范围内的某些文献中的有关知识单元或款目按照一定 的方法编排,并指明出处,为用户提供文献线索的一种检索工具是()。 A、目录 B、题录 C、索引 D、文摘 6.文献按载体形式可分为:印刷型、缩微型、声像型和() A、甲骨型 B、金石型 C、电脑型 D、机读型 7.信息检索系统的功能为:报道文献信息、存储文献信息和() A、揭示文献信息 B、检索文献信息 C、宣传文献信息 D、介绍文献信息 8.知识是指人类对客观世界的认识。知识可分为() A、有用知识和无用知识 B、基础知识和高级知识 C、感性知识和理性知识 D、理论知识和实践知识 9.检索系统的结构由几个部分组成:编辑使用说明、索引、附录、词表和() A、目次 B、题录 C、附图 D、正文(主文档) 10.为便于计算机识别记录的各个字段,每个字段都设有字段标识符,下列哪个字段的 标识叙述是正确的() A、TI是题名的标识符 B、AB是关键词的标识符 C、AU是摘要的标识符 D、AF是著者的标识符 二.多选题(每题2分,共20分) 1.信息检索的常用途径有:主题词、关键词、顺序号、引文和() A.题录 B.作者 C.全文 D.题名 E.分类 2.工具法查找文献信息资源的方法可分为() A.顺查法 B.调查法 C.抽查法 D.倒查法 E.取样法 3.常见的索引有以下几种() A.分类索引 B.主题索引 C.著者索引 D.编号索引 E.引文索引 4.信息检索效果评价标准为(A、D、E) A.查全率 B.错误率 C.准确率 D.查准率 E.漏检率 5.查找中文会议论文全文资料,可利用下列哪些数据库进行查找。() A.国研网 https://www.sodocs.net/doc/f46740139.html,KI C.维普科技期刊全文数据库 D.人大复印资料 E.万方数据资源 6.用户在超星电子图书馆中可享受的服务为() A.下载图书 B.添加个人书签 C.发表评论 D.讨论 E.标注 7.Elsevier数据库(国外站点)SDOL主页的菜单栏内容:Home,Browse,Search和() A.My Alert B.My settings C.Help D.Tools E.Alert 8.SD数据库的期刊浏览提供的浏览方式为() A.依刊/书名字母顺序浏览 B.依文章的篇名字母顺序浏览 C.依期刊/图书内容所属学科主题分类浏览 D.个人定制内容浏览 第 1 页共2 页

《信息检索与利用》期末复习1

《信息检索与利用》期末复习 试题题型 一、填空题(每空3分,共15分) 二、选择题(每题3分,共30分) 三、判断题(每题3分,共30分) 四、简答题(共25分) 1.(12分) 2.(13分) 复习题 第一章信息资源检索基础知识 一、填空题 1.___________________________是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。信息 2.___________________________是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。知识 3.___________________________是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。情报 4.___________________________是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。文献 5.___________________________是指在国内外学术或非学术会议上发表的论文或报告。会议文献 6.___________________________是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。学位论文 7.___________________________是对文献内容和形式特征进行选择和记录的过程。著录8.___________________________是指特定的数值型数据为对象的检索。数据检索 9.___________________________是指以特定的事实为目标的检索。事实检索 10.事实与数据检索工具主要依靠各类___________________________完成各种数据或事实的查询。参考工具书 11.按照结构原理,信息检索语言可以分为_____________________、____________________、

信息检索-判断题(精心整理)较全版本

判断题 1.信息素养是由信息意识、信息知识、信息能力、信息道德四个要素构成的。(A) https://www.sodocs.net/doc/f46740139.html,KI中国知网数据库可以检索到博硕士论文。(A) 3.查全率与查准率是评价检索效果的两项重要指标。(A) 4.广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要查找出特定信息的技术和过程。(A) 5.逻辑“与”是一种用于交叉概念或者限定关系的组配,可以缩小检索范围,提高查准率。(A) 6.逻辑“或”是一种用于概念并列关系的组配,可以扩大检索范围,提高查全率。(A) 7.信息检索过程是一个检索的操作过程,如选择数据库、确定关键词、构造检索式等。(B) 8.界定问题过程首先需要根据待完成的任务,确定信息问题。然后根据信息问题,确定信息需要。(A) 9.概览性资料通常出现在我们所说的二次文献中。(B) 10.图书馆OPAC检索系统属二次文献数据库(A) 11.当检索关键词具有多个同义词和近义词时,容易造成漏检,使得查全率较低。(A) 12.对于要求一定深度、研究性的信息问题,应主要检索搜索引擎检索网络信息源。(B) 13.选择信息源是信息检索的第一步。(B) 14.PQDT 是美国Proquest公司出版的学位论文数据库。(A) 15.根据文献内容的不同加工深度可区分为一文献、二次文献和三次文献,学位论文属三次文献。(B) 16.综述文献属于二次文献(B) 17.The mammalian cell as a microorganism;-genetic and biochemical studies in vitro puck, Theodore T.(Theodore Thomas) xi,219p.illus.24cm. ISBN 0-816-26980-7 San Francisco,Holden-Day 1972 该文献类型为期刊论文。(B) 18.通过EBSCO、EI、OCLC数据库都能检索到外文期刊论文全文。(B) 19.在超星阅览器登录个人用户名后下载的图书支持拷贝到其他机器上阅读。拷贝到其他机器阅读时,需要在阅读的机器上使用下载时用户名进行超星阅览器->“注册”菜单->“用户登录”操作。(A) 20.分类途径就是按照文献的名称体系查找文献的途径。(B) 21.检索2010年经济统计数据通常应该用2010年出版的《中国统计年鉴》。(B) 22.Effect of coating whole cottonseed on performance of lactating dairy cows. Bernard,-J,K;Calhoun,M.C;Matin,S.A. Savoy, III.:American Dairy Science Association J-dairy-sci.. June 1999.v.82 p.1296-1304.该文献类型为图书。(B) 23.主题语言较适合于期刊论文、研究报告、会议论文等单篇文献的组织和检索(A) 24.分类语言适合于图书或文集的组织和检索,提供的是从学科或专业角度查找文献信息的途径,族性检索功能强。(A)

最新信息检索与利用试卷及答案

一、单项选择题(30分) 1.( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。7 A.零次文献B.二次文献C.一次文献D.三次文献 2.一次文献、二次文献、三次文献是按照( A )进行区分的。7 A.加工深度B.原创的层次C.印刷的次数D.评论的次数 3.从文献的( B )角度区分,可将文献分为印刷型、缩微型等。6 A.内容公开次数B.载体类型C.出版类型D.公开程度 4.具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D )。8 A.图书B.会议文献C.学位论文D.期刊 5.( A )类型的专业文献出版周期最短、发行量最大、报道最迅速及时,成为多数论文发表渠道。8 A.期刊B.报纸C.会议文献D.专利 6.在公开出版物中,当前的(C )反映的信息内容可能最新。8 A.学位论文B.标准文献C.期刊论文D.报纸文献 7.当我们需要对陌生知识作一般了解时,我们可先参考( C )文献。8 A.专利B.报告C.图书D.标准 8.利用文献后面所附的参考文献进行检索的方法称为( A )。31 A.追溯法B.直接法C.抽查法D.综合法 9.中国图书馆图书分类法的分类号采用了( A )体系。34 A.拼音字母+数字B.英语字母+数字C.全部拼音字母D.全部数字 10.( B )是以报道文献出版或收藏信息为主要功能的工具。 A.题录B.索引C.文摘D.目录 11.按照顺序表述文献检索常用的五个步骤是( D )。32 A.明确要求和分析课题,选择检索系统,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略B.明确要求和分析课题,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略,选择检索系统C.明确要求和分析课题,实施检索以及调整检索策略,选择检索系统,获取原文,确定检索途径和检索策略D.明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文12.图书分类法中,类名之间的上下位关系反映了学科概念之间的( A )关系。34 A.包含B.排斥C.延伸D.相容 13.图书分类法中,类名之间的同位类关系一般反映了学科概念之间的( B )关系。34 A.包含B.排斥c.延伸D.相容 14.分类途径是按照文献信息所属的学科门类,利用( D )进行检索的途径。29 A.学科名称B.专业名称C.分类号及其分类名D.A、B、C均可 15.如果希望查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是( C )。36 A.后均法,进行,数据处理B.后均法,数据处理C.后均法,进行,数据处理,讨论D.用,后均法,进行,数据处理 16.如果希望查找“对宋词韵律的美学思考”这个课题相关的文献,较好的检索词应该是(A )。36 A.宋词,韵律,美学,思考B.宋词,韵律,美学C.宋词,美学,思考D.宋词,韵律,思考 17.逻辑“与”算符是用来组配( D )。41

信息存储与检索

第一章 1.信息的涵义: 申农(信息论创始人):用于消除随机不确定性的东西(信源、信宿) 广义信息是物质、能量存在和运动状态的表征. 狭义信息是人类社会共享的一切知识、学问以及从客观现象中提炼出来的各种消息的总和,即现代信息 2.资源的涵义 资源是一切被人类开发和利用的客观存在。 3.信息资源的涵义 狭义指文献资源或数据资源,抑或各种媒介和形式的信息的集合,包括文字、声像、印刷品、电子信息、数据库等。这都是限于信息的本身。 广义信息资源是信息活动中各种要素的总称。这既包含了信息本身,也包括了与信息相关的人员、设备、技术和资金等各种资源 (1)原始数据与信息的区别 原始数据经过加工处理变为信息 (2)信息与信息资源的区别 经过加工、可被利用的信息称为信息资源。 information resource为复数时,常指信息及与信息有关的设备、人员等集合,是经过人类选取、组织、序化的有用信息的集合。 (1)信息资源是信息的集体; (2)信息资源是经过人类选择、获取的有用信息的集合; (3)信息资源是经过人类组织序化的信息的集合。 4.信息的基本性质 (1)信息是内容是客观的(2)信息的形式是主观的(3)信息是一切物质的基本属性 5.与信息有关的概念 (1)知识。 是对客观事物规律性认识,是系统化和精炼化的信息 知识的三种存在方式:大脑、实物、文献 知识的七个特征:①不可替代性②不可相加性③不可逆性④不可磨损性⑤不可分性⑥可共享性⑦无限增值性 知识分类:①事实知识(Know What)②原理知识( Know why)③技能知识( Know how)④人力知识( Know who)⑤时间知识( Know When)⑥空间知识( Know Where)⑦数量知识( Know Quantity ) (2)文献。是记录知识的一切载体,即用文字、图形、符号、或声视频等记录方式在一定介质上所生成的物质成果 文献的三要素:记录、知识、载体 文献的功能:①存储功能②传递功能③认识功能 (3)情报。指为一定目的而搜集和传递的有特定效用的知识 情报的基本属性:传递性、效用性 6.信息资源的基本特征 (1)普遍性(2)传递性(3)时效性(4)价值性(5)可转换性(6)可利用性(7)可共享性

文献检索期末考试卷

《信息检索与利用》试题(本科) 一、单项选择题(每题1.5分,共30分) 1. 人类社会的三大资源是(A ) (A)物质、能源、信息(B)物质、人力、资本 (C)物质、能源、管理(D)信息、管理、人力 2. 就信息与物质、能量的关系而言( D ) (A)信息是一种物质(B)信息是一种物质,同时具有一定的能量(C)信息是一种能量(D)信息既非物质,也非能量 3. 信息论的创始人是( D ) (A)美国数学家哈特莱(B)美国数学家维纳 (C)中国数学家华罗庚(D)美国数学家香农 4.信息资源的本质特征是( B ) (A)依附性与可传递性(B)知识性与共享性 (C)共享性与价值不定性(D)可传递性与共享性 5. 如果分别以检索词a、b、c在某数据库的关键词字段进行检索都能得到相

应的检索结果,结果不为0,下面哪个检索式表示检索结果数最少( A )(A)a and b and c (B)a and b or c (C)a or b or c (D)a or b and c 6. 根据加工深度来划分文献,学位论文属于( B ) (A)零次文献(B)一次文献 (C)二次文献(D)三次文献 7. CNKI 是以下哪一种称谓的简称( C ) (A)清华同方(B)重庆维普 (C)中国知识基础设施(D)中国期刊全文数据库 8. 扩大检索范围的方式是(B ) (A)使用“逻辑与”(B)使用“逻辑或” (C)使用“逻辑非”(D)使用优先运算符 9. 下列能够检索图书信息的数据库是(D ) (A)维普《中文科技期刊数据库》(B)万方数据资源系统 (C)人大复印报刊资料全文数据库(D)超星数字图书馆 10. 下列属于一次文献的正确答案是( C ) (A)专刊说明书、索引、文摘刊物(B)期刊论文、私人笔记、百科

信息检索考试题汇总(附答案)

4.国际标准书号的英文简称ISBN,新版国际标准书号2007年正一、单项选择题(从下列各题四个备选答案中选出一个正确答案,式实施,国际标准书号由10位升至13位。(√)并将其代号写在答题纸相应位置处。每题2分,共30分) 5.检索效果的评 价指标主要有查全率和漏检率。(×) 1._C_是题录型检索工具 1.NSTL是(国家科技图 书文献中心)的简称。 A.CABIB.中国学术期刊文摘 C.全国报刊索引(自然版)D.经济纵2.(信息检索系统)是指由一定的设备和信息集合构成,具有一横定存储、检索与传送 技术设备,提供一定的存贮与检索方法及检 2.浏览超星数字图书馆,应首先安装 __D_____. 索服务功能的工作系统。体系分类表通常由(类目表、标记符号、说明和注释、类目索 3.世界上第一大联机检索系统是_A_。引)4个部分组成。 A.DIALOG系统B.OBRIT系统C.OCLC系统D.STN系统 4.正式出版的中文期刊在检索工具和数据库中一般 着录有国际 4.利用baidu搜索信息时,要将检索范围限制在网页标题中,应标准刊号(ISSN)和国内统一刊号(CN)。该使用的语法是___B_______。 5. A.site: B.intitle: C.inurl: https://www.sodocs.net/doc/f46740139.html,: (JournalofAnalyticalChemistry)。 5.国际农 业和生物科学中心英文名称的简称为_A。 6.CASHL是指(中国高校人文社会科学文献中心),其英文全称是ChinaAcademicSocialSciencesandHumanitiesLibrary,是全 6.信息 检索根据检索对象不同,一般分为___C___________。国性的、唯一的人文社科外文期刊 收藏和服务中心。2002年开始 A.二次检索、高级检索 B.分类检索、主题检索规划建设,2004年3月15日正式启动 C.数据检索、事实检索、文献检索D.计算机检索、手工检索7.电子期刊,指以(数字或称电子)形式出版发行的期刊,英文7.国际上评价期刊最有 影响力的一个指标是___A_____。为(electronic A.影响因子B.读者统计数据C.引文量D.价格 Journal),简称e-journal. 8.二次检索指的是:___C__________。 8.国家知识 基础设施(NationalKnowledgeInfrastructure,NKI)A.第二次检索B.检索了一次之

信息检索与利用考试试题

《信息检索与利用》课程考试试题 目的:检验主要理论要点和实际操作技术。 方式:开卷考试。 一、多选题(每题1分,合计10分) 1.下面哪些属于二次文献(BCD )。 A.手册; B.文摘; C.目录; D.题录. 2.针对不同时间要求的文献应使用不同的文献类型,就最新的文献信息而言,例如近一两个月的文献信息,应该使用(BD )。 A.图书; B.期刊或报纸; C.专利; D.互联网. 3.在计算机检索中,同一概念的同义词扩展方法有(A )等。 A. 学名或俗名; B.简称和全称; C.上位和下位; D.术语和代码. 4.概念(AB )之间属于上下位关系。 A.家用电器与电视机 B.局域网与LAN C.计算机与电脑 D.硅酸盐与陶瓷 5. 概念(A )之间属于同一概念的扩展关系。 A. 乙醇与酒精; B.手机与移动电话; C.fiber与fibre; D.因特网与局域网。 6. ( A D )的基本作用是扩大检索范围,增加命中篇数,提高查全率。 A. 逻辑“或”; B.优先算符; C. 逻辑“与”; D.截词 7. (BC )的基本作用是缩小检索范围,减少命中篇数,提高查准率。 A. 逻辑“或”; B.优先算符; C. 逻辑“与”; D.逻辑“非” 8. 从概念之间的关系和检索策略的常识判断,(AD )是符合逻辑的。 A.世界贸易组织OR WTO; B. 世界贸易组织AND WTO; C.bank OR company ; D. bank AND company. 9.通过谷歌(Google)查得的结果过多,可通过(ABCD )方法,优化检索结果。 A.词组检索; B.字段限定; C.增加同义词; D.使用优先算符. 10. 如果检索结果过少,查全率很低,需要调整检索范围,此时,调整检索策略的方法有( BEF )等。 A. 用逻辑“与”或者逻辑“非”增加限制概念;B.用逻辑“或”或截词增加同族概念; C. 用字段算符或年份增加辅助限制; D. 用“在结果中检索”增加限制条件.E.找出词干的上位词; F.在词干相同的单词后使用截词符”?”

信息存储与检索复习资料答案

信息存储与检索复习资料答案

一、单项选择题 1. 以下哪个数据库提供同名作者检索功能:(D ) A.万方数据库 B.中国期刊全文数据库 C.复印报刊资料全文数据库 D.中文科技期刊全文数据库 2. _______提供一次文献的线索。(B)A.文摘、索引等B.图书C.百科全书D.手册 3. 以下属于特种文献的是( B)。A.图书 B.科技报告 C.报纸D.期刊 4. 用主题词检索只可以检索出对应的() 5. 我国制定专利法的主要目的就是为了保护发明创造的(D )A.著作权 B.发明权 C.发现权 D.专利权 6. 利用分类途径进行检索,其检索标识为( C )A.主题词B.关键词C.分类号D.分子式 7. 在一般的著录格式中可以通过_______来判断该文献为会议文献( C ) A.Journal B.Report C.Conference D.Patent 8. 下列选项中,不属于信息能力的有( B ) A.鉴别B.传递 C.评价 D.有效利用 9. 从狭义上说专利文献就是指(专利注明书) 10. Google搜索引擎的首页面上有一个“手气不错”的按钮,这

个按钮的作用是什么?(D) A.测试你当天的手气B.提供最相关的一组检索结果列表 C.提供最相关的一个检索结果的链接 D.直接跳转到系统认为是最相关的页面 11. 利用___索引,我们可以检索任一知名专家的文献被引用的情况(D) A、Citation Index; B、Corporate Index; C、Permuterm Subject Index; D、Source Index; 12. 文献信息检索的全过程包括文献信息的______两个过程( C ) A.存贮和检索 B.存贮和编排 C.标引和编排 D.存贮和标引 13. 利用分类途径进行检索,其检索标识为( C )。A.主题词 B.关键词 C.分类号 D.分子式 14. 已知名叫孙钱章的作者99年出版了一本书,若想找到书名及其他信息,应在下列哪个数据库中查找?( C. ) A.中文科技期刊全文数据库 B.复印报刊资料全文数据库 C. 超星数字图书馆 D.万方数据资源系统 15. 利用搜索引擎检索有关知识管理方面的学术论文,其检索式采用哪种比较好?(C) A.关键词摘要intitle:知识管理 B.论文知识管理PDF C.学术论文知识管理 D.学术论文intitle:知识管理

信息检索与利用判断题

1989年,美国图书馆协会在一份《关于信息素养的总结报告》中提出,具有信息素质的学生必须具有的能力是:能够有效地、高效地获取信息;能够熟练地、批判地评价信息;能够精确地、创造地使用信息。错2008年6月,中国雅虎和口碑网整合,成立雅虎口碑网,通过“人物搜索”可进入口碑网。错?表示检索词中若干个未知的字母。错A Apabi Reader 在保留纸书阅读习惯的基础上,提供了一些阅读纸书无法享受的便利功能。对B百度能深刻理解中文用户的搜索习惯,用户输入拼音,就能获得中文关键词正确提示。对B百科全书属于二次信息。错B标准文献是一种标准化工作的规范性技术文件,是经过公认的权威部门批准的标准化工作成果。对B不管是标准检索界面,还是高级检索界面,只要检索结果的篇数允许,二次检索可以反复做,直到满足课题要求为对B不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。对C垂直搜索引擎和普通的网页搜索引擎的最大区别是将网页的非结构化数据抽取成特定的结构化信息数据。对C 超星数字图书馆是我国目前互联网上建立的规模最大的数字图书馆。对C超星数字图书馆中的全文资源是无偿服务。错C常用的中英文电子词典软件,可以通过屏幕取词对方正Apabi Reader中的词进行翻译。对C查询词表述准确是获得良好搜索结果的必要前提。对C菜单栏中的“设置”选项可以对浩瀚阅览器的部分功能进行设置。错D多馆联合目录是

指一种联合2所以上图书馆馆藏目录的数据库。对D多元搜索引擎将多个搜索引擎集成在一起,向用户提供一个统一的检索界面,将用户的检索提问同时发送给多个搜索引擎同时检索多个数据库。对D多元搜索引擎是由检索请求提交、检索结果显示两部分组成。错D多媒体图像检索,就是通过分析图像的内容,如色彩、纹理等建立特征索引,并存储在特征数据库中,检索时只要对图像的模糊印象描述出来,即可在图像数据库中找到所需求的图像。对D第一手资料包括与论题直接有关的文字材料、数字材料还包括自己在亲自实践中取得的感性材料。对D地方图书馆可以利用方正技术,制定地方特色文献资源。对D当我们从概念最宽泛的关键词开始搜索时,我们会使用“and”组织关键词。错D答辩的一般程序是学生做汇报,毕业答辩小组提问,然后学生答辩,最后由专家评定成绩。对E二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。错F方正Apabi 数字图书馆的分类检索中有“常用分类”和“中国图书馆图书分类法”两种分类方法。对F方正电子图书不是全文电子化的图书,不能输入任意知识点或全文中的任意单词进行检索。错G高级检索功能中不能使用布尔逻辑检索的检索手段。错G Google图书搜索中收录的图书有两个来源:合作商计划和图书馆计划。对G Google图书搜索中显示全书视图的图书,用户可以在线浏览该书的全部内容。

《信息检索与利用》试题(本科)

《信息检索与利用》试题(本科) 姓名武音池学号W871714220003 专业林学 一、单项选择题(每题1.5分,共30分) 1. 人类社会的三大资源是(A ) (A)物质、能源、信息(B)物质、人力、资本 (C)物质、能源、管理(D)信息、管理、人力 2. 就信息与物质、能量的关系而言( D ) (A)信息是一种物质(B)信息是一种物质,同时具有一定的能量 (C)信息是一种能量(D)信息既非物质,也非能量 3. 信息论的创始人是( D ) (A)美国数学家哈特莱(B)美国数学家维纳 (C)中国数学家华罗庚(D)美国数学家香农 4.信息资源的本质特征是( B ) (A)依附性与可传递性(B)知识性与共享性 (C)共享性与价值不定性(D)可传递性与共享性 5. 如果分别以检索词a、b、c在某数据库的关键词字段进行检索都能得到相应的检索结果,结果不为0,下面哪个检索式表示检索结果数最少( A ) (A)a and b and c (B)a and b or c (C)a or b or c (D)a or b and c 6. 根据加工深度来划分文献,学位论文属于( B ) (A)零次文献(B)一次文献 (C)二次文献(D)三次文献 7. CNKI 是以下哪一种称谓的简称( C ) (A)清华同方(B)重庆维普 (C)中国知识基础设施(D)中国期刊全文数据库 8. 扩大检索范围的方式是(B ) (A)使用“逻辑与”(B)使用“逻辑或”

(C)使用“逻辑非”(D)使用优先运算符 9. 下列能够检索图书信息的数据库是(D ) (A)维普《中文科技期刊数据库》(B)万方数据资源系统 (C)人大复印报刊资料全文数据库(D)超星数字图书馆 10. 下列属于一次文献的正确答案是( C ) (A)专刊说明书、索引、文摘刊物(B)期刊论文、私人笔记、百科全书(C)会议论文、科技报告、期刊论文(D)字典、手册、年鉴 11. 以下四种信息检索语言中,不受《词表》控制的是( D ) (A)标题词语言(B)元词语言 (C)叙词语言(D)关键词语言 12. 下述各项中,影响数据库质量的是(D ) (A)检索式是否正确(B)检索者是否正确分析检索课题 (C)检索词的选择质量(D)数据库的信息量 13.以下哪个不是纸质文献的记录手段( D ) (A)手写(B)油印(C)胶印(D)雕刻 14. 国际标准书号是( A ) (A)ISBN (B)ISSN (C)CABI (D)CNKI 15.我国专利法规定,发明专利的保护期限为( D ) (A)专利权人终身享有(B)30年 (C)10年(D)20年 16. 下列标引中属于内容特征描述的是(C ) (A)著者标引、篇名标引(B)文献来源标引、著者工作单位标引(C)分类标引、主题标引(D)文献类型标引、语种标引 17. 利用引文追溯法检索文献是指(C ) (A)利用数据库查找相关文献的方法 (B)利用手工检索刊物查找相关文献的方法 (C)利用文献所附的参考文献查找相关文献的方法 (D)利用Internet查找相关文献的方法 18. 文献记录中的ISSN号是属于( B )

信息存储与检索练习题

信息存储与检索练习题 二、问答题 1.简述信息、资源的概念。 信息:是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容。 资源的涵义:资源可分为两个范畴,一是自然界赋予的自然资源;二是人类社会中人的劳动创造的各种资源。资源是一切可被人类开发和利用的客观存在。 2.简述信息资源的概念及特征。 信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据。 共享性这是信息资源区别于物质资源的根本属性之一。一般来说,信息资源可同时为众多的使用者享用,也可被不同时期的使用者使用,同一条信息可以同时为不同领域的人服务、满足不同的需要。而不象物质资源那样具有排他性,即特定的物质资源只能被某些国家、地区或某些群体、甚至个人占有和消耗。当然,一些人可控制或保密的信息,不具有这一特性。 时效性:一般来说,信息资源的时效性,是由事物运动变化的规律决定的。因此,信息资源能否转化为生产力,取决于收集、加工和利用信息是否适时,只有时机适宜,才能发挥最佳效益。 智能性:信息资源是人类按照一定次序开发与组织起来的信息,是人类脑力劳动的产物。 无限性与有限性并存 增值性即对信息资源的投入和使用,不但可以使自然资源、人力资源、资本资源增值,同时信息资源可以一次投入、多次开发利用,并不断产生新的信息使其自身增值。 3.简述电子信息资源含义。 含义:电子信息资源书是以数字化形式(即二进制代码0、1),把文字、图像、声音动画等,多种形式的信息存储在光、磁等非印刷型介质上,以光信号、电信号的形式传输,并通过相应的计算机和其他外部设备再现出来的信息资源。 4.什么是信息检索信息检索的类型有哪些 信息检索的概念:通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。 类型:文献检索数据检索事实检索 5.简述信息存储与检索原理。 信息检索的全称形式或广义的信息检索,它既包括采用多种形式记录信息、排序信息的信息存储过程,也包括通过一定的设备、采用一定的手段与技巧从信息系统中快速、准确地搜寻所需信息的方法与过程。 信息存储与检索的基本原理:查询语言(检索提问)和系统标识语言所进行的“相符性比较”与“匹配运算”。 6.简述信息存储与检索类型。 一是关于文献的检索;二是关于某事实或事项的知识检索;三是关于数

相关主题