搜档网
当前位置:搜档网 › 中科院分词系统C++版本

中科院分词系统C++版本

中科院分词系统C++版本
中科院分词系统C++版本

基于一种语义相关度的集诗系统

————大作业报告

姓名:常超学号: P1310614

0 介绍

本次大作业实现了一种基于简单语义相似度的自动及辅助集诗系统。我们通过统计了大量诗词中的上下字搭配及其规律,提出了一种简单的语义相似度的概念;在算法上,将集句对诗视作一个搜索的过程,对候选诗句利用基于语义相似度的句子概率进行排序,返回最优结果;系统上,为了避免语义的偏差,提出了一种辅助集句模式。经过实验证明,本方法能够较好的实现集句对诗的任务,但系统仍存在诸如作诗效率低、未考虑押韵及平仄。最后对以后的相关工作进行了展望。

1 作诗规律

在古代诗歌,尤其是律诗或者绝句中,作诗时应从如下几个角度考虑问题。机器在作诗时也应该从这几个方面考虑。

1.语义

上下句之间必须有语义上的联系,或继承或转折,逻辑上不能相差太大。读者在阅读时,感觉到语义的跳动性小,整首诗看上去“一气呵成”。这也是机器作诗结果如果想要通过图灵测试,必须实现的最基本也是最重要的要求。

2.对仗

对仗是指“名词对名词,动词对动词,形容词对形容词,数量词对数量词,虚词对虚词“,同一类词放在前后两句的同一位置上。对仗是诗词语言中的语法问题。

3.押韵

平仄和韵脚,是语音方面的特征。中国的旧体诗以平仄为抑扬,以平仄相间为节奏。诗行的韵脚,是同韵的字(主要是元音和韵尾相同)来来回回地重复,也就是“合辙押韵”。

2 相关工作

对于上述三点要求,经过调研我认为的解决方案有以下几点。

1.语义

解决语义问题,最好的方法是利用语义相似度。

语义相似度的概念是指两个词语在不同的上下文中可以互相替换使用而不改变文本的

句法语义结构的程度。大多数的研究者都将句法角色、语义网络中的距离等因素加以考虑。我们可以利用语义分析的方法实现尽量减小上下句之间语义跳动性,从而解决语义上的问题。

目前对于现代汉语的语义相似度已经有很多现成的开源项目可以利用,例如“知网的语

义相似度项目”、“Xsimilarity夏天项目”、“《同义词词林》语义相似度项目”等。但通过现代汉语语料库训练而来的语义相似度能够多大程度上的完成古诗语义相似度的工作,仍是一个问题。为此,我利用一些古诗中常见的关键意境词组对上述三种现代语义相似度程序进行了测试。结果如下:

可以发现这几个项目应用到古诗中只能解决部分词之间的语义相似度问题。例如对于古诗中经常用到的“酒”与“愁”的配对,几个项目算出的相似度都为0,这显然是无法接受的。

2.对仗

根据第1节中有关对仗定义的描述,不难看出要解决该问题,最好的办法是利用分词系统对诗句进行分词,然后比较上下句的结构,从而判断是否对仗。

对于现代汉语,目前也有不少分词系统,最著名的就是中科院的ICTCLAS。同样的,利用一些对仗的上下句对ICTCLAS对古诗的适用性进行了检测。结果如下:

可以看出,ICTCLAS也是只能对于部分诗句解决效果较好。

3.押韵

这里的工作可能更多是针对语料库的。关键是如何建立一个对每句诗的平仄性及尾字的韵脚都进行标注的语料库,这样在匹配诗句时,就可以利用这些标注进行匹配。建立这样的语料库需要大量的人工劳动。

3 基本思想

我的大作业的思想主要是针对字的上下句语义相关性。

由上节可以看出,由于对古诗词的分词、词性标注准确率不够理想,反而会带来新的问题。所以我们摒弃了自然语言处理当中一贯的“词本位”的方法,采用基于字的方式。

3.1 语义相关度

从搭配的角度来讲,本系统的设计初衷是从语义的角度构建集句对诗系统。希望根据已有的上句,按照语义相似度寻找最优的下句。

同样由于现代语义相似度工具对古诗的效果并不是太好。我基于统计建立了一个简单语义相关性定义,并利用唐宋诗语料库进行训练。

对于输入句子中的每一个字,我们遍历语料库找出其每一个所在句子,然后得到这个句子所对应的上句或下句中该字正对应位置字是什么并统计其总数目。这样我们就找到了该字在语料库中最常用的对仗字。

以诗句“竹外桃花三两枝”为例。我们遍历其中每一个字,统计其最常用的一些对仗字。以“花”字为例,我们首先找到一个含有“花”字的句子,比如找到了“乱花渐入迷人眼”这句诗,该句的对应诗为“乱花渐入迷人眼”,而“花”字对仗位置的字为“草”,这样“草”字的统计次数就加一。

现在两个字a和b的相关度的定义如下:

P=N b(a|b)

N a

? , P=

N a(b|a)

N b

?

N a表示a出现的次数,N b(a|b)表示a出现的情况下,对仗位置出现b的次数。

3.2 改进

3.2.1 对仗改进

上述基本定义会有一个局限性,那就是假定了一个字对仗位置的字和其一定是联系密切的,也就是说认为诗句都是对仗创作的。这明显不对,其实对于绝大部分诗句的创作并不对仗,其上下句联系紧密的关键意境词并不在对仗位置。

例如诗句“苦苦思愁寄明月,把酒言欢论江山”,关键意境词“愁”和“酒”并不在对仗位置。那么为了考虑到非对仗诗句,我们将定义作如下改进,不再仅仅统计该字对仗位置的字,而是统计该字对仗诗句总所有的字。即N b(a|b)的定义改为表示a出现的情况下,对应上下句中出现b的次数。

以“酒“为例,改进后,训练结果如下:

发现结果并不理想,因为上述改进虽然考虑了非对仗的情况,但很明显如果将对应句的所有字按平等原则全部加一就会导致一些常见字排名靠前。如上图中,“日、春、山、无”这些常见字虽然与”酒“的相关度并不高,但和”愁“相比仍十分高。

3.2.2 平滑改进

为此,我们再作如下改进。将对仗位置的字权重改为2(即出现一次次数加二),而将非对仗位置的字权重仍为1.改进后测试结果如下,虽然仍有上述问题,但明显概率的比例差距大大减小。

3.2.3 噪声改进

为减少低频噪声,提高时间效率,在求相关度的浮点数运算之间,我们把出现次数小于10次的所有对应字删去。

4 得出结果

有了上述定义,我们在训练出已给诗句中所有字和其他字的相关度后,就可以利用这些数据得出最佳下句。

即遍历语料库,对于每句诗计算其中每个字和已给诗句中每个字的相关度之和,和最高

的即为最佳诗句。

最佳诗句=max ∑∑b n b 1

a n a 1 我们以一些诗为例,测试结果如下:

结果发现最大的问题在于随着诗句的增加,后面的诗句和前面尤其是第一句诗的意义差别越来越大。主要原因是下句的得出仅仅是根据上句,而并未考虑全诗的意境。并且在根据诗句计算下句时,往往是一些不太重要的词被当做了意境词,而导致诗句意义有偏差。 为此,我们提出了辅助作诗系统,也就是系统不再根据最大相关度给出唯一解,而是给出相关度排名较高的所有句子,由人来根据自己的意愿选择最好诗句。这样就可以做出适合自己风格的集句诗,而且可以降低诗句的意义的发散性。

我们以“枫叶芦花并客舟“为例,当选择自动集句模式时,结果如下:

而如果我们选择辅助集句模式,经过人工选择我们可以得到如下结果:

5 不足与展望

5.1 不足

目前,本系统对于自动集句模式下做出的诗,很多情况下仍不理想。其主要原因时在经过语义相关得到候选句子集合后,只是简单的选择相关度最高的诗句,而未考虑对仗、押韵及意境。

那么该系统和真实的人进行集句的差距到底有多大呢?我们以郑板桥在《道情十首》小序中经典的集句诗为例,进行比较:

1.输入“枫叶芦花并客舟“,统计得到候选句子的相关度大小,结果如下:

2.输入“枫叶芦花并客舟“,统计得到候选句子的相关度大小,结果如下:

3.输入“劝君更进一杯酒“,统计得到候选句子的相关度大小,结果如下:

那么自动集句和郑板桥原诗的平均相似度为:

1 (1.06371

+

0.697269

+

0.820912

)=0.5475

5.2 展望

由于大作业时间较为仓促,其实很多想法都未实现。

正如前面多次提到,本程序仅仅是基于语义相关度的,未考虑对仗和押韵。后续的工作就是在继续优化该算法的基础上,考虑对仗和押韵的影响。

语义情况:本文得到的是语义相关度方面的数据,设为M

语义

对仗情况:可以利用分词将上下句分词后,根据词性匹配情况,得到对仗方面的数据M

对仗

押韵情况:可以优化语料库,根据上下句平仄及韵脚规则进行匹配,得到押韵方面的数

据M

押韵

那么筛选最优诗句可以根据如下公式来进行:

perfect=αM

语义+βM

对仗

+γM

押韵

其中α,β,γ分别表示三个方面的权重。

如果能够得到这三个数据,那么在选诗时,我们可以根据自己的需要设置各个方面的权重,从而得到最佳诗句。

例如我们把α,γ两项设为0,那么很明显我们仅仅是依据对仗来选择,其实就是实现了一

个集对联系统;把α,β两项设为0,那么很明显我们仅仅是依据押韵来选择,其实得到的诗句全是韵脚及平仄相似度最大的。

本次大作业中,我的很多思想看起来比较稚嫩,经不起深入推敲,也并没有进行太多的理论论证和分析。但我还是经过了深入调研和思考得到了一些结论。

由于本人本科并不是计算机相关专业,编程知识更偏向于底层,主要使用c/c++。因此在编程上也存在有一些问题。尤其是对于语言处理,Java语言的优势更大。但由于以前接触不多,因此我的编程相关作业都只使用c++实现。中间出现过很多问题,不过经过努力最终都得到了解决。

Coremail 电子邮件系统案例简介中科院

Coremail 电子邮件系统案例简介 ——中国科学院邮件系统部署方案 中国科学院是国家科学技术方面最高学术机构和全国自然科学与高新技术综合研究发展中心,包括5个学部以及11个分院、84个研究院所、1所大学、2所学院、4个文献情报中心、3个技术支撑机构和2个新闻出版单位,分布在全国20多个省(市)。此外,还投资兴办了430余家科技型企业(含转制单位),涉及11个行业,其中包括8家上市公司。本文由Coremail 销售经理杨广文整理,如需深入了解或购买Coremail电子邮件系统欢迎随时联系186//0192//6092,感谢您对Coremail的关注。 项目背景 中科院下辖机构和院所众多,采用的邮件系统各异造成收发不畅,维护和管理困难。建设一个覆盖中科院网用户,具有高可靠性和安全性的统一电子邮件服务系统是中科院“十五”信息化建设专项项目之一。经过长达1年的产品调研测试及同业产品的技术比较,Coremail邮件系统稳定、成熟的系统架构和强大的反垃圾能力获得了中科院计算机网络信息中心的认可。2004年,Coremail邮件系统配合中科院电信级机房和NAS集群存储系统搭建了中科院邮件运营中心,并将院属各单位的邮件系统陆续平滑迁移到中科院邮件系统中。时逢公安部、教育部、信息产业部、国务院新闻办开展垃圾电子邮件专项治理工作,中国科学院随即开展垃圾电子邮件专项治理工作方案,并与Coremail建立长久的反垃圾邮件技术研究合作。

解决方案 中科院机构众多、分布广,对安全性及可靠性要求高,Coremail为中科院提供运营商级的邮件系统解决方案。Coremail邮件系统具备继续平滑扩容至千万级用户的能力,扩容时不中断原有的电子邮件服务,采用完全分布式系统结构,并行计算技术和独立的功能模块设计;同时严格遵循国际标准,可以实现系统的扩展和其他系统的互联,通过丰富的API接口,系统可以轻易满足功能扩展的要求。 一、分布式系统结构设计

中科院信号与系统课程硕士研究生入学考试试题与答案.doc

中科院2005年招收攻读硕士学位研究生入学考试试题 试题名称:信号与系统 一、已知当输入信号为)(t x 时,某连续时间LTI 因果系统的输出信号为)(t y ,)(t x 和)(t y 的 波形如图A-1所示。试用时域方法求:(共26分) 1. 该系统的单位阶跃响应)(t s ,并概画出)(t s 的波形;(12分) 2. 在系统输入为图A-2所示的)(1t x 时的输出信号)(1t y ,并概画出)(1t y 的波形。(14分) 1 t 1) (1t x 图A-1 图A-2 二、由差分方程∑=----=--4 ]) 1[2][(]1[5.0][k k n x k n x n y n y 和非零起始条件 1]1[=-y 表示的离散时间因果系统,当系统输入][][n n x δ=时,试用递推算法求:(共16 分) 1. 该系统的零状态响应][n y ZS (至少计算出前6个序列值);(10分) 2. 该系统的零输入响应][n y Zi (至少计算出前4个序列值);(6分) 三、已知连续时间信号)102cos()10(2)] 110(2sin[)(63 3t t t t x ?--=-πππ毫安,若它是能量信号,试 求其能谱密度和它在单位电阻上消耗的能量;若它是功率信号,则求其功率谱密度函数和它 在单位电阻上消耗的平均功率。(共14分) 四、已知][~ n x 是周期为4的周期序列,且已知8点序列][~][n x n x =,70≤≤n ,的8点 DFT 系数为: ,0)(,1)6()4()2()0(=====k X X X X X 其他k 。试求:(共24分) 1. 周期序列][~ n x ,并概画出它的序列图形;(12分) 2. 该周期序列][~n x 通过单位冲激响应为2222 ) 2/(sin )1(][n n n h ππ-=的数字滤波器后的输出 ][n y ,并概画出它的序列图形;(12分) 五、已知)(t x 是最高频率为4KHz 的连续时间带限信号,(共24分) 1. 若对)(t x 进行平顶抽样获得的已抽样信号 ) (t x p 如图A-3所示,试由 ) (t x p 恢复出)(t x 的 重构滤波器的频率响应)(ωL H ,并概画出其幅频响应和相频响应;(16分) 图A-3

中国科学院大学计算机领域信息检索期末考试答案

域信息检索与利用实用技巧 任课老师:李玲 试题专用纸 1、简答题:您在学习和研究过程中遇到下列问题时,常用哪些方法来解决? (10题,3分/小题,共30分) (1)查找期刊时,您常用的方法? 答: 中文期刊一般用:中国知网、万方数据库、维普数据库等; 外文期刊一般用:ACM、IEEE、Elsevier ScienceDirect、SpringerLink、Science Online 、Taylor & Francis Online Journals 、Cambridge Journal等; 可通过国科大图书馆进入上述网站首页,输入所需检索的期刊信息,如期刊名 称、作者、发表年份等信息进行查询。 (2)查找中国科学院学位论文时,您常用的方法? 答: 进入“中国科学院大学”首页→点击右下方“图书馆”→点击进入“中科院学位论文数据库”→进入检索界面,输入所需检索的论文信息,如:论文名称、作者、指导老师等。 (3)查找各国专利以及专利的被引用情况时, 您常用的方法? 答:进入国家知识产权局官网“https://www.sodocs.net/doc/c75469088.html,”,输入所需检索专利的发明名称、申请号、申请人(三者至少必填其一)进行检索,查看专利被引用情况。 (4)查找SCI期刊的影响因子,您常用的方法? 答:通过国科大图书馆点击“ISI-SCIE”进入web of science平台查询界面,输入期刊的关键词、作者等信息,可通过“AND”进行多个关键词组合以缩小查询范围。 (5)查找标准文献时,有哪些注意事项? 答:合理选择标准数据库(如中文期刊会议类检索工具选用CNKI、维普、万方等,查询专利选用国家知识产权局等数据库); 注意文献的发表时间(如利用CNKI科技类期刊数据库查询只能查询1994年之后发表的文献,维普中文科技期刊库可查询1984年之后发表的文献) 使用多个精确的关键字组合,以减小检索范围。 (6)文献管理时,您常用的方法? 答:使用EndNote文献管理工具,进行分类管理方便后期查询。

《中科院大牛博士是如何进行文献检索和阅读》笔记

一、如何进行文献检索 ★英文文献检索首推Elsevier,Springer等。 1、Google 学术搜索 2、Google 搜索(搜索文章作者的名字或者文章的title) 3、直接写邮件向作者要 4、发贴在小木虫上求助 5、直接让我所在的研究所图书馆的管理员帮我从外面的图书馆文献传 递。 二、如何快速而准确地获得最新的科研信息 ★利用数据库网站上"Email-Alert"功能 在其数据库的网站上注册了邮箱,数据库就会自动在每期有新的文章出来时把文章的内容及链接发到你的邮箱里,直接通知你.这样就对我们获取到最新的信息提供了方便. 三、如何进行文献阅读 ★心态:读文献一定不要心浮气躁,或者就是想着混个毕业。要沉下心来,大量阅读文献。 ★看的过程:看懂的认真学习借鉴,看不懂的深入探索。 看的过程中一定要和你自己的数据相结合,当看完一篇文献 后,要好好总结,如果用自己的数据,又该怎么样解释。 ★学习牛人写文章的文风。 ★建议:(1)整理文章出彩和重要的部分。(利用word文档) 边看一篇文献时,边打开word文档,边整理文章出彩和 重要的部分,然后复制过去,标上文献的标题和作者等相 关信息,把每一类文献归为一组。 (2)翻译经典段落或者语句。 有时把一些很经典的段落或都语句翻译成中文,专门整理 在一个本本上, ★管理文献:用专业的软件Endnote 或者也可以直接在网上用Endnote Web. ★千万不要只查不看,就算是你大概的看了一下也是有用的. ★不要迷信权威. 一、如何进行文献检索 对于自然科学来讲英文文献检索首推Elsevier,Springer等。 1、首先在Google 学术搜索里进行搜索 从Google学术搜索中,还可以得到一些信息,Google学术 搜索中会显示出你搜索文章的引用次数,不过这个引用次 数不准确,但是从侧面反应了这篇文章的质量,经典文章

地理信息系统专业知名企业介绍

下面是由托普仕留学(中国首家高端精品留学机构)专家对地理信息系统专业知名企业的介绍,希望对准备去留学的同学们有所帮助! 1、美国环境系统研究所公司(ESRI) 该公司成立于1969年,总部在美国加州,是世界最大的地理信息系统技术提供商,其商业合作伙伴计划,在全球有超过2000个领域开发商、咨询服务商、增值代理以及数据提供商,与分布在80个国家的国际代理一起,构成了ESRI公司强大的技术支持与服务网络。 2、东方道迩数字数据技术(北京)有限公司 该公司成立于2001年,位于中关村科技园,是“国家规划布局重点软件企业”之一;公司侧重于空间信息领域发展,为客户提供高质量大规模的空间数据产品。公司以发展成“世界数据工厂”为目标。 3、北京北方数慧系统技术有限公司 2001年在上海浦东张江高科技园区成立上海数慧系统技术有限公司,2003年在中关村高新技术园区成立北京公司。该公司以行业应用解决方案为核心的信息技术服务领域居于领先地位。 4、中国超图软件股份有限公司 该公司是中国乃至亚洲领先的地理信息系统平台软件企业,主要从事GIS基础平台和应用平台软件的研究、开发、推广和服务。 Note: 我一生只做了一件事,就是将GIS从实验室转变成为一个蒸蒸日上的工业。——Jack Dangermond Jack Dangermond是ESRI公司创始人,现任总裁,被公认为GIS业界先驱和技术领导者。2008年1月21日-22日,Jack Dangermond先生先后到访北京大学、中科院地理所、北京师范大学以及国家基础地理信息中心。在他的演讲中既有宏观的谈论GIS在改变世界中的价值,也具体谈到了未来GIS的发展的趋势,以及他本人对GIS产业发展的看法和感受等。致力于学习GIS的学生可以详细阅读他的演讲稿,相信对求学之路会有很大的指导意义。 以上是由托普仕留学(中国首家高端精品留学机构)专家对地理信息系统专业知名企业的介绍,希望对准备去留学的同学们有所帮助!如果有疑问或者感兴趣的话,可以咨询托普仕留学专家。

中文自动分词技术

中文自动分词技术是以“词”为基础,但汉语书面语不是像西方文字那样有天然的分隔符(空格),而是在语句中以汉字为单位,词与词之间没有明显的界限。因此,对于一段汉字,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程词,就要应用到中文自动分词技术。下面依次介绍三种中文自动分词算法:基于词典的机械匹配的分词方法、基于统计的分词方法和基于人工智能的分词方法。 1、基于词典的机械匹配的分词方法: 该算法的思想是,事先建立词库,让它它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到该字符串,则识别出一个词。按照扫描方向的不同,串匹配分词的方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,又可以分为最大匹配和最小匹配。按这种分类方法,可以产生正向最大匹配、逆向最大匹配,甚至是将他们结合起来形成双向匹配。由于汉字是单字成词的,所以很少使用最小匹配法。一般来说,逆向匹配的切分精度略高于正向匹配,这可能和汉语习惯将词的重心放在后面的缘故。可见,这里的“机械”是因为该算法仅仅依靠分词词表进行匹配分词 a)、正向减字最大匹配法(MM) 这种方法的基本思想是:对于每一个汉字串s,先从正向取出maxLength 个字,拿这几个字到字典中查找,如果字典中有此字,则说明该字串是一个词,放入该T的分词表中,并从s中切除这几个字,然后继续此操作;如果在字典中找不到,说明这个字串不是一个词,将字串最右边的那个字删除,继续与字典比较,直到该字串为一个词或者是单独一个字时结束。 b)、逆向减字最大匹配法(RMM ) 与正向减字最大匹配法相比,这种方法就是从逆向开始遍历。过程与正向减字最大匹配法基本相同,可以对文本和字典先做些处理,把他们都倒过来排列,然后使用正向减字最大匹法。 机械匹配算法简洁、易于实现.其中,最大匹配法体现了长词优先的原则,在实际工程中应用最为广泛。机械匹配算法实现比较简单,但其局限也是很明显的:效率和准确性受到词库

Internet在中国的发展

Internet在中国的发展 摘要:Internet在中国经历了两个发展阶段:Internet电子邮件连接和TCP/IP全功能连接。至今,已有七条国际专线接入国际Internet。本文介绍Internet在中国发展的历史、现状和前景,介绍目前我国活跃在Internet领域的各个主要网络的结构、规模、应用以及它们的发展计划。 一、引言 Internet经过二十年的发展,取得了极大的成功,它已成为世界上覆盖面最广、规模最大、信息资源最丰富的计算机信息网络,它在当今世界各国推行的NII(国家信息基础设施)和GII(全球信息基础设施)计划中扮演着极其重要的角色。 近年来,我国也拉开了信息基础设施建设的帷幕。“三金”工程为龙头,一大批信息网络工程正在各部委各层次中加紧进行。尤其重要的是,近十年来,我国的基础电信事业得到了长足的发展,在公众电话网越来越普及的基础上,相继建成了中国光缆网、中国公用数字数据网(CHINADDN〕和公用分组交换数据网(CHINAPAC〕。形成了以北京为中心,覆盖全国的数据通信网络,这些公用基础网络的建成,为我国发展信息产业创造了必备的条件。 在我国的众多信息网络中,尤其引人注目的是和国际Internet的互联互通。Internet 在我国的发展十分迅速,已成为社会各界关注的热点。 回顾Internet在我国发展的历史,可以粗略地划分为二个阶段:第一阶段为1987-1993年,我国的一些科研部门已开展了和Internet联网的科研课题和科技合作工作,通过拨号X.25实现了和Internet电子邮件转发系统的联结,并在小范围内为国内的一些重点院校、研究所提供了国际Internet电子邮件的服务。第二阶段是从1994年开始,实现了和Internet 的TCP/IP联结,从而开通了Internet的全功能服务,数个全国范围的计算机信息网络项目相继启动,Internet在我国得到了迅速的发展。本文将详细介绍这二个发展阶段的相关情况。 二、第一阶段:实现和Internet电子邮件系统的互联 据Internet Society公布的最新资料表明,当今的Internet已覆盖了173个国家,其中96个国家是实现了和Internet的TCP/IP联结,可以使用Internet所提供的各种服务。而另外77个国家,由于条件限制,目前只是实现了和Internet的电子邮件联结。可见,Internet在很多国家的发展都是经历了这二个阶段。我国也不例外,在1987-1993年,我国只是开通了通达世界各国的Internet电子邮件联结。 早在1986年,由北京计算机应用技术研究所(即当时的国家机械委计算机应用计术研究所〕和德国卡尔斯鲁厄大学(Karlsruhe University〕合作,启动了名为CANET(Chinese Academic Network〕的国际联网项目,于1987年9月,在北京计算机应用技术研究所内正式建成我国第一个Internet电子邮件节点,通过拨号X.25线路,连通了Internet的电子邮件系统。并于1987年9月20日22点55分,通过Internet,向全世界发出了第一封发自北京的电子邮件:“越过长城,通向世界”,这在国际学术计算机网络界和中国留学人员中引起很大的反响,纷纷来电致贺,美国国家科学基金会(NSF〕、CSNET、BITNET主席们也发来贺信。CANET成为我国第一个Internet国际电子邮件出入口后,在国家科委的支持下,即向我国的科研、学术、教育界提供了Internet电子邮件服务。并于1990年10月,正式向Internet 网管中心登记注册了我国的最高域名Top Level Domain "CN",从而开通了使用中国自己域名的Internet电子邮件。继CANET之后,国内其他一些大学和研究所也相继开通了Internet

中科院高能所计算中心 MAIL 用户申请表

中科院高能所计算中心MAIL用户申请表 课题号:日期: 姓名工作单位 用户身份□职工□学生□客座人员 身份证号码职称 业务联系人联系电话 使用期限 通信地址 付费方式□课题□自费收费标准 60元/年 用户名 课题负责人签字 我已经仔细阅读此说明,并同意接受。用户签字:____________ 填表说明: 1、用户在申请使用高能所mail服务时,必须准确、如实填写《中科院高能所计算中心mail用户申 请表》并加盖课题章。 2、用户名:高能所邮件服务器用户名命名规则一般为姓(全拼)+名(拼音第一个字母);如遇重名 现象,则协商处理。 3、使用期限:是指用户使用高能所邮件服务器的期限,高能所正式职工不用填写,硕士、博士生填 写使用期限一般为3年,硕博连读生使用期限一般为5年,客座人员按实际情况填写。系统管理 员将根据使用期限信息定期清理旧账号。 使用规则: 1、计算中心将采取各种措施尽力维护mail系统的正常运转,保护环境的安全,但不可能保证环境的 绝对安全,对因不可抗拒的因素造成的信息丢失或泄密,计算中心不承担责任。 2、用户申请成功后,管理员将给予每个用户一个用户帐号及相应的密码,该用户帐号和密码由用户负 责保管;用户应当对以其用户帐号进行的所有活动和事件负法律责任。 3、用户必须同意接受计算中心通过电子邮件向用户发送的各种通知、提示服务。 4、用户在使用高能所mail服务器过程中,必须遵循以下原则: a) 遵守中国有关的法律和法规; b) 遵守《高能所计算环境使用条例》; c) 不得为任何非法目的而使用mail服务系统; d) 不得利用高能所mail服务器系统进行任何可能对互联网的正常运转造成不利影响的行为; e) 不得利用高能所mail服务器系统传输任何骚扰性的、中伤他人的、辱骂性的、恐吓性的、 庸俗淫秽的或其他任何非法的信息资料; 5、如接收到带有病毒或其他有害内容的邮件,应向邮件服务器管理员报告。 6、用户尽量不要将大量的文档存储在邮件服务器上,以免影响邮件服务器的性能。

中科院地理所GIS历年真题

中科院地理所1997年GIS研究生入学试题 一、名词解释 1.拓扑关系 2.缓冲分析 3.关系数据模型 4.空间叠加 二、简答题 1、GIS的主要功能略 2、企业GIS系统的特色 三、问答题选2 1、GIS基本组成与主要应用领域 2、地理科学数据集成与管理 3、结合你的专业,谈GIS应用发展前景 中科院地理所1998年GIS研究生入学试题(包括答案)(这年的博硕一样的)一、名词解释 GIS——是Geographic Information System 的缩写指由计算机系统、地理数据和用户组成的,通过对地理数据的集成、超出、检索、操作和分析,生成并输出各种地理信息,从而为土地利用、资源管理、环境监测、交通运输、经济建设、城市规划以及政府各部门行政管理提供新的知识,为工程设计和规划管理提供决策服务。 空间拓扑叠加——即overlap,指针对多种类型输入数据层的某种函数的叠加运算,把分散在不同层上的空间、属性信息按相同的空间位置叠加到一起,合成新的一层,是GIS 中最常见的模型分析方法叠合过程,往往是对空间信息和对应的属性信息作集合的交、并、差、余运算,并可进一步对属性作其它的数学运算包括面与面、线与面、点与面的叠合也可分为简单的视觉信息叠合和较复杂的分类模型叠合。 数字地形模型——即Digital Terrain Model,是地形表面形态属性信息的数字表达,是描述地面特性的空间分布的有序数值阵列。 二、简答 1、GIS构成 答:它由三个基本部分构成: (1)计算机系统包括硬件系统和软件系统硬件部分包括数据输入设备数字化仪等)、数据存储和处理设备中央处理机CPU 和磁盘驱动器)、输出设备绘图仪、打印机等软件系统包括计算机系统软件、GIS 系统软件和应用分析软件。 (2)地理数据库系统由数据库实体一般包括三方面内容,即空间位置坐标数据、地理实体间的拓扑关系以及相应的属性数据和地理数据库管理系统组成。 (3)地理信息系统的应用人员和组织机构地理信息系统专业人员是地理信息系统应用成功的关键,而强有力的组织是系统运行的保障。 另外,从系统的数据处理看,GIS 由5 个基本模块组成数据输入子系统、数据存储与检索子系统、数据处理与分析子系统和数据输出子系统组成。 1、关系数据库构成 2、栅格与矢量结构优劣比较

词位标注汉语分词技术详解

[收稿日期]2010-06-26 [基金项目]河南省教育厅高等学校青年骨干教师项目(2009G GJS -108)。 [作者简介]于江德(1971-),男,博士,副教授,主要从事自然语言处理、信息抽取、文本数据挖掘等。①可以从以下地址下载:http ://cr fpp .so ur cefo rg e .net [汉语词法·甲骨文] 汉语词法分析是中文信息处理的首要任务,主要包括分词、词性标注、命名实体识别三项子任务,它是句法分析与语义分析的基础,其性能将直接影响到中文信息处理的后续应用。安阳师范学院计算机与信息工程学院依托河南省高等学校“甲骨文信息处理”重点实验室培育基地,“中文信息处理”校级重点实验室“计算语言学”校级研究所等平台。对汉语词法分析中的这三项子任务、甲骨文进行了较深入的研究,取得了部分研究成果,现借学报这个平台展示给各位同仁,敬请各位专家学者指正。 词位标注汉语分词技术详解 于江德,王希杰 (安阳师范学院计算机与信息工程学院,河南安阳455002) [摘 要]近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF ++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeo ff2006的评测语料上进行了封闭测试。 [关键词]汉语分词;条件随机场;词位标注;特征模板 [中图分类号]T P391 [文献标识码]A [文章编号]1671-5330(2010)05-0001-05 在中文信息处理领域,词是最小的能够独立运用的有意义的语言单位。但汉语书写时却以字为基本的书写单位,词语之间不存在明显的分隔标记,因此,中文信息处理领域的一项基础性研究课题是如何将汉语的字串切分为合理的词语序列,即汉语分词。它不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、自动问答系统、信息检索和信息抽取等应用的关键环节[1,2]。 近年来,尤其是2003年7月首届国际中文分词评测活动Bakeo ff 开展以来,汉语分词技术取得了可喜的进步,该领域的研究取得了令人振奋 的成果[3,4]。其中,基于字的词位标注汉语分词技术(也称为基于字标注的汉语分词或由字构词)得到了广泛关注,在可比的评测中性能领先的系统几乎无一例外都应用了类似的标注思想[3,5]。基于字的词位标注汉语分词将分词看作序列数据的标注问题,使用序列数据标注模型实现,例如,可采用条件随机场(Co nditional Random Fields ,简称CRFs )实现。CRFs 是Lafferty 等[6]于2001年提出的一种用于序列数据标注的条件概率模型。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用B 、M 、E 、S 四词位标注集,使 1 2010年 安阳师范学院学报

在使用中科院邮件系统电子邮箱时,请大家在Foxmail或Ou

客户端配置手册 在科学院使用的IP地址段解除屏蔽之前,为尽量避免您发送到国外的邮件被拒收,请按照以下方法修改客户端软件中的邮箱设置,以便向引用了MAPS实时黑名单的邮件服务器发送邮件。 一 Foxmail配置方法

此处填写POP3 服务器名称https://www.sodocs.net/doc/c75469088.html, 此处填写您的 电子邮箱地址 此处填写您的邮 箱密码 此处填写SMTP 服务器名称 https://www.sodocs.net/doc/c75469088.html,

以上五步完成后,邮箱就在Foxmail中配置完成了。 二 Outlook Express配置方法必须选中此项,否则不能发送邮件 建议选中此项 第1步:选择菜 单上的“工具” 第2 步:选 择“帐户”

第3步:选 择“添加” 第4步:选 择“邮件” 第5步:填写 您的姓名 第6步:点击“下 一步”继续 第7步:填写 您的电子邮箱 第8步:点击“下 一步”继续

第9步:选择 POP3服务器 第10步:填写POP3服务器名称https://www.sodocs.net/doc/c75469088.html, 第11步:填写SMTP服务器名称https://www.sodocs.net/doc/c75469088.html, 第12步:点击 “下一步”继续 第13步:填写 您的电子邮箱 第14步:填写 您的邮箱密码 第15步:建议选中此项,否则每次收发邮件时都需要重新输入密码 第16步:点击 “下一步”继续 第17步:点击“完成”,Outlook Express将保存前面的设置

第18步:选中 新建的帐户 https://www.sodocs.net/doc/c75469088.html,第19步:选择 “属性”以便进 一步设置 第20步:选择 “服务器”标签 第21步:必须选中此项,否则将不能发送电子邮件第22步:点击“确定”

中科院地理信息系统考研大纲

中科院研究生院硕士研究生入学考试 《地理信息系统》考试大纲 本考试大纲适用于中国科学院研究生院地理信息系统等专业的硕士研究生入学考试。地理信息系统是地球信息科学的重要研究方向,主要内容包括地图投影与空间坐标变换、空间数据模型与空间数据库、空间数据的整合与管理、空间数据分析方法、数字高程模型与地形分析、地理信息系统的应用等方面。要求考生掌握地理信息系统的基础理论知识,理解地理信息系统的主要技术和方法,并具有综合应用地理信息系统分析和处理问题的初步能力。 一、考试内容 1、地理信息系统的概要 地理信息系统的概念 地理信息系统的组成和主要功能 地理信息系统的发展历史 2、空间数据模型与空间数据库 矢量数据结构及其编码方法 栅格数据结构及其编码方法 空间数据索引与查询分析 常见的关系数据库与空间数据库 3、空间数据的整合与管理 地图投影与空间坐标变换 空间数据编辑与拓扑关系建立 地图拚接与裁剪 属性数据的输入与管理 数据显示与制图 4、空间数据的分析方法 常见的空间数据插值方法 趋势面分析、泰森多边形分析、反向距离加权法、样条曲线法等 常见的矢量数据分析方法 缓冲区分析、叠加分析、网络分析等 常见的栅格数据分析方法 局部运算、邻域运算、分带运算、成本距离量测运算等 5、数字高程模型与地形分析 数字高程模型的概念 数字高程模型的主要表示方法:DEM vs TIN 数字高程模型的建立、地形制图与分析 数字高程模型的常见用途 6、地理信息系统的应用 地理信息系统应用系统的设计与开发 地理信息系统在资源与环境评价中的应用 地理信息系统在城市与区域规划中的应用 二、考试要求 1、基本概念与基础理论 了解地理信息系统发展的历程,熟悉地理信息系统的有关专业术语,理解我国大地坐标系和常见地图投影的参数,理解空间数据模型与空间数据库的基础理论,掌握空间数据的整合与管理方法。 2、空间数据分析与应用 比较深刻地理解地理信息系统的常用空间分析方法,能够使用地理信息系统方法对资源与环境评价、城市与区域规划等应用实例进行简单的综合分析,了解常用的地理信息系统和数据库系统软件,对地理信息系统的应用领域有一定的认识。 三、考试方式及时间 考试方式为笔试,时间为三小时,试卷满分数150分。 四、主要参考书目 1 (美) Kang-tsung Chang著, 陈健飞等译,《地理信息系统导论》北京:科学出版社,2003年。 2 陈述彭、鲁学军等.《地理信息系统导论》北京:科学出版社,1999年。

中国科学院大学封面个人简历模板

……………………….…………………………………………………………………………………姓名:杜宗飞专业:计算机科学与技术 学院:数理信息学院学历:本科……………………….…………………………………………………………………………………手机:×××E – mail:×××地址:中国科学院大学

自荐信 尊敬的领导: 您好!今天我怀着对人生事业的追求,怀着激动的心情向您毛遂自荐,希望您在百忙之中给予我片刻的关注。 我是中国科学院大学计算机科学与技术专业的2014届毕业生。中国科学院大学大学四年的熏陶,让我形成了严谨求学的态度、稳重踏实的作风;同时激烈的竞争让我敢于不断挑战自己,形成了积极向上的人生态度和生活理想。 在中国科学院大学四年里,我积极参加各种学科竞赛,并获得过多次奖项。在各占学科竞赛中我养成了求真务实、努力拼搏的精神,并在实践中,加强自己的创新能力和实际操作动手能力。 在中国科学院大学就读期间,刻苦进取,兢兢业业,每个学期成绩能名列前茅。特别是在专业必修课都力求达到90分以上。在平时,自学一些关于本专业相关知识,并在实践中锻炼自己。在工作上,我担任中国科学院大学计算机01班班级班长、学习委员、协会部长等职务,从中锻炼自己的社会工作能力。 我的座右铭是“我相信执着不一定能感动上苍,但坚持一定能创出奇迹”!求学的艰辛磨砺出我坚韧的品质,不断的努力造就我扎实的知识,传统的熏陶塑造我朴实的作风,青春的朝气赋予我满怀的激情。手捧菲薄求职之书,心怀自信诚挚之念,期待贵单位给我一个机会,我会倍加珍惜。 下页是我的个人履历表,期待面谈。希望贵单位能够接纳我,让我有机会成为你们大家庭当中的一员,我将尽我最大的努力为贵单位发挥应有的水平与才能。 此致 敬礼! 自荐人:××× 2014年11月12日 唯图设计因为专业,所 以精美。为您的求职锦上添花,Word 版欢迎 下载。

2020年中国科学院大学地图学与地理信息系统考研招生情况、分数线、参考书目、录取名单、备考经验

一、资源与环境学院简介 中国科学院大学资源与环境学院(资环学院)成立于2004年,是中国科学院大学的基础学院之一。著名自然地理学家秦大河院士任名誉院长,著名环境科学专家江桂斌院士任院长。师资队伍及科研遵循“三统一、四融合”的科教融合办学方针,资环学院由中国科学院生态环境研究中心承办,地理科学与资源研究所与植物研究所协办。学院与欧美、日本、澳大利亚等国家的大学和研究机构有着密切的学术合作,具有多个硕、博士生联合培养项目,为有志于出国深造的研究生开辟了一条便捷途径。资源与环境学院的研究生除了可申请教育部设立的各种奖学金外,还可以申请“中国科学院研究生奖学金”、“中国科学院院长奖学金”等各类奖学金,同时,实行“研究助理”、“管理助理”和“教学助理”制度,有利地保证了研究生正常生活与学习需求。 资源与环境学院2019年预计招收硕士学位研究生30名(包括: 预计接9收推免生10名;环境材料与污染控制技术研究中心约4名;建筑研究与设计中心约4名)。 二、中国科学院大学地图学与地理信息系统专业招生情况、考试科目 三、中国科学院大学地图学与地理信息系统专业分数线

2018年硕士研究生招生复试分数线 2017年硕士研究生招生复试分数线 四、中国科学院大学地图学与地理信息系统专业考研参考书目 843遥感概论: 1. 赵英时等,《遥感应用分析原理与方法》(第二版),北京:科学出版社2013. 2. 梅安新等,《遥感导论》,北京:高等教育出版社,2010. 3. 戴昌达等,《遥感图像应用处理与分析》,北京:清华大学出版社,200 4. 839地理信息系统: [1] 张康聪(Kang-tsung Chang)(作者), 陈健飞等(译者),地理信息系统导论(第八版),科学出版社,2016年。 [2] 周成虎,裴韬等,2011. 地理信息系统空间分析原理,科学出版社。 841生态学: 1.戈峰主编,现代生态学(第二版),北京:科学出版社, 2008 2.李博主编,生态学,北京:高等教育出版社,2000 五、中国科学院大学地图学与地理信息系统专业复试原则 1.英语测试。满分100分,包括:英文自我介绍(不超过3分钟)(20分)、英文听力会话(30分)、科技文献翻译(50分)。 评分标准:从语法、词汇、表达与交流等方面考察综合运用英语的能力 2.业务能力测试。满分100分,包括:本科阶段课程学习情况;科研工作情况;专业知识问答。 评分标准: (1)现有专业知识与硕士期间计划从事的科研活动的吻合程度(20分) (2)掌握知识的广度、深度和扎实程度(20分)

中国科学院大学2020考研大纲:863计算机学科综合(专业)

中国科学院大学2020考研大纲:863计算机学科 综合(专业) 计算机学科综合考研大纲公布了没?考研大纲频道为大家提供中国科学院大学2019考研大纲:863计算机学科综合(专业),更多考 研资讯请关注我们网站的更新! 中国科学院大学2019考研大纲:863计算机学科综合(专业) 一、考试形式 闭卷,笔试,考试时间180分钟,总分150分。 二、试卷结构 题型:概念题(填空、选择、判断、简答),应用题(计算、画图、分析、设计)等。 三、考试科目 数据结构、计算机组成原理、操作系统、计算机网络四门课程,每门课程各占25%。 四、数据结构 (一)考试大纲 1、绪论 (1)数据结构的基本概念,数据的逻辑结构、存储结构。 (2)算法的定义、算法的基本特性以及算法分析的基本概念。 2、线性表 (1)线性表的定义、基本操作。 (2)线性表的存储结构(包括顺序存储结构、链式存储结构)及操 作实现。

(3)线性表的应用。 3、栈与队列 (1)栈与队列的基本概念、基本操作。 (2)栈与队列的存储结构(包括顺序存储结构、链式存储结构)及操作实现。 (3)栈与队列的应用。 4、数组和广义表 (1)数组、广义表的基本概念、多维数组的实现。 (2)特殊矩阵(包括对称矩阵、稀疏矩阵)的压缩存储。 5、树与二叉树 (1)树、二叉树、森林的基本概念和性质。 (2)树、二叉树、森林的存储结构(包括顺序存储结构、链式存储结构)。 (3)树、二叉树、森林的遍历和转换操作。 (4)线索二叉树的基本概念和构造。 (5)哈夫曼(Huffman)树和哈夫曼编码。 6、图 (1)图的基本概念和性质。 (2)图的存储结构(包括邻接矩阵、邻接表、十字链表、邻接多重表)。 (3)图的遍历操作(包括深度优先遍历、广度优先遍历)。 (4)图的最小生成树,最短路径,关键路径,拓扑排序。 7、查找

中国科学院重大科技基础设施共享服务平台

中国科学院重大科技基础设施 年度运行工作计划和经费预算报告 设施名称: 运行责任单位: 运行年度: 编写日期:

编写说明与要求 《运行工作计划和经费预算报告》是运行单位提出的年度设施运行整体工作计划,包括设施的运行、维护、利用及其他相关工作的计划。设施运行责任单位应参照本年度基本运行经费预算和上年度经费实际支出,按照运行工作需要,编制下年度运行计划。报告内容包括基本信息、运行计划、维护计划、利用和开放、交流与合作计划、人员与人才培养、运行经费需求等方面,其中,科学研究或公益服务计划需经科技委员会或用户委员会评议。运行计划既是运行工作实施的基础,也是院安排经费和检查工作的依据。运行计划报告是运行单位年度工作执行和自查的依据,也是院、有关部委和公众了解、检查、评估设施运行的重要资料。各单位应结合实际,据实编制。 本编写模板是面向各类设施的通用提纲式模板,采用了较多的表格形式,以求简单明了,对于提纲中标题意思明确的,不再多做说明。各单位可根据需要,对二、三级提纲或表格的表头进行必要的修改;可采用增加图、表、说明或附件等,细化内容。编制报告时,与本设施无关的内容和表格免填并删除序号、标题、表格。如:无二期工程则删除“立项建设信息表”中的二期表格;不申请维修项目则删除“拟申请维修项目”的序号与标题等。一级或二级提纲下未顾及的问题,如需说明,可添加序号及标题。 共同运行设施可参照此提纲,细化提纲或表格,并与院大科学装置办公室商议确定本设施的编写提纲。

目录 定义至三级标题,需标注页码。 术语 报告中涉及的名词术语,主要指专业术语、英文和英文缩写的解释。 一、基本信息 (一)设施建设信息

2012年中科院859信号与系统回忆版

2012年中科院859信号与系统回忆版 一、简答题 70分 1,已知信号X(n)=sin(n π/5)[u(n)-u(n-11)],写出▽x(n). 2,写出卷积的适用于什么计算,卷积表达式,计算0[()]*[(sin )()] n t n u t u t d p ¥=-? 3写出傅里叶计算的充分条件,傅里叶变换对,求δ(w-w0)的逆变换 4 已知滤波器h(n)=[sin(n π/4)sin(n π/8)]/[πn^2],求H (e^jw ),并判断类型(高低带阻) 5写出无限实信号的自相关表达式,并计算信号Ecos(wt)的自相关及功率谱函数。 6、求初值和终值,H (z )=[1+z^(-1)+z^(-2)]/(1-z^-1)(1-2Z^(-1))] 7、简述什么是系统的线性性,时不变性和因果性,并判断r(t)=3()t e d - ò 的线性,时不变,因果性 8、画出电阻电感电容的S 域模型图 9、对于离散时间系统,特征矩阵A=1113轾-犏犏臌 ,求转移矩阵()n f 10、因果信号的实虚部满足什么条件,已知一信号的实部R (w )=22w a a + 求信号的I (w ) 二、选择题 30分 1、一实信号x(t)的最高频率3000hz ,则x(3t)的最小无失真的抽样频率 2、关于最小相移的零极点的特点 3、一个信号关于纵轴对称,判断傅里叶级数的特点 4、求nU(n)的Z 变换 5、H(z)=[Z^2+1.5]/[z^2-A*Z-0.25],当稳定时,A 的取值范围 6、一个LTI 系统,冲激响应h(t),输入信号的自相关为Re (t ),则输出信号的自相关为 Re(t)*h(t)*(-t) 7、关于FIR 滤波器传递函数的特点,有无反馈

历年中科院遥感所 GIS 地理信息系统概论考博真题

2000年中科院遥感所博士入学考试(GIS) 一、名词解释(每个4分,共20分) 1. 空间拓扑关系 2. 地址匹配 3. 元数据 4. 栅格数据结构 5. 空间数据精度 二、简答题(每个10分,共30分) 1. 简述地理信息系统的组成 2. 数字地形模型(DTM)的构建与应用 3. 叠加分析 三、问答题(任选二,每个25分,共50分) 1. 地理信息系统的发展及趋势 2. 时空动态数据结构研究 3. 结合你的专业,论述GIS应用的关键技术问题 2001年中科院遥感所博士入学考试(GIS) 一、名词解释 1. 地址匹配 2. 地图精度 3. 关系数据库 4. 四叉树 二、简答题 1. GIS的特点及应用 2. GIS的结构及功能 3. 空间分析方法及应用 三、论述题 1. GIS的发展趋势 2. GIS与RS、GPS的集成方法 3. GIS空间分析功能的缺陷及改进方法 2002年中科院遥感所博士入学考试(GIS) 一、名词解释 1. 地理空间 2. 行程编码 3. 地址匹配 4. 拓扑关系 5. 空间数据元数据 二、简答 1. 地理信息系统的组成与功能 2. 数字地形模型的建立方法与特点 3. 地理信息系统互操作

三、问答 1. GIS的发展历程 2. 结合你的专业,谈一谈gis的应用与关键点 2003中科院遥感所GIS部分试题(版本一) 一、名词解释 1. GIS 2. 数据挖掘 3. 空间索引 二、简答题: 1、GIS标准化的意义及作用 2、数据质量标准 三、论述 1、关于长江三峡搬迁的,求几个数据。很麻烦。 2、关于温度梯度的 2003年GIS试题(版本二) 一名词解释 DEM、TIN、平移转换、栅格结构 二、简答 1、GIS的组成 2、空间拓扑分析 3、GIS互操作 三、论述(任选二个) 1、GIS的发展简史和趋势 2、WebGIS的核心模型及其应用 3、结合您的专业,谈谈GIS的应用关键和潜在领域 2005年中国科学院遥感所GIS考博试题 一、简答题 1. 传统数据库管理空间数据的缺陷 2. GIS中TIN的生成步骤 3. 空间信息分析的基本方法有哪些 4. GIS标准化的内容 5.地理信息系统的开发策略 6.谈谈GIS与RS的关系 7. 开放式地理信息系统实现技术 8. 电子地图的特征 9. 空间索引有哪些,特点是什么 二、论述题 1. 印度洋海啸造成重大伤亡。请设计一个海啸预警、检测、评估系统的系统方案。

中文分词技术

一、为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、中文分词技术的分类 我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。 第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。 下面简要介绍几种常用方法: 1).逐词遍历法。 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。 2).基于字典、词库匹配的分词方法(机械分词法) 这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下: (一)最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

相关主题