搜档网
当前位置:搜档网 › 中文信息处理

中文信息处理

中文信息处理
中文信息处理

简述中文信息处理在国家安全领域的应用

摘要:中文信息处理自出现以来,技术不断提高,研究领域也不断扩大。发展的同时我们也看到中文信息处理在国家安全角度应要有的任务、责任和问题。分析中文信息处理在我国的发展背景、技术隐患、技术建设和创新展望,使得对中文信息处理在国家安全领域的应用有一个清楚的认识。

关键词:中文信息处理;国家安全;技术建设

在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。“中文信息处理”一词是从20世纪70年代流行起来的。自从有了中文(汉字),即相应地出现了中文信息处理的工作[1]。现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学[2]。

1. 信息时代的国家安全

1.1 信息时代的大背景

语言文字信息化对国家安全的作用日益明显,语言文字信息化中的不安全因素就是国家安全的隐患。国家安全的要素呈现综合化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一。信息时代国家之间相互依赖和相互影响程度越来越高,这种相互依赖使得每一个国家的行为和战略都受到了一定程度的约束。信息技术革命打破了时空的限制,国家安全主体多元化,安全空间得到了大大拓展,向上扩展到全世界,向下延伸到地区乃至个人。信息时代中国家必须综合运用经济、社会、文化、科技及环境等手段来维护国家安全。安全问题越来越呈现出国际化、全球化的发展趋势。国家安全包括了文化安全、经济安全、环境安全、资源安全、网络安全、信息化安全。信息化安全即语言文字信息化的安全,语言文字信息化对国家安全的作用完全凸显出来[3]。

1.2 中国互联网的安全隐患

由于中国缺少自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。语言文字信息化中的不安全因素就是国家安全的隐患。中国网络

用户数量迅猛发展,带宽不断增加,网络应用日益丰富,互联网承载着过重的压力。在多达3亿网民所使用的电脑中,芯片、操作系统、浏览器以及应用系统、数据库、防火墙、聊天工具、搜索引擎等软件目前基本上掌握在外国公司手中,因此中国互联网是经不住打击的。一旦发生紧急情况,由于没有中国语言文字信息处理的自主知识产权的软件系统,一旦维系这些重要政府部门、企业和民生等机构正常运行的网络系统崩溃,那么,就有可能给国家带来不可挽回的损失和可怕的后果。

1.3 我国语言文字信息化建设中的安全隐患

以下从三个方面分析安全隐患:中文信息处理标准的制高点没有完全占领;中文信息处理核心技术的自主知识产权没有掌握;语言资源匮乏,不能满足中文信息处理的需要。

中文信息处理用的规范标准没有完全掌握在中国人手中,造成国家利益流失及国家安全威胁。语言文字信息化标准是语言文字信息化的保障,语言文字信息化又是国家信息化的基础。在我国中文信息处理标准方面,其中《GB2312-1980信息交换用汉字编码字符集基本集》为我国的汉字信息处理奠定了基础[4]。但是远远不够,中文软件的规范化是最为薄弱的环节,至今还没有形成技术标准。

语言文字信息化的核心技术要有自己的知识产权,中文信息处理从起步阶段就受到国际跨国企业的威胁。目前一些国外厂商尤其看重中文信息处理技术和产业的价值,在其本土或在中国建立研究基地、或以低廉的价格购买中国学者的研究成果、或径直购买其劳动力,来进行中文信息处理的研究。外国的信息产业,凭借其财力充足的优势,吸引了大量华人参与其中文信息处理技术的研究开发,又因其集成能力强,所以形成逼人之势,不容小视。技术上来说,我国对国外技术的跟踪和改良居多,偏重应用,而原创的新理论、新方法比较少。我们拥有自主知识产权的品牌产品还很少,具有核心竞争力的技术还数不出几样。在基础研究中,对词法、句法、语义、语用等单项技术的研究较多,对各个层面之间交互作用的研究较少。跨学科、跨语言的研究还不够。国门大开,国内研发机构已无法再像上世纪80年代那样依靠中文屏障获得天然的领先优势。在当前的“云”时代,我们仍然落后。云计算的技术都不掌握在我们自己手中,安全问题又直接威胁着国家的安全。云计算可能对于IT产业链产生革命性的影响,云计算作为一个崭新名词,人们甚至还没有弄清楚它的确切定义,云安全问题就随之而来。自己的信息不会被泄露从而给自己造成不必要的损失,自己在需要时能够保证准确无误地获取这些信息等等,关于其数据安全性的质疑就一直不曾平息。

语言文字信息化的资源建设,中文信息资源匮乏,不能满足中文信息处理的需要。信息技术革命所带来的一个突出的变化是由语言文字承载的知识或信息变成了一种重要资源,是

信息产业的资源,而且是一种战略资源。对资源的占有以及如何利用资源的知识在很大程度上决定着一个国家实力的大小。语言资源也是一种生产力,是国家的软实力。信息资源的开发利用已成为一个国家信息化进程中最为核心的问题。

2.加强语言文字信息化建设

2.1中文信息处理的现状及与国际上语言信息处理的差距

进入21世纪,面对网络时代信息的爆炸式增长,中文信息处理作为一项基础性、普适特性的信息技术,面临着挑战和再次发展的机遇,在互联网时代则显示出其优势。它的开发利用关系到我国今后信息产业乃至社会经济的发展和国家安全,具有巨大的经济价值和社会价值。

中文信息处理技术自动化水平的提高,将大大促进我国科技、国民经济和社会发展,同时使中华民族的文化在信息时代得到新的发展。未来无疑应当加强中文信息处理技术的研发投入与政策倾斜。我国的中文信息处理技术还有自身一系列急需解决的基础研究和应用技术问题。这些问题如果从现在起还得不到切实的加强,我们在中文信息处理事业中仅有的一些优势,就要迅速失去,那将给我国造成极大的损失。

目前中文信息处理能力与国际上先进水平差距还很大。例如:自动分词和词性标注,至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。从采用的方法可以看出,随着研究的不断深入,基于统计的方法已逐渐暴露自身的缺陷,统计方法不可能解决所有的问题,还是需要结合基于规则的方法,才能在精度上得以突破;

中文信息处理句法分析和语义分析问题;中文信息处理应用研究的问题,比如信息输入中的键盘输入和汉字识别发展已经成熟,但语音识别却很实现,困难是要适应不同人之间的语音变化以及外界的噪音干扰;中文信息处理研究分散而且存在着低层次重复、缺乏统一规范和标准的问题;现代汉语研究领域和计算机领域的隔绝状态没有出现根本性改变;汉语文和少数民族语言文字的信息处理技术与国际水平相比,还有相当大的差距。特别是自主知识产权的成果还不多;语言资源和成果的共享还有很大局限,网络上对公众开放的中国语言文字资源还很少,远不能满足我国国民经济发展和信息化事业对中文信息处理技术的要求等等。

2.2 加快语言文字信息化进程

加快语言文字信息化进程是国家信息化发展的迫切需要。信息化是当代社会发展的标识。语言文字的研究以及语言文字信息处理的研究从基础理论到应用技术要快速适应国家安全需要,应从如下几个方面考虑:语言战略是国家发展战略的有机组成部分,

我国当前语言生活正处在快速发展变化时期,因此必须研究宏观语言战略,设计落实语言战略的行动计划。要系统研究世界上有关国家或地区以及国内语言文字规划的经验与教训。建立国家级语言战略研究机构,加快研究和制定中国语言发展战略;对国家语言安全立法保护,建立语言文化安全预警机制和监控机制,加强国家语言文化安全研究;全方位地研究我国语言文字信息化中的重大课题:完善和提高语言文字的数字化技术和手段;面向信息处理的语言文字规范标准研制;国家语言文字基础资源库建设;面向互联网的汉语词语提取技术;基于语言知识的歧义消解技术;面向网络和内容的自然语言处理关键技术;面向网络的多语言处理技术;覆盖CERNET的基于内容的互联网监测与预警系统;面向教育的国家公共语言文字信息服务体系。应尽快启动重大项目“国家语言信息化基础设施工程建设”;国家要重视语言资源的基础建设,加大投资的力度。深度开发建设语料库及整合语言资源;语言信息技术属于交叉学科综合性技术,需要大量培养复合型人才;为语言文字信息化保驾护航。在法律上,我们缺乏对高新技术,特别是信息化产业的有效的知识产权保护,知识产权方面的法律滞后。这一领域的法律,必须加大研究力度,加快出台进度,法律要为我所用,为中国的语言文字信息化所用;语言信息技术属于大型技术,需要长期规划,分阶段实施[5]。

3.未来中文信息处理的创新发展

3.1信息化

当代世界已经进入信息网络化时代,全面信息化是社会发展和科技进步的主流。信息处理技术的水平反映了一个国家和民族的生存能力、生存质量、综合竞争力。一切竞争都集中反映在信息的获取、传输、处理和运用技术上。应该把推进社会全面信息化作为中文信息处理基础应用研究的首要任务。

3.2智能化

计算机实现由数据处理到信息处理跨越的那一刻,信息工程界的先驱者们开始了计算机智能化的研究。虽然历史不长,但是,初始化的灵感与冲动给人们描述了美好而诱人的前景。计算机究竟能不能获得智能,如何获得智能,以及计算机智能与人类智能的同质性和异质性,等等,尽管目前还没有答案,但可以肯定地说,计算机人工智能与语言文字信息处理智能化密切相关。应该充分认识到,中文信息处理智能化与我国的社会发展、科技进步、文化教育、经济建设以及国家安全有着密切关系。信息处理技术智能化的竞争是一个没有硝烟的战场。在这场关系到民族和国家生存、发展的竞争中,只能前进,不能后退,只能成功,不能失败。

3.3工程化

中文信息处理工程化是信息网络时代的重要特征之一。应当从系统工程的角度看待和从事中文信息处理基础应用的创新研究,处理好汉化、兼容与自主创新的关系。

3.4国际化

中文信息处理技术已成为世界瞩目的热点。单纯从经济目的出发,也足以吸引世界发达国家信息工程界有识之士的目光。微软、IBM等多家外国计算机公司在我国设立研究所,聘用我国信息处理人才,在汉字编码、汉字识别、语音识别等许多领域,投入巨额经费,从事中文信息处理智能化的研究。事实证明,中国要走向世界,中文也要走向世界,国际化是我国信息处理发展的必然趋势。

3.5标准化

汉语没有严格意义的形态标志这一特点,使西方计算语言成果和经验不能完全适用,同时增加了计算机自动分词识别和句法语义分析的难度。因此,汉语言文字的规范化已经成为中文信息处理智能化的瓶颈。在信息技术和信息产业方面,永远是“一流出标准,二流出技术,三流出人工”。如何把汉语言文字规范化的成果变成全世界都遵守的标准,把汉语言位子信息资源变成巨大无比的财富,应当成为当前和未来中文信息处理基础应用研究的首要课题。

参考文献:

[1] 郭艳华,周昌乐.自然语言理解研究综述.杭州电子工业学院学报.2000.2.20(1).

[2] 冯志伟.国外自然语言理解系统简介.计算机科学.1984年第2期.

[8] 宁春岩.自然语言理解中的几个根本问题.语言研究.1985(2).

[3] 詹卫东.80年代以来汉语信息处理研究述评.当代语言学.2000.2(1).

[4] 中国中文信息学会.我国中文信息处理的发展与展望.中国科学技术协会"科学技术面向新世纪"学术年会.1998.9.137-140.

[5] 中国互联网络信息中心.中国互联网络发展状况统计报告(2002/7).2002.7.5.

计算机基础知识知识点归纳

计算机基础知识知识点归纳: 1、世界上第一台电子计算机诞生于 1946年 世界第一台电子计算机的英文名称是。(答案O A.ENIAC B.IBM https://www.sodocs.net/doc/092765924.html, D.PC ' 世界第一台电子计算机于 _____________ 年诞生。(答案:B ) A.1940 B.1946 C.1960 D.1980 .体系。(答案:B ) A.比尔?盖茨 B.冯?诺依曼 C.唐纳德?希斯 D.温?瑟夫 2、世界上首次提出存储程序计算机体系结构的是 B _ 型计算机。 B 冯?诺依曼 C 温?瑟夫 D 唐纳德?希斯 【计算机的特点】 1.处理速度快 '现代计算机的运算速度可以达到每秒钟数千亿次 (通常以每秒钟完成基本加法指令的数目来 '表示计算机的运算速度),这不仅使得许多大型数据处理工作时间大大缩短,促成了天气预 '报、数值模拟等技术的广泛应用,更使得许多实时控制、在线检测等处理速度要求较高的工 '作得以实现。同时,计算机具有很高的逻辑运算速度, 这使得计算机在非数值数据领域中得 '到了广泛的应用。 ' 2 .运算精度高 '计算机一般都有十几位甚至更多位的有效数字,加上先进的算法,可得到很高的计算精度。 '例如,对圆周率n 的计算,在没有计算机的情况下, 数学家要经过长期的努力才能算到小数 '点后500多位,而使用第一台计算机仅仅用了 40秒钟就打破了这一记录。 ' 3 .具有逻辑运算和记忆能力 :计算机的存储器具有存储数据和程序的功能, 它可以存储的信息量越来越大。计算机不仅可 '以进行算术运算,而且可以进行逻辑运算,可以对文字、符号等进行判断、比较,因而可解 '决各种不同类型的问题。 ' 4 .具有自动控制能力 '计算机内部的操作、 运算是在程序的控制下自动进行的, 它能够按照程序规定的步骤完成指 定的任务,而不需要人工干预。 ' 5 .通用性强 '计算机是靠存储程序控制进行工作的。 在不同的应用领域中, 只要编写和运行不同的应用软 :件,计算机就能在任一领域中很好地完成工作。针对不同的需要, 设计不同的程序,这就能 '使计算机具有很强的通用性。 'I 计算机的特点有 A.运算速度快 B.具有逻辑判断功能 C.存储容量大 D.计算精度高 【计算机的发展历程】 1.第一代:电子管计算机(1946年—1958年) 1946 年 2 月,世界上第一台电子数字计算机 ENIAC (Electronic Numerical Integrator And 现代的计算机系统都属于 冯?诺依曼 现代计算机时 A 比尔?盖茨 。(答案:ABCD )

中文信息处理

简述中文信息处理在国家安全领域的应用 摘要:中文信息处理自出现以来,技术不断提高,研究领域也不断扩大。发展的同时我们也看到中文信息处理在国家安全角度应要有的任务、责任和问题。分析中文信息处理在我国的发展背景、技术隐患、技术建设和创新展望,使得对中文信息处理在国家安全领域的应用有一个清楚的认识。 关键词:中文信息处理;国家安全;技术建设 在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。“中文信息处理”一词是从20世纪70年代流行起来的。自从有了中文(汉字),即相应地出现了中文信息处理的工作[1]。现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学[2]。 1. 信息时代的国家安全 1.1 信息时代的大背景 语言文字信息化对国家安全的作用日益明显,语言文字信息化中的不安全因素就是国家安全的隐患。国家安全的要素呈现综合化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一。信息时代国家之间相互依赖和相互影响程度越来越高,这种相互依赖使得每一个国家的行为和战略都受到了一定程度的约束。信息技术革命打破了时空的限制,国家安全主体多元化,安全空间得到了大大拓展,向上扩展到全世界,向下延伸到地区乃至个人。信息时代中国家必须综合运用经济、社会、文化、科技及环境等手段来维护国家安全。安全问题越来越呈现出国际化、全球化的发展趋势。国家安全包括了文化安全、经济安全、环境安全、资源安全、网络安全、信息化安全。信息化安全即语言文字信息化的安全,语言文字信息化对国家安全的作用完全凸显出来[3]。 1.2 中国互联网的安全隐患 由于中国缺少自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。语言文字信息化中的不安全因素就是国家安全的隐患。中国网络

一级计算机习题

一、选择题(每小题1分,共20分) (1)天气预报能为我们的生活提供良好的帮助,它应该属于计算机的哪一类应用? A)科学计算 B)信息处理 C)过程控制 D)人工智能 (2)已知某汉字的区位码是3222,则其国标码是 A)4252D B).5242H C)4036H D)5524H (3)二进制数l01001转换成十进制整数等于 A)41 B)43 C)45 D)39 (4)计算机软件系统包括 A)程序、数据和相应的文档 B)系统软件和应用软件 c)数据库管理系统和数据库 D)编译系统和办公软件(5)若已知一汉字的国标码是5E38H,则其内码是 A)DEB8 B)DE38 C)5EB8 D)7E58(6)汇编语言是一种 A)依赖于计算机的低级程序设计语言 B)计算机能直接执行的程序设计语言 C)独立于计算机的高级程序设计语言 D)面向问题的程序设计语言 (7)用于汉字信息处理系统之间或者与通信系统之间进行信息交换的汉字代码是 A)国标码 B)存储码 C)机外码 D)字形码 (8)构成CPU的主要部件是 A)内存和控制器 B)内存、控制器和运算器 C)高速缓存和运算器 D)控制器和运算器 (9)用高级程序设计语言编写的程序,要转换成等价的可执行程序,必须经过 A)汇编 B)编辑 C)解释 D)编译和连接 (10)下列各组软件中,全部属于应用软件的是 A)程序语言处理程序、操作系统、数据库管理系统 B)文字处理程序、编辑程序、UNIX操作系统 C)财务处理软件、金融软件、WPS Office 2003 D)Word 2000、Photoshop、Windows 98 (11)RAM的特点是

汉字信息在计算机中的处理

汉字信息在计算机中的处理 陌陌:琪琪,随着计算机技术的发展,计算机具有了中文信息处理的能力,在上次课中,我们已经学习了第一节的文字及其处理技术,那么我想问你,汉字信息在计算机中是如何进行处理呢? 琪琪:陌陌,这你可要认真听了哦,汉字首先要被计算机先存储,计算机只能识别二进制数0和1任何信息在计算机中都是以二进制形式存放的,汉字也不例外,这就需要对汉字进行编码。 陌陌:那琪琪你能说说计算机在处理汉字时是如何机进行编码的吗? 琪琪:汉字在计算机内的编码很复杂,涉及汉字的各种代码,目前计算机上使用的汉字编码主要有三种1、汉字输入码2汉字机内码3汉字输出码。 陌陌:那琪琪你能告诉我汉字信息在计算机中是如何通过编码进行输入输出和显示的吗?琪琪:这个有点复杂,陌陌你要仔细听,在前面我所提到的汉字编码中,汉字输入码也叫外码,是为了通过键盘字符把汉字输入计算机而设计的一种编码。汉字的输入码种类繁多,大致有4种类型,即音码、形码、数字码和音形码。 陌陌:那第二个汉字机内码是什么呢? 琪琪:第二个是汉字机内码,它又称为内码或汉字存储码。汉字机内码是供计算机系统内部进行存储、加工处理、传输而统一使用的代码。 陌陌:那汉字输出码又应该怎么理解呢? 琪琪:汉字输出码,它也叫汉字的字型码,由汉字的字模信息组成的。目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是在纵向16点、横向16点

的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。这种用点阵形式存储的汉字字型信息的合称为汉字字模库,简称汉字字库。通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵等。例如以下几幅图都是用点阵来显示汉字:

苏州大学 计算机中文信息处理技术 考试试卷

苏州大学计算机中文信息处理技术考试试卷(A卷) 学院专业班级 姓名学号形式: (闭卷) 一、填空题。(20%,每空1分) 1. 在IBM-PC系列微机中,BIOS打印管理模块是以号中断服务程序的形式存在的;BIOS显示输出管理模块是以号中断服务程序的形式存在的。 2. 中文信息处理是以为主要工具,以为处理对象的高新技术。 3. 在计算机汉字信息处理系统的不同部分中,存在着多种汉字编码,这些编码构成了一个完整的汉字代码体系,这个代码体系主要包括、、、、。 4. 汉字信息处理系统主要模块包括:模块、模块和模块。 5. 汉字输入码有很多种类,根据其编码规则的不同,一般可以分成、、、四类。 6. 现在使用的显示适配器一般都可以支持两大类工作模式。它们分别是:以字符为基本处理单元的模式和以象素为基本处理单元的模式。 7. 汉字点阵字形通常分为两种:适用于显示器的________和适用于打印机的________。 二、选择题。(20%,每题2分) 1. 如果我们在接收到的电子邮件的正文中看到这种形式的内容, “abc~{0!}~” 这封邮件的正文最有可能使用了下面的哪种编码方式: (a)BASE64 (b)UUEncode (c)QP (d)HZ 2. Windows环境下,IME本质上是一个_______ (a)中断处理程序(b)动态链接库(c)输入法服务器(d)中断向量 3. 由1000个16×16点阵构成的汉字要占用存储空间。 (a)25K字节(b)1000K字节(c)32字节(d)31.25K字节 4. 下列哪种输入法不需要输入码对照表:_______。 (a)智能abc (b)五笔字形(c)区位(d)双拼 5. 中文信息处理系统(DOS)的键盘输入管理模块是以16H号中断处理程序的形式给出的,它驻留在中。 (a)软盘(b)硬盘(c)ROM (d)RAM 6. 区位码是1801的汉字,它在GB2312-80中的机内码应该是。 (a)B2A1H (b)A1B0H (c)A2B1H (d)B0A1H 7. TrueType字库属于下列哪种类型的字库: (a)点阵(b)直线轮廓字(c)曲线轮廓字(d)以上都不对 8. 手机上使用的编码方案,如T9拼音、T9笔画等,属于哪种键盘方案:_______。 (a)大大键盘(b)大键盘(c) 小小键盘(d)小键盘 9. 在汉字系统中,汉字的显示一般采用黑底白字的方式,如在特殊场合需要反白显示(即白底黑字)的话,应对字形码做运算。 (a)移位(b)取反(c)与(d)或 10.如一个显示器采用640×480×单色的分辨率,则需要的显存是:。 (a)512K字节(b)76800字节(c)38400字节(d)768K字节 三、计算题。(20%)(转换编码见附表) 1. 现有一段信息采用Unicode编码(UCS-2序),内容如下: 11 62 1F 4F 27 59 84 76 56 79 FD 56 请将其内容用UTF-8编码,编码结果用16进制表示,并填入下表。(每格填一个字节)(10

辽师大版信息技术七上《计算机中信息的表示》教案

辽师大版信息技术七上《计算机中信息的表示》教案一个二进制数位简称为位(英文名称为bit)。计算机中最直接、最基本的操作就是对二进制位的操作。 一个二进制位可表示两种状态(0或1)。 两个二进制位可表示四种状态(00,01,10,11)。 位数多,所表示的状态就越多。 A S C I I码 ASCII 码是美国信息交换用标准代码(American Standard Codefor Information Interch ange)。ASCII码虽然是美国国家标准,但它已被国际标准化组织(ISO)认定为国际标准,为世界公认,并在世界范围内通用。 ASCII码用一个8位二进制数(字节)表示,每个字节只占用了7位,最高位恒为0。7位ASCII码可以表示128(27=128)种字符,其中通用控制字符34个,阿拉伯数字10个, 示数的范围为128~255,可表示128种字符。通常各个国家都把扩充的ASCII码作为自己国家语言文字的代码。 汉字编码我国用户在使用计算机进行信息处理时,一般都要用到汉字。由于汉字是象形文字,字的数目很多,常用汉字就有3000~5000个,加上汉字的形状和笔画多少差异极大,因此,不可能用少数几个确定的符号将汉字完全表示出来,或像英文那样将汉字拼写出来。汉字必须有它自己独特的编码。 1.汉字信息交换码(国标码) 《信息交换用汉字编码字符集·基本集》是我国于1980年制定的国家标准GB2312-8 0,代号为国标码,是国家规定的用于汉字信息处理使用的代码依据。 GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号(包括几种外文字母、数字和符号)的代码。 6763个汉字又按其使用频度、组词能力以及用途大小分成一级常用汉字3755个和二级常用汉字3008个。 一级汉字按拼音字母顺序排列;若遇同音字,则按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依次类推。所谓笔形顺序,就是横、竖、撇、点和折的顺序。二级汉字按部首顺序排列。 在此标准中,每个汉字(图形符号)采用双字节表示。每个字节只用低7位,最高位恒为1。由于低7位中有34种状态是用于控制字符,因此,只有94(128-34=94)种状态可用

2018计算机应用基础测试题(一)

计算机应用基础(一) 题目1 正确 获得1分中的1分 标记题目 题干 在计算机领域中,"编码"的含义是______。 选择一项: a. 用来对汉字多个字的词组进行数值转换 b. 用来对英文单词进行数值转换 c. 用来对汉字单个字进行数值转换 d. 用来对非数值型数据进行数值转换 反馈 正确答案是:用来对非数值型数据进行数值转换 题目2 正确 获得1分中的1分 标记题目 题干 绘图仪是计算机的图形输出设备,分为两类,它们是______。选择一项: a. 平台式和滚筒式 b. 喷墨式和击打式

c. 平台式和立体式 d. 移纸式和卷纸式 反馈 正确答案是:平台式和滚筒式 题目3 正确 获得1分中的1分 标记题目 题干 CMOS、BIOS都安装在______。 选择一项: a. 系统总线 b. CPU c. 主板 d. 机箱 反馈 正确答案是:主板 题目4 正确 获得1分中的1分 标记题目 题干 计算机的内存容量可能不同,而计算容量的基本单位都是______。选择一项:

b. 字节 c. 字 d. 位域 反馈 正确答案是:字节 题目5 正确 获得1分中的1分 标记题目 题干 把计算机用于科学计算,它的最显著优势在于______。选择一项: a. 运算速度快和运算结果精密准确 b. 能进行逻辑判断 c. 高度自动化 d. 具有记忆能力 反馈 正确答案是:运算速度快和运算结果精密准确 题目6 正确 获得1分中的1分 标记题目

老师上课用的计算机辅助教学的软件是______。选择一项: a. 系统软件 b. 应用软件 c. 操作系统 d. 文字处理软件 反馈 正确答案是:应用软件 题目7 正确 获得1分中的1分 标记题目 题干 微型计算机的内存储器______。 选择一项: a. 按二进制位编址 b. 按字长编址 c. 按字节编址 d. 按十进制位编址 反馈 正确答案是:按字节编址 题目8

中文信息处理的应用的研究报告

中文信息处理的应用研究报告 在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。 “中文信息处理”一词是从20世纪70年代流行起来的,实际上,自古以来,中文信息处理工作源远流长。可以说,自从有了中文(汉字),即相应地出现了中文信息处理的工作。从开始编制第一部汉字字典和编写第一篇文摘起就开始了中文信息的分析与综合处理的研究。然而,现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学。中国要实施先进的信息处理技术手段,中文信息化是一项重要的资源开发工作。中文信息网已逐渐成为我国现代化社会的神经系统,它将促进人民文化和社会生产效率迅速提高。中文信息处理工程已建立起现代化中文语言文字信息系统,使凝聚在语言文字中的知识信息发挥更大效能,使汉语汉字得到最佳利用。 计算机中文信息处理技术从70年代至今,经历20多年,完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。 现在,许多移动电话都已具备中文菜单和显示中文短信息功能,但都有缺陷,还不是真正意义上的“全中文”。只有当它既能显示中文又能输入和处理中文,也就是说,能直接利用手机进行中文输入时,才可以说是“全中文”。然而,一般移动电话仅有数字键,这无疑对汉字数字输入法(简称数字码)提出了很迫切也是很高的要求。顺便说一下,在WAP技术成为新的热点之时,连英文也面临着需要编码输入的严峻事实。 当前,美国、日本及我国香港特区都在大力发展一种双向寻呼机,它同时具有输入功能,即,它同样也面临着中文处理问题。还有电子词典,如何高效、规范化地利用电子字典查找汉字和单词,也是只能各位信息处理应该解决的问题。

中文信息处理 教学大纲

课程名称:中文信息处理 课程类别:专业课程 授课对象:计算机科学与技术专业 学分:3学分 指定教材:朱巧明等,《中文信息处理技术教程》,清华大学出版社,2005年一、教学目的: 本课程的教学目的是使学生掌握中文信息处理的基本原理,熟悉基本“字符”层面和基于“内容”层面的研究内容、方法、技术和手段。熟练理解并掌握计算机对中文的输入、存储、输出和应用处理的过程,学习基本的机器学习理论与方法。 本课程对计算机科学与技术的学生有着承前启后的作用,综合结合运用前导课程,又为毕业设计和将来研究生学习或工作奠定扎实基础。本课程的直接前导课程有《C语言程序设计》、《面向对象程序设计》、《数据结构》和《操作系统》。 二、教学任务: 本课程主要教学任务如下: 1了解中文信息处理与信息处理的关系,主要研究内容与对象,目前主流的研究技术、手段与方法; 2掌握中文信息处理中的汉字代码体系,熟悉主要的中文字符编码与集合,熟悉因特网上的汉字交换码以及编码与解码技术; 3深刻理解中文操作系统和中文平台的地位,掌握汉字输入码、机内码、地址码、字形码、地址码、交换码之间的关系;了解主流的中文操作系 统的发展趋势 4学习汉字编码的方法,理解中文输入的原理,掌握Windows上汉字键盘输入系统的实现方法,了解Linux中文输入的实现机制。 5学习目前主要的三种汉字字形技术,重点掌握点阵字库的原理,压缩方法,以及显示技术。 6理解汉字显示和打印的工作原理以及工作过程。 7理解中文分词的意义,地位、以及主要应用,掌握交集型歧义和组合型歧义的区别,了解基本的解决歧义的方法,能够实现一种中文自动分词 算法。 8对中文信息检索、分类、抽取等有较深刻的认识,了解需要解决的问题,以及主流的技术方法。了解基本的机器学习理论,以及常用的数学模型。 三、教学内容 第一讲中文信息处理概论(一) 1. 教学内容

中文信息处理论文

搜索引擎 摘要:Internet 上日新月异的大量信息资源充斥,人们对信息的需求越来越多,各式各样的搜索引擎应世而生,然而随着大数据的到来,这对搜索引擎提出更高要求。但是面对这么大量的数据,一般的搜索引擎有些吃不消,不能满足人们的需求,然而基于自然语言处理技术的智能搜索引擎出现了,本文将介绍搜索引擎用到自然语言处理技术去。 关键字:搜索引擎,自然语言处理,概念控制 Search engine (*********************) Abstract: Changing a lot of information on the Internet is full of resources, people d emand more and more information, a variety of search engines shoul d the world was born, but with the arrival of big data, which is the search engine, higher demands. But the face of such a large amount of data, general search engines too much for some, can not meet people's needs, however, based on natural language processing technol ogy, smart search engines appeared, this article describes the search engine to use natural language processing technol ogy. Keyword: search engine,Natural Language Processing, Control Concepts 1 搜索引擎 1.1搜索引的擎定义 搜索引擎,是指在Internet中主动搜索信息并能自动查询、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Web Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。 1.2搜索引擎的分类 在搜索引擎的发展过程中,出现了各式各样类型的搜索引擎。根据索引方法来划分,可以分为基于概念(Concept Based)的搜索引擎:和基于关键字匹配(Keyword Based)的搜索引擎等。根据搜索引擎索引、检索信息的方式来分,可以分为:基于目录的搜索引擎、基于机器人的搜索引擎、分布式搜索引擎、基于客户的搜索引擎、元搜索引擎和代理搜索引擎;根据搜索引擎索引信息的范围来划分,可以分为:综合式搜索引擎、专题式搜索引擎和特殊型搜索引擎;

信息技术基础第一章复习题

信息技术基础第一章复习题 填空题: 一.信息及特征 1.信息是指、、中所包含的意义。 2.信息的载体有。 二.信息的编码 1.二进制代码 (1)二进制数是由“”和“”两个数字组成,运算规则是“” (2)将十进制整数转换成二进制整数可用“除二取余”法,将二进制数转换成十进制数可用 “”法。 (3)二进制转换成十六进制:从二进制的位开始,每位二进制数转换成一位十六进制数。反之,十六进制转换成二进制时,每一位十六进制数转换成四位二进制数。 2.ASCII编码 编码即美国国家信息交换标准码,该编码使用位二进制数,由个代码组成。 其中数字、字母是按顺序依次排列的。存储设备在存储ASCII码时,占用一个字节的右7位.最左位 用“”填充。 3.汉字编码 (1)汉字在计算机内也是以代码形式表示的,这些代码称为汉字编码,常见的汉字编码有 GB2312、GBK、GBl8030,其中最常用的编码是GB2312,用个字节表示一个汉字。 (2)码是利用汉字的音、形或其他相关特征对指定汉字集编制的代码,包括:音码、形码、 音形码、形音码等。 (3)交换码用于各种数字系统之间的汉字信息的通信交换,又称区位码。在计算机中.用第一个 字节标记码,第二个字节标记码。 (4)处理码是计算机内部用于信息处理的汉字代码,也称汉字码。 (5)汉字输出显示和打印的字形有两种表现方式:点阵方式和矢量方式,对字形的编码称为____ 码。 (6)用UltraEdit或WinHex工具软件观察内码时,ASCII码(英文字符)只占个字节.汉字 编码占个字节。 4.多媒体信息的编码 多媒体信息数字化就是将模拟的多媒体信息以计算机能够处理的二进制数进行编码的过程。 (1)声音信号是通过和实现模拟量的数字化。采样频率越,量化的分辨率 越,所得数字化声音的保真程度越,但是它的数据量也越。 (2)位图所占空间除了它的像素点的个数之外,还与它的颜色种类的多少有关,表示颜色种类越 多,色彩越逼真,存储的空间越大。位图的图像存储空间的计算公式为: 存储量= ××/8(单位:字节)。 (3)视频是由连续的图像帧组成,常见的有、、SECAM等三种视频播放制式。 三.信息技术及影响 1.信息技术的发展及影响 信息技术的发展已经成为影响人类社会的一种趋势,出现了计算机、计算机、网格计算、、数字地球和智能化社区、因特网和以下一代因特网、虚拟现实的实用化为代表的一些新技 术。

中文信息处理

中文信息处理技术浅谈 摘要:随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。广泛的应用对中文信息处理技术也提出了较高的要求。本文从主流技术、新技术展望等,对中文信息处理技术进行了初步探索。 关键词:中文信息处理N元模型语音识别词性标注 中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言:但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。 一、中文信息处理的特点及难点 中文信息处理在许多方面有自己的特点。 1、汉字的特殊性 西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。 2、书面汉语的特殊性 书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。 3、汉语语音的特殊性 汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面, 也有不利的一面。 4、汉语语法的特殊性 汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得

同济大学中文信息处理期末试卷

同济大学中文信息处理期末考试A卷 课程名称:中文信息处理专业:计算机科学与技术、信息安全 学号:姓名:成绩: 一、填空题: 1、分词单位是指汉语信息处理使用的、具有确定的语义或语法功能的基本单位,包括和少量。 2、所谓框架,是由、、和组成的抽象数据结构。 3、机械分词方法无法解决分词阶段的两大问题—— 和,影响了分词的准确率。 4、对于语法分析而言,自动标注的性能采用性能来衡量较好。 5、对于齐次的马尔可夫过程而言,一旦知道了它的 和,它的统计性质,即它的任意有限维分布就完全确定了。 6、若将词的生成过程看作一个HMM,其中构成一个时齐的马尔可夫过程,而则服从多项概率分布。 7、在上下文无关(CFG)规则库中出现的符号包括:终结符和非终结符。通常地,终结符就是,非终结符就是。 8、将一个句子映射到它的的过程称为语义解释。 9、动词及其参数之间存在一组抽象的语义关系,这些关系一般称为。 10、自然语言处理是领域与领域中的一个重要研究方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 二、简答题: 1、什么是自然语言理解,什么是自然语言生成?请列举三个自然语言研究的应用领域。 2、请运用树结构形式表示下面句子的结构。

那位老人在公园散步。 3、在语义分析阶段,采用选择限制法消除歧义的基本思想是什么? 三、请描述下面句子采用逆向最小匹配分词的过程(设MAXL=4)。 他的确切地址在这里。 四、请根据下面的语法规则,给出下面句子的双向图语法分析过程。 他是好学生。 语法规则如下:(#pronoun表示pronoun是触发类) ⑴ NP ?#pronoun ⑵ NP ?#noun ⑶ NP ?#adj noun ⑷ VP ?#verb ⑸ SUBJ ?#NP ⑹ PRED ?#VP NP ⑺ S ? SUBJ #PRED 五、请根据给定的语法规则、ACTION表和GOTO表,写出对下面句子进行LR语法分析的过程。 句子:He is a *.(其中*表示未登录词) 语法规则: (1) S ? NP VP (2) S ? S PP (3) NP ? *n (4) NP ? *det *n (5) NP ? NP PP (6) PP ? *prep NP (7) VP ? *v NP

第1章 习题答案

第一章习题答案 1.问答题 (1)计算机的发展经历了哪几个阶段?各阶段的主要特征是什么? 答:根据计算机所采用的电子元件不同可划分为:电子管计算机、晶体管计算机、集成电路计算机和大规模超大规模集成电路计算机等四个阶段。 第一代计算机主要特点是:内存容量非常小;计算机程序设计语言为机器语言;尚无操作系统出现,操作机器困难。它体积庞大、造价昂贵、速度低、存储容量小、可靠性差、不易掌握,主要应用于军事目的和科学研究领域的狭小天地里。 第二代计算机主要特点是:采用了晶体管的电子元件;内存储器容量扩大到几十万字节;计算机软件有了较大发展,出现了监控程序并发展成为后来的操作系统;推出了Basic、Fortran、Cobol高级程序设计语言。主要应用范围由单一的科学计算扩展到数据处理和事务管理等其他领域。 第三代计算机的特点是:体积、重量、功耗进一步减小,运算速度、逻辑运算功能和可靠性进一步提高;软件在这个时期形成了产业;出现了分时操作系统;提出了结构化、模块化的程序设计思想,出现了结构化的程序设计语言Pascal。这一时期的计算机同时向标准化、多样化、通用化发展。 第四代计算机的特点是:磁盘的存取速度和容量大幅度上升;体积、重量和耗电量进一步减少;计算机的性能价格比基本上以每18个月翻一番的速度上升;操作系统向虚拟操作系统发展,数据库管理系统不断完善和提高,程序语言进一步发展和改进,软件行业的发展成为新兴的高科技产业;计算机的应用领域不断向社会各个方面渗透。 (2)未来计算机发展的趋势是什么? 答:现代计算机的发展表现为两个方面:一是巨型化、微型化、多媒体化、网络化和智能化5种趋向;二是朝着非冯·诺依曼结构模式发展。 (3)计算机的特点是什么? 答:①处理速度快 ②计算精度高 ③存储容量大 ④可靠性高 ⑤工作过程的全自动化 ⑥适用范围广,通用性强 (4)计算机的类型有哪些? 答:①按其处理数据的形态分为:数字计算机、模拟计算机、混合计算机 ②按其使用范围分为:通用计算机、专用计算机 ③按其本身性能分为:超级计算机、大型计算机、小型计算机、微型计算机、工作站 (5)简述计算机的应用领域。 答:计算机具有存储容量大、处理速度快、工作全自动、可靠性高,同时又具有很强的逻辑推理和判断能力等特点,所以已被广泛应用于各种学科领域,并迅速渗透到人类社会的各个方面,同时也进入了家庭。计算机应用已形成一门专门的学科,这里只对应用的几个主要方面作简单介绍。

《中文信息处理》复习提纲

《中文信息处理》复习提纲第一章汉字信息处理 一、填空: 汉字的属性信息包括字量、字频、字序、字形、字音。 二、现代汉语用字排列的顺序 1、义序法 2、音序法 3、形序法 三、GB2312-80:中国《信息交换用汉字编码字符集·基本集》 四、什么是汉字字形识别输入? 也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统告诉自动输入的手段和根本出路,是汉字中文信息处理的一种好办法。五、自动字形识别输入的类型。 汉字识别的类型主要分三大类:联机手写汉字识别、印刷体汉字识别和手写汉字识别。 1、汉字手写汉字识别,又称实时手写汉字识别,人用笔在图形输入板上写字,机器隔着认。 2、印刷体汉字识别包括单体印刷体汉字识别和多体印刷体汉字识别两小类。 (1)单体印刷体汉字识别是识别印刷在纸上的一种印刷体汉字。 (2)多体印刷体汉字识别是同时识别印刷在纸上的宋、仿宋、楷、黑等多种字体的印刷体汉字。 3、手写汉字识别,又称通用手写汉字识别,是识别人写在至上的规整汉字。一般限制为楷书,笔画数要正确,要写于方格中。 六、汉字识别的基本思想与步骤。 1、汉字识别的基本思想是匹配识别。 2、步骤: 第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中,形成已知的汉字库。 第二步用图形输入板或光电设备(如图文扫描、光导摄像管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。 第三步将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。最后在机器存贮的标准汉字模式表达形式的集合中,找出最接近汉字输入特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。 七、汉字语音识别输入的定义。 汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语言特征,实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。 八、语音识别的类型 1、按使用人分类,有特定人语音识别和非特定人语音识别 (1)特定人语音识别指使用前由使用者对系统进行训练,让系统记住事先选好的字或词的发音特征,识别时由这个使用者将字或词读进系统。 (2)非特定人语音识别是供许多人使用的系统,使用者不用对系统进行训练。系统要能听懂任何人说的话,就必须让系统获取许多人说话的共性特征,并在处理中进行强化,是许多人说的同一语音的特征有极高的稳定性,对不同的语音有极大的区别度。 2、按词汇量分类,有小词汇量语音识别、中词汇量语音识别和大词汇量语音识别。 小词汇量指几十个字或词,中词汇量指几百个字或词,大词汇量指几千甚至上万的字或词。 3、按发音方式分类,有孤立词语音识别和连续语音识别。(1)孤立词语音识别指识别时将字或词孤立地读进系统。(2)连续语言识别指语言识别时将整个句子连续读进系统。要求系统既具备处理连续造成地同化、异位、脱落、换位等音变问题的能力,又具有通过语义、语法知识分析得出正确识别效果的能力。 另外,还有使用环境优劣的区分,也就是指噪声轻重情况。目前噪声下的语音识别还只是在初步研究阶段。通常所说的语音识别都是有较好的使用环境。 九、汉字编码的类型。 拼音编码、字形编码、音形编码。 十、汉字编码的原则 1、社会学原则 汉字编码研究的目的之一时为了信息处理技术的普进,这一普及首先要面向教育。汉字输入系统进入中小学课堂是培养跨世纪人才的根本大计,教学的规范化相应地要求汉字编码研究的规范化。在规范化的前提下,将中小学的“识字、定字、查字、打字”教学统一起来。 汉字是我国悠久历史文化的一个特征,研究汉字的分解原则,必须联系我国社会的文化背景。人们称说汉字的习惯有着深厚的群众基础,之所以能相沿习用,必有其合理的一面。现在,中文信息处理在拆分汉字,设计汉字编码方案时,就要充分考虑到这种文化传统和社会基础。2、汉字学原则 汉字编码作为汉字的计算机语言或代码,必须准确而简洁地反映和体现汉字地特点和规律。在实际过程中,容

中文信息处理重点题目及解答

中文信息处理 ①信息:是物质世界存在的形式、状态及各种关系,是与物质、能量共同构成世界的三大要素之一。具有主观和客观双重属性。中文信息,是特指以汉语言文字为载体形式的信息。从宏观角度看,一类是自然性信息,一类是社会性信息。 ②信息处理:就是用计算机对各种信息符号进行输入、转换、存储、传输、分类、排序、统计、分析、重组等加工过程。 ③中文信息处理:是利用计算机对中文(包括口语和书面语)进行输入、转换、传输、存储、分析、加工的科学。中文信息处理技术已到社会生活的各个方面,汉字/汉语信息处理。 ④代码:汉字的代码有:汉字输入码、汉字内部码、汉字交换码、汉字地址码、汉字字形码和汉字控制功能码。从汉字代码的角度看,一个汉字信息处理系统,就是一个进行汉字代码转换的过程。中文代码包括内部码和外部码两大类,内部码是中文在计算机系统内部进行处理和传输的代码,外部码作为人机接口由用户给计算机输入信息时使用的代码。 *中文计算机操作系统使用的代码系列一共三种,七位代码系列,八位代码系列和双八位代码系列。中文信息内部处理代码包括存储码、运算码、传输码。 (是程序员用开发工具所支持的语言写出来的源文件,是一组由字符、符号或信号码元以离散形式表示信息的明确的规则体系。) ⑤编码:是以固定的顺序排列字符,并以此做记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。 A.计算机通讯技术领域对所处理信息的字符集序号序列的排序原则和代码赋值方式,也是“机内码”的编码。 B.专指计算机键盘输入汉字的代码设计与实现,简称外码或人机界面编码。 汉字编码:广义的汉字编码就是汉字排检法,即确定一个排序规则使全部汉字成为有序的集合,以便能按照排序规则检索到所需要的汉字。狭义的汉字编码特指采用通用键盘上的字母数字为汉字编制代码,以便实现汉字的计算机输入。 *静态编码:指把汉字作为等概率的离散字符进行的编码,不考虑汉字的使用频率。 动态编码:是根据汉字的使用频率进行信息编码,如传输码、处理吗都采用动态编码。 ⑥字符集:字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集。计算机对字母和符号采用国际上通用的ASCII码来编码,标准的ASCII码用7位二进制数编码,字符存放时采用一个字节,规定最高位为0,这样可以表示128个字符。 ⑦汉字三种类型输入法: A.键盘输入方法使用已有西文键盘,通过编码输入。分整字输入方法和编码输入方法。 B.非键盘输入方式:如识别输入,包括汉字识别输入和语音识别输入。 C.数字键盘编码输入。 汉字输入计算机的途径:A.通过计算机的键盘人工输入B.计算机自动识别 汉字的自动识别级汉语的语音自动识别 ⑧汉字属性:是汉字作为记录汉语的书写符号所具有的形、音、义等属性。其研究和属性库的建立,具有特别重要的理论意义和实践意义。汉字的信息属性是汉字作为信息载体所具有的所有属性,包括传统的形音义,频率、分布、构词等。对汉字属性的传统认识是针对形音义三要素,现代对汉字信息属性认识有字量、字形、字音、字序四种。 ⑨汉字属性库: 从关系数据库的结构出发,任何一个层级的分类都可作为数据结构中的一个属性项,所有的

试论中文信息处理与现代汉语语法

试论中文信息处理与现代汉语语法 论文关键词:中文信息处理现代汉语语法句处理 论文摘要:用计算机来处理汉语信息包括“字处理”、“词处理”和“句处理”三个阶段。“句处理”是实现自然语言的处理与理解这一关键性的技术难关。其中遇到的问题比较多:词性的判断;短语、句子的结构分析;歧义现象分析等等,最根本的方法是语言学家尽可能地把语言中的这些现象通过归纳、分析、总结出规律,再用形式化的方式描述出来,以便利于计算机处理。 用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。“字处理”、“词处理”分别与汉字和词汇有关,在此主要谈谈“句处理”。 句处理的主要内容是,怎样使计算机理解自然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合自然语言规则的句子。“句处理”所需要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题,许多问题在人看来还是比较容易解决的,但计算机就解决不了。也有一些问题,本身在学术界就有不同的观点,那么,就给中文信息处理增加了更大的困难。 用计算机来处理中文信息,遇到了很多困难,从现代汉语语

法的角度来看,主要有以下一些问题: 一、词性的判断 由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能,不同的词,词性意义可能不同,同一个词出现在不同的地方,词性意义也可能不同,汉语中,大多数词有固定的词性,但有些词的用法比较特殊。例如: 1.他花了十块钱买了一盆花。 2.你用那个锁把门锁上。 3.他比雷锋还雷锋。 这三个句子中分别有两个“花”、“锁”、“雷锋”。但它们只是音同、形同,词性和意义都不同。句子1中的第一个“花”是动词,“花费”的意思,第二个“花”是名词,“植物”的意思。句子2中的第一个“锁”是名词,即“锁子”的意思,第二个“锁”是动词,是“锁住”的意思。句子3中第一个“雷锋”是名词,表示人名,第二个“雷锋”是形容词,表示“雷锋的精神、品质等”。具有一定语言知识的人大体上都能分清它们的区别。从传统语言教学的角度来讲,句子1中的两个“花”是词形、读音相同,但词性和意思都不一样,且两个“花”的意思之间没有联系,所以属于同音词。句子2中的两个“锁”,也是词形、读音相同,词性和意思都不一样,但两个“锁”意思间有联系,所以属于兼类词。句子3中的两个“雷锋”词形、读音相同,词性和意思都不一样,意思也有

相关主题