搜档网
当前位置:搜档网 › 中文信息处理 教学大纲

中文信息处理 教学大纲

中文信息处理  教学大纲
中文信息处理  教学大纲

课程名称:中文信息处理

课程类别:专业课程

授课对象:计算机科学与技术专业

学分:3学分

指定教材:朱巧明等,《中文信息处理技术教程》,清华大学出版社,2005年一、教学目的:

本课程的教学目的是使学生掌握中文信息处理的基本原理,熟悉基本“字符”层面和基于“内容”层面的研究内容、方法、技术和手段。熟练理解并掌握计算机对中文的输入、存储、输出和应用处理的过程,学习基本的机器学习理论与方法。

本课程对计算机科学与技术的学生有着承前启后的作用,综合结合运用前导课程,又为毕业设计和将来研究生学习或工作奠定扎实基础。本课程的直接前导课程有《C语言程序设计》、《面向对象程序设计》、《数据结构》和《操作系统》。

二、教学任务:

本课程主要教学任务如下:

1了解中文信息处理与信息处理的关系,主要研究内容与对象,目前主流的研究技术、手段与方法;

2掌握中文信息处理中的汉字代码体系,熟悉主要的中文字符编码与集合,熟悉因特网上的汉字交换码以及编码与解码技术;

3深刻理解中文操作系统和中文平台的地位,掌握汉字输入码、机内码、地址码、字形码、地址码、交换码之间的关系;了解主流的中文操作系

统的发展趋势

4学习汉字编码的方法,理解中文输入的原理,掌握Windows上汉字键盘输入系统的实现方法,了解Linux中文输入的实现机制。

5学习目前主要的三种汉字字形技术,重点掌握点阵字库的原理,压缩方法,以及显示技术。

6理解汉字显示和打印的工作原理以及工作过程。

7理解中文分词的意义,地位、以及主要应用,掌握交集型歧义和组合型歧义的区别,了解基本的解决歧义的方法,能够实现一种中文自动分词

算法。

8对中文信息检索、分类、抽取等有较深刻的认识,了解需要解决的问题,以及主流的技术方法。了解基本的机器学习理论,以及常用的数学模型。

三、教学内容

第一讲中文信息处理概论(一)

1. 教学内容

●什么是信息

●信息处理

●中文信息处理

●中文信息处理发展简史

●语料库

●互联网与中文信息处理

2. 教学要点

通过本讲的学习,让学生理解信息处理和中文信息处理的概念,理解中文信息主意研究对象和研究意义,熟悉中文信息处理的发展历史,并了解中文信息处理的国际化趋势。

第二讲中文信息处理处理概论(二)

1.教学内容

●汉语的特点

●自然语言处理的难点

●自然语言处理的基本方法及发展方向

2. 教学要点

通过本讲的学习,让学生掌握现代汉语的特点,知道自然语言处理中的难点,初步了解自然语言处理的基本方法以及发展方向。

第三讲汉字代码体系

1、教学内容

●ASCII码及其扩展

●中文信息在计算机内的表示

?ISO/IEC 2022

●汉字编码字符集

?GB2312-80

?BIG-5

?Unicode和ISO10646

?GBK和GB18030

2、教学要点

通过本讲的学习,学生应掌握中英文信息在计算机中的表示,以及汉字的代码体系,理解几种常用的汉字编码字符集和汉字的排序规则。理解汉字编码字符集之间的关系以及发展方向。

第四讲因特网汉字信息交换技术

1、教学内容

●汉字信息交换技术概述

●二进制文件编码方法

●常用Internet编码方法

●Unicode实现方式

2、教学要点

通过本讲的学习,理解Internet上常用的字符编码集,理解为何需要汉字交换码,掌握常见交换码的编码与解码算法,并能够通过程序加以实现编码与解码过程。

第五讲中文系统平台概述

1、教学内容

●中文操作系统与平台概述

●中文系统平台设计策略

●系统平台的相关模块

●中文DOS

●中文Windows

●中文Linux

●嵌入式操作系统

2、教学要点

通过本讲的学习,让学生了解中文平台和中文操作系统的发展历史、常见中文操作系统和设计中文操作系统的通用方法;掌握系统中汉字处理模块,以及处理模块与汉字代码体系之间的关系;了解软件国际化和本地化的概念。

第六讲汉字编码技术

1、教学内容

●汉字编码的发展

●汉字编码中的几个概念

●汉字编码理论

●数码键盘方案

●编码方案的标准和规范

2、教学要点

通过本讲的学习,让学生了解汉字编码的发展和相关概念,理解汉字编码理论中的重要概念,了解当前数码设备中的键盘编码方案和国家颁布的汉字编码标准和规范。

第七讲汉字输入技术(一)

1、教学内容

●汉字输入技术的发展

●汉字键盘输入技术

2、教学要点

通过本讲的学习,让学生了解汉字输入的发展历史、汉字输入的分类和应用等内容,理解汉字键盘输入的原理,掌握输入码对照表的设计,理解汉字键盘输入系统和Windows下汉字输入技术,并对Linux下的汉字输入系统有所了解。

第八讲汉字输入技术(二)

1、教学内容

●汉字键盘输入系统原理

●汉字键盘智能输入技术

2、教学要点

通过本讲的学习,让学生了解汉字键盘输入在汉字输入中的地位,掌握汉字键盘输入系统的原理,学习汉字键盘智能输入的主要采用的技术以及未来发展的方向。

第九讲汉字键盘输入系统

1、教学内容

●汉字输入系统的分类

●汉字输入系统的功能

●汉字键盘输入系统的工作流程

2、教学要点

通过本讲的学习,主要让学生熟悉Windows和Linux下汉字键盘输入系统的实现方法,熟悉常用汉字输入接口,体会接口在系统中的地位作用。并能够实现一个简单的Windows汉字输入系统。

第十讲实验分析(一)

1、教学内容

●本课程实验作用

●实验一分析

●实验二分析

●实验三分析

●实验四分析

2、教学要点

通过本讲的学习,主要让学生对实验的过程有回顾与提高,从具体的实验上升到经验,再通过对经验进行总结,让学生体会这四个实验的作用与学到的东西。

第十一讲汉字字形管理技术(一)

1、教学内容

●汉字字形概述 (讲授、理解)

●汉字字形及其特点

●字形、字型和字形库

●字形描述技术及其种类

●字形描述技术 (讲授、掌握)

?点阵字形描述技术

?轮廓矢量字形描述技术

?曲线轮廓字形描述技术

?其他字形描述技术

●字形的压缩和还原 (讲授、理解)

?字形点阵的压缩和还原

?轮廓矢量字形的压缩方法

?其他字形的压缩技术

2、教学要点

通过本讲的学习,让学生掌握汉字字形、字库的有关概念,理解常用的字形描述技术、学习并掌握字形压缩的方法,并能用算法加以描述黑白段和线性增量表示法。

第十二讲汉字字形管理技术(二)

1. 教学内容

●字形的放大和缩小 (讲授、理解)

?汉字的字号

?字形放大和缩小的基本原理

?防止字形放大和缩小失真的措施

?字形放大和缩小的应用

●TTF字形技术 (讲授及自学、了解)

?什么是TrueType

?TrueType的基本原理

?TrueType字体文件结构

?TrueType的特点和优势

?TrueType的应用

?OpenType的出现

●字库的设计和管理技术 (讲授、理解)

?汉字字库的基本要求

?汉字库性能的评测

?汉字库结构的设计

?点阵字库的制作

●汉字字库的应用 (讲授及自学、了解)

2. 教学要点

通过本讲的学习,需要需要掌握字形放大和缩小的原理、防止失真的措施等;了解TTF字形技术;理解字库的设计和管理技术,并由此了解汉字库的应用。

第十三讲汉字输出技术

1、教学内容

●汉字的输出技术综述 (讲授、理解)

●汉字显示输出原理和基本结构 (讲授、掌握)

?显示设备

?汉字显示的原理

?内码缓冲区和字形缓冲区

?汉字显示输出过程

?汉字终端

●汉字显示技术实例

?Dos下的汉字显示技术 (讲授、理解)

?Windows下的汉字显示技术 (讲授、了解)

●打印输出原理和基本结构

?打印设备 (讲授、了解)

?汉字打印概述 (讲授、理解)

?汉字打印原理 (讲授、理解)

?汉字打印过程 (讲授、理解)

?汉字打印机 (讲授、理解)

2、教学要点

通过本章的学习,让学生理解汉字输出显示的设备、原理和基本结构,对Dos、Windows操作系统下的显示技术有较深入的分析;理解汉字打印输出的原理和过程,了解常用打印设备。

第十四讲中文自动分词

1、教学内容

●中文自动分词的概念

●中文自动分词的意义、作用

●中文自动分词困难:歧义

?交集型歧义

?组合型歧义

●主要分词方法与算法

●如何处理歧义

2、教学要点

通过本讲的学习,让学生理解分词对于基于内容的中文信息处理的重要性,充分了解分词所遇到的困难,熟悉分词常用的算法,对无词典的分词算法作简要的了解,对于分词中的组合型歧义和交集型歧义进行学习,掌握一些常用的处理交集型歧义的方法。

第十五讲中文信息检索

1、教学内容

●中文信息检索基础

●中文信息检索架构

●中文信息检索模型

●中文信息检索系统

●Web信息检索概述

?搜索引擎

?搜索引擎分类

2、教学要点

通过本讲的学习,让学生理解半结构化文档和无结构化文档,了解中文信息检索中文档的表示方法,检索条件的表示方法。熟悉中文信息检索系统架构与模型,并深度理解Web信息检索系统的工作原理。

第十六讲中文文本分类

1、教学内容

●什么是文本分类

●文本分类的应用

●文本表示

●分类特征选择

●文本分类算法

●文本分类评测

2、教学要点

通过本讲的学习,让学生理解文本分类的概念,了解文本分类的作用与应用,掌握1-2中文本表示方法,学习特征抽取的技术,并熟悉常见的文本分类算法,明了文本分类评测的技术指标。

第十七讲中文信息抽取

1、教学内容

●信息抽取概述

●信息抽取基本任务

●信息抽取系统的结构

●信息抽取方法

●Web信息抽取方法

2、教学要点

通过本讲的学习,让学生理解信息抽取的概念,了解信息抽取的作用以及基本任务,熟悉信息抽取系统的结构以及常用的方法,熟悉常用的Web信息抽取方法。

第十八讲实验分析(二)

1、教学内容

●实验五分析

●实验六分析

●实验七分析

●实验八分析

2、教学要点

通过本讲的学习,让学生对后面四个实验中的难点与重点进行点拨与回顾,从而进一步发挥实验的教学作用。对数据压缩、软件二次开发等形成自己感性的认识。

计算机基础知识知识点归纳

计算机基础知识知识点归纳: 1、世界上第一台电子计算机诞生于 1946年 世界第一台电子计算机的英文名称是。(答案O A.ENIAC B.IBM https://www.sodocs.net/doc/5113198868.html, D.PC ' 世界第一台电子计算机于 _____________ 年诞生。(答案:B ) A.1940 B.1946 C.1960 D.1980 .体系。(答案:B ) A.比尔?盖茨 B.冯?诺依曼 C.唐纳德?希斯 D.温?瑟夫 2、世界上首次提出存储程序计算机体系结构的是 B _ 型计算机。 B 冯?诺依曼 C 温?瑟夫 D 唐纳德?希斯 【计算机的特点】 1.处理速度快 '现代计算机的运算速度可以达到每秒钟数千亿次 (通常以每秒钟完成基本加法指令的数目来 '表示计算机的运算速度),这不仅使得许多大型数据处理工作时间大大缩短,促成了天气预 '报、数值模拟等技术的广泛应用,更使得许多实时控制、在线检测等处理速度要求较高的工 '作得以实现。同时,计算机具有很高的逻辑运算速度, 这使得计算机在非数值数据领域中得 '到了广泛的应用。 ' 2 .运算精度高 '计算机一般都有十几位甚至更多位的有效数字,加上先进的算法,可得到很高的计算精度。 '例如,对圆周率n 的计算,在没有计算机的情况下, 数学家要经过长期的努力才能算到小数 '点后500多位,而使用第一台计算机仅仅用了 40秒钟就打破了这一记录。 ' 3 .具有逻辑运算和记忆能力 :计算机的存储器具有存储数据和程序的功能, 它可以存储的信息量越来越大。计算机不仅可 '以进行算术运算,而且可以进行逻辑运算,可以对文字、符号等进行判断、比较,因而可解 '决各种不同类型的问题。 ' 4 .具有自动控制能力 '计算机内部的操作、 运算是在程序的控制下自动进行的, 它能够按照程序规定的步骤完成指 定的任务,而不需要人工干预。 ' 5 .通用性强 '计算机是靠存储程序控制进行工作的。 在不同的应用领域中, 只要编写和运行不同的应用软 :件,计算机就能在任一领域中很好地完成工作。针对不同的需要, 设计不同的程序,这就能 '使计算机具有很强的通用性。 'I 计算机的特点有 A.运算速度快 B.具有逻辑判断功能 C.存储容量大 D.计算精度高 【计算机的发展历程】 1.第一代:电子管计算机(1946年—1958年) 1946 年 2 月,世界上第一台电子数字计算机 ENIAC (Electronic Numerical Integrator And 现代的计算机系统都属于 冯?诺依曼 现代计算机时 A 比尔?盖茨 。(答案:ABCD )

中文信息处理

简述中文信息处理在国家安全领域的应用 摘要:中文信息处理自出现以来,技术不断提高,研究领域也不断扩大。发展的同时我们也看到中文信息处理在国家安全角度应要有的任务、责任和问题。分析中文信息处理在我国的发展背景、技术隐患、技术建设和创新展望,使得对中文信息处理在国家安全领域的应用有一个清楚的认识。 关键词:中文信息处理;国家安全;技术建设 在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。“中文信息处理”一词是从20世纪70年代流行起来的。自从有了中文(汉字),即相应地出现了中文信息处理的工作[1]。现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学[2]。 1. 信息时代的国家安全 1.1 信息时代的大背景 语言文字信息化对国家安全的作用日益明显,语言文字信息化中的不安全因素就是国家安全的隐患。国家安全的要素呈现综合化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一。信息时代国家之间相互依赖和相互影响程度越来越高,这种相互依赖使得每一个国家的行为和战略都受到了一定程度的约束。信息技术革命打破了时空的限制,国家安全主体多元化,安全空间得到了大大拓展,向上扩展到全世界,向下延伸到地区乃至个人。信息时代中国家必须综合运用经济、社会、文化、科技及环境等手段来维护国家安全。安全问题越来越呈现出国际化、全球化的发展趋势。国家安全包括了文化安全、经济安全、环境安全、资源安全、网络安全、信息化安全。信息化安全即语言文字信息化的安全,语言文字信息化对国家安全的作用完全凸显出来[3]。 1.2 中国互联网的安全隐患 由于中国缺少自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。语言文字信息化中的不安全因素就是国家安全的隐患。中国网络

一级计算机习题

一、选择题(每小题1分,共20分) (1)天气预报能为我们的生活提供良好的帮助,它应该属于计算机的哪一类应用? A)科学计算 B)信息处理 C)过程控制 D)人工智能 (2)已知某汉字的区位码是3222,则其国标码是 A)4252D B).5242H C)4036H D)5524H (3)二进制数l01001转换成十进制整数等于 A)41 B)43 C)45 D)39 (4)计算机软件系统包括 A)程序、数据和相应的文档 B)系统软件和应用软件 c)数据库管理系统和数据库 D)编译系统和办公软件(5)若已知一汉字的国标码是5E38H,则其内码是 A)DEB8 B)DE38 C)5EB8 D)7E58(6)汇编语言是一种 A)依赖于计算机的低级程序设计语言 B)计算机能直接执行的程序设计语言 C)独立于计算机的高级程序设计语言 D)面向问题的程序设计语言 (7)用于汉字信息处理系统之间或者与通信系统之间进行信息交换的汉字代码是 A)国标码 B)存储码 C)机外码 D)字形码 (8)构成CPU的主要部件是 A)内存和控制器 B)内存、控制器和运算器 C)高速缓存和运算器 D)控制器和运算器 (9)用高级程序设计语言编写的程序,要转换成等价的可执行程序,必须经过 A)汇编 B)编辑 C)解释 D)编译和连接 (10)下列各组软件中,全部属于应用软件的是 A)程序语言处理程序、操作系统、数据库管理系统 B)文字处理程序、编辑程序、UNIX操作系统 C)财务处理软件、金融软件、WPS Office 2003 D)Word 2000、Photoshop、Windows 98 (11)RAM的特点是

汉字信息在计算机中的处理

汉字信息在计算机中的处理 陌陌:琪琪,随着计算机技术的发展,计算机具有了中文信息处理的能力,在上次课中,我们已经学习了第一节的文字及其处理技术,那么我想问你,汉字信息在计算机中是如何进行处理呢? 琪琪:陌陌,这你可要认真听了哦,汉字首先要被计算机先存储,计算机只能识别二进制数0和1任何信息在计算机中都是以二进制形式存放的,汉字也不例外,这就需要对汉字进行编码。 陌陌:那琪琪你能说说计算机在处理汉字时是如何机进行编码的吗? 琪琪:汉字在计算机内的编码很复杂,涉及汉字的各种代码,目前计算机上使用的汉字编码主要有三种1、汉字输入码2汉字机内码3汉字输出码。 陌陌:那琪琪你能告诉我汉字信息在计算机中是如何通过编码进行输入输出和显示的吗?琪琪:这个有点复杂,陌陌你要仔细听,在前面我所提到的汉字编码中,汉字输入码也叫外码,是为了通过键盘字符把汉字输入计算机而设计的一种编码。汉字的输入码种类繁多,大致有4种类型,即音码、形码、数字码和音形码。 陌陌:那第二个汉字机内码是什么呢? 琪琪:第二个是汉字机内码,它又称为内码或汉字存储码。汉字机内码是供计算机系统内部进行存储、加工处理、传输而统一使用的代码。 陌陌:那汉字输出码又应该怎么理解呢? 琪琪:汉字输出码,它也叫汉字的字型码,由汉字的字模信息组成的。目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是在纵向16点、横向16点

的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。这种用点阵形式存储的汉字字型信息的合称为汉字字模库,简称汉字字库。通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵等。例如以下几幅图都是用点阵来显示汉字:

苏州大学 计算机中文信息处理技术 考试试卷

苏州大学计算机中文信息处理技术考试试卷(A卷) 学院专业班级 姓名学号形式: (闭卷) 一、填空题。(20%,每空1分) 1. 在IBM-PC系列微机中,BIOS打印管理模块是以号中断服务程序的形式存在的;BIOS显示输出管理模块是以号中断服务程序的形式存在的。 2. 中文信息处理是以为主要工具,以为处理对象的高新技术。 3. 在计算机汉字信息处理系统的不同部分中,存在着多种汉字编码,这些编码构成了一个完整的汉字代码体系,这个代码体系主要包括、、、、。 4. 汉字信息处理系统主要模块包括:模块、模块和模块。 5. 汉字输入码有很多种类,根据其编码规则的不同,一般可以分成、、、四类。 6. 现在使用的显示适配器一般都可以支持两大类工作模式。它们分别是:以字符为基本处理单元的模式和以象素为基本处理单元的模式。 7. 汉字点阵字形通常分为两种:适用于显示器的________和适用于打印机的________。 二、选择题。(20%,每题2分) 1. 如果我们在接收到的电子邮件的正文中看到这种形式的内容, “abc~{0!}~” 这封邮件的正文最有可能使用了下面的哪种编码方式: (a)BASE64 (b)UUEncode (c)QP (d)HZ 2. Windows环境下,IME本质上是一个_______ (a)中断处理程序(b)动态链接库(c)输入法服务器(d)中断向量 3. 由1000个16×16点阵构成的汉字要占用存储空间。 (a)25K字节(b)1000K字节(c)32字节(d)31.25K字节 4. 下列哪种输入法不需要输入码对照表:_______。 (a)智能abc (b)五笔字形(c)区位(d)双拼 5. 中文信息处理系统(DOS)的键盘输入管理模块是以16H号中断处理程序的形式给出的,它驻留在中。 (a)软盘(b)硬盘(c)ROM (d)RAM 6. 区位码是1801的汉字,它在GB2312-80中的机内码应该是。 (a)B2A1H (b)A1B0H (c)A2B1H (d)B0A1H 7. TrueType字库属于下列哪种类型的字库: (a)点阵(b)直线轮廓字(c)曲线轮廓字(d)以上都不对 8. 手机上使用的编码方案,如T9拼音、T9笔画等,属于哪种键盘方案:_______。 (a)大大键盘(b)大键盘(c) 小小键盘(d)小键盘 9. 在汉字系统中,汉字的显示一般采用黑底白字的方式,如在特殊场合需要反白显示(即白底黑字)的话,应对字形码做运算。 (a)移位(b)取反(c)与(d)或 10.如一个显示器采用640×480×单色的分辨率,则需要的显存是:。 (a)512K字节(b)76800字节(c)38400字节(d)768K字节 三、计算题。(20%)(转换编码见附表) 1. 现有一段信息采用Unicode编码(UCS-2序),内容如下: 11 62 1F 4F 27 59 84 76 56 79 FD 56 请将其内容用UTF-8编码,编码结果用16进制表示,并填入下表。(每格填一个字节)(10

辽师大版信息技术七上《计算机中信息的表示》教案

辽师大版信息技术七上《计算机中信息的表示》教案一个二进制数位简称为位(英文名称为bit)。计算机中最直接、最基本的操作就是对二进制位的操作。 一个二进制位可表示两种状态(0或1)。 两个二进制位可表示四种状态(00,01,10,11)。 位数多,所表示的状态就越多。 A S C I I码 ASCII 码是美国信息交换用标准代码(American Standard Codefor Information Interch ange)。ASCII码虽然是美国国家标准,但它已被国际标准化组织(ISO)认定为国际标准,为世界公认,并在世界范围内通用。 ASCII码用一个8位二进制数(字节)表示,每个字节只占用了7位,最高位恒为0。7位ASCII码可以表示128(27=128)种字符,其中通用控制字符34个,阿拉伯数字10个, 示数的范围为128~255,可表示128种字符。通常各个国家都把扩充的ASCII码作为自己国家语言文字的代码。 汉字编码我国用户在使用计算机进行信息处理时,一般都要用到汉字。由于汉字是象形文字,字的数目很多,常用汉字就有3000~5000个,加上汉字的形状和笔画多少差异极大,因此,不可能用少数几个确定的符号将汉字完全表示出来,或像英文那样将汉字拼写出来。汉字必须有它自己独特的编码。 1.汉字信息交换码(国标码) 《信息交换用汉字编码字符集·基本集》是我国于1980年制定的国家标准GB2312-8 0,代号为国标码,是国家规定的用于汉字信息处理使用的代码依据。 GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号(包括几种外文字母、数字和符号)的代码。 6763个汉字又按其使用频度、组词能力以及用途大小分成一级常用汉字3755个和二级常用汉字3008个。 一级汉字按拼音字母顺序排列;若遇同音字,则按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依次类推。所谓笔形顺序,就是横、竖、撇、点和折的顺序。二级汉字按部首顺序排列。 在此标准中,每个汉字(图形符号)采用双字节表示。每个字节只用低7位,最高位恒为1。由于低7位中有34种状态是用于控制字符,因此,只有94(128-34=94)种状态可用

2018计算机应用基础测试题(一)

计算机应用基础(一) 题目1 正确 获得1分中的1分 标记题目 题干 在计算机领域中,"编码"的含义是______。 选择一项: a. 用来对汉字多个字的词组进行数值转换 b. 用来对英文单词进行数值转换 c. 用来对汉字单个字进行数值转换 d. 用来对非数值型数据进行数值转换 反馈 正确答案是:用来对非数值型数据进行数值转换 题目2 正确 获得1分中的1分 标记题目 题干 绘图仪是计算机的图形输出设备,分为两类,它们是______。选择一项: a. 平台式和滚筒式 b. 喷墨式和击打式

c. 平台式和立体式 d. 移纸式和卷纸式 反馈 正确答案是:平台式和滚筒式 题目3 正确 获得1分中的1分 标记题目 题干 CMOS、BIOS都安装在______。 选择一项: a. 系统总线 b. CPU c. 主板 d. 机箱 反馈 正确答案是:主板 题目4 正确 获得1分中的1分 标记题目 题干 计算机的内存容量可能不同,而计算容量的基本单位都是______。选择一项:

b. 字节 c. 字 d. 位域 反馈 正确答案是:字节 题目5 正确 获得1分中的1分 标记题目 题干 把计算机用于科学计算,它的最显著优势在于______。选择一项: a. 运算速度快和运算结果精密准确 b. 能进行逻辑判断 c. 高度自动化 d. 具有记忆能力 反馈 正确答案是:运算速度快和运算结果精密准确 题目6 正确 获得1分中的1分 标记题目

老师上课用的计算机辅助教学的软件是______。选择一项: a. 系统软件 b. 应用软件 c. 操作系统 d. 文字处理软件 反馈 正确答案是:应用软件 题目7 正确 获得1分中的1分 标记题目 题干 微型计算机的内存储器______。 选择一项: a. 按二进制位编址 b. 按字长编址 c. 按字节编址 d. 按十进制位编址 反馈 正确答案是:按字节编址 题目8

中文信息处理的应用的研究报告

中文信息处理的应用研究报告 在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。 “中文信息处理”一词是从20世纪70年代流行起来的,实际上,自古以来,中文信息处理工作源远流长。可以说,自从有了中文(汉字),即相应地出现了中文信息处理的工作。从开始编制第一部汉字字典和编写第一篇文摘起就开始了中文信息的分析与综合处理的研究。然而,现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学。中国要实施先进的信息处理技术手段,中文信息化是一项重要的资源开发工作。中文信息网已逐渐成为我国现代化社会的神经系统,它将促进人民文化和社会生产效率迅速提高。中文信息处理工程已建立起现代化中文语言文字信息系统,使凝聚在语言文字中的知识信息发挥更大效能,使汉语汉字得到最佳利用。 计算机中文信息处理技术从70年代至今,经历20多年,完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。 现在,许多移动电话都已具备中文菜单和显示中文短信息功能,但都有缺陷,还不是真正意义上的“全中文”。只有当它既能显示中文又能输入和处理中文,也就是说,能直接利用手机进行中文输入时,才可以说是“全中文”。然而,一般移动电话仅有数字键,这无疑对汉字数字输入法(简称数字码)提出了很迫切也是很高的要求。顺便说一下,在WAP技术成为新的热点之时,连英文也面临着需要编码输入的严峻事实。 当前,美国、日本及我国香港特区都在大力发展一种双向寻呼机,它同时具有输入功能,即,它同样也面临着中文处理问题。还有电子词典,如何高效、规范化地利用电子字典查找汉字和单词,也是只能各位信息处理应该解决的问题。

中文信息处理 教学大纲

课程名称:中文信息处理 课程类别:专业课程 授课对象:计算机科学与技术专业 学分:3学分 指定教材:朱巧明等,《中文信息处理技术教程》,清华大学出版社,2005年一、教学目的: 本课程的教学目的是使学生掌握中文信息处理的基本原理,熟悉基本“字符”层面和基于“内容”层面的研究内容、方法、技术和手段。熟练理解并掌握计算机对中文的输入、存储、输出和应用处理的过程,学习基本的机器学习理论与方法。 本课程对计算机科学与技术的学生有着承前启后的作用,综合结合运用前导课程,又为毕业设计和将来研究生学习或工作奠定扎实基础。本课程的直接前导课程有《C语言程序设计》、《面向对象程序设计》、《数据结构》和《操作系统》。 二、教学任务: 本课程主要教学任务如下: 1了解中文信息处理与信息处理的关系,主要研究内容与对象,目前主流的研究技术、手段与方法; 2掌握中文信息处理中的汉字代码体系,熟悉主要的中文字符编码与集合,熟悉因特网上的汉字交换码以及编码与解码技术; 3深刻理解中文操作系统和中文平台的地位,掌握汉字输入码、机内码、地址码、字形码、地址码、交换码之间的关系;了解主流的中文操作系 统的发展趋势 4学习汉字编码的方法,理解中文输入的原理,掌握Windows上汉字键盘输入系统的实现方法,了解Linux中文输入的实现机制。 5学习目前主要的三种汉字字形技术,重点掌握点阵字库的原理,压缩方法,以及显示技术。 6理解汉字显示和打印的工作原理以及工作过程。 7理解中文分词的意义,地位、以及主要应用,掌握交集型歧义和组合型歧义的区别,了解基本的解决歧义的方法,能够实现一种中文自动分词 算法。 8对中文信息检索、分类、抽取等有较深刻的认识,了解需要解决的问题,以及主流的技术方法。了解基本的机器学习理论,以及常用的数学模型。 三、教学内容 第一讲中文信息处理概论(一) 1. 教学内容

中文信息处理论文

搜索引擎 摘要:Internet 上日新月异的大量信息资源充斥,人们对信息的需求越来越多,各式各样的搜索引擎应世而生,然而随着大数据的到来,这对搜索引擎提出更高要求。但是面对这么大量的数据,一般的搜索引擎有些吃不消,不能满足人们的需求,然而基于自然语言处理技术的智能搜索引擎出现了,本文将介绍搜索引擎用到自然语言处理技术去。 关键字:搜索引擎,自然语言处理,概念控制 Search engine (*********************) Abstract: Changing a lot of information on the Internet is full of resources, people d emand more and more information, a variety of search engines shoul d the world was born, but with the arrival of big data, which is the search engine, higher demands. But the face of such a large amount of data, general search engines too much for some, can not meet people's needs, however, based on natural language processing technol ogy, smart search engines appeared, this article describes the search engine to use natural language processing technol ogy. Keyword: search engine,Natural Language Processing, Control Concepts 1 搜索引擎 1.1搜索引的擎定义 搜索引擎,是指在Internet中主动搜索信息并能自动查询、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Web Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。 1.2搜索引擎的分类 在搜索引擎的发展过程中,出现了各式各样类型的搜索引擎。根据索引方法来划分,可以分为基于概念(Concept Based)的搜索引擎:和基于关键字匹配(Keyword Based)的搜索引擎等。根据搜索引擎索引、检索信息的方式来分,可以分为:基于目录的搜索引擎、基于机器人的搜索引擎、分布式搜索引擎、基于客户的搜索引擎、元搜索引擎和代理搜索引擎;根据搜索引擎索引信息的范围来划分,可以分为:综合式搜索引擎、专题式搜索引擎和特殊型搜索引擎;

信息技术基础第一章复习题

信息技术基础第一章复习题 填空题: 一.信息及特征 1.信息是指、、中所包含的意义。 2.信息的载体有。 二.信息的编码 1.二进制代码 (1)二进制数是由“”和“”两个数字组成,运算规则是“” (2)将十进制整数转换成二进制整数可用“除二取余”法,将二进制数转换成十进制数可用 “”法。 (3)二进制转换成十六进制:从二进制的位开始,每位二进制数转换成一位十六进制数。反之,十六进制转换成二进制时,每一位十六进制数转换成四位二进制数。 2.ASCII编码 编码即美国国家信息交换标准码,该编码使用位二进制数,由个代码组成。 其中数字、字母是按顺序依次排列的。存储设备在存储ASCII码时,占用一个字节的右7位.最左位 用“”填充。 3.汉字编码 (1)汉字在计算机内也是以代码形式表示的,这些代码称为汉字编码,常见的汉字编码有 GB2312、GBK、GBl8030,其中最常用的编码是GB2312,用个字节表示一个汉字。 (2)码是利用汉字的音、形或其他相关特征对指定汉字集编制的代码,包括:音码、形码、 音形码、形音码等。 (3)交换码用于各种数字系统之间的汉字信息的通信交换,又称区位码。在计算机中.用第一个 字节标记码,第二个字节标记码。 (4)处理码是计算机内部用于信息处理的汉字代码,也称汉字码。 (5)汉字输出显示和打印的字形有两种表现方式:点阵方式和矢量方式,对字形的编码称为____ 码。 (6)用UltraEdit或WinHex工具软件观察内码时,ASCII码(英文字符)只占个字节.汉字 编码占个字节。 4.多媒体信息的编码 多媒体信息数字化就是将模拟的多媒体信息以计算机能够处理的二进制数进行编码的过程。 (1)声音信号是通过和实现模拟量的数字化。采样频率越,量化的分辨率 越,所得数字化声音的保真程度越,但是它的数据量也越。 (2)位图所占空间除了它的像素点的个数之外,还与它的颜色种类的多少有关,表示颜色种类越 多,色彩越逼真,存储的空间越大。位图的图像存储空间的计算公式为: 存储量= ××/8(单位:字节)。 (3)视频是由连续的图像帧组成,常见的有、、SECAM等三种视频播放制式。 三.信息技术及影响 1.信息技术的发展及影响 信息技术的发展已经成为影响人类社会的一种趋势,出现了计算机、计算机、网格计算、、数字地球和智能化社区、因特网和以下一代因特网、虚拟现实的实用化为代表的一些新技 术。

中文信息处理

中文信息处理技术浅谈 摘要:随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。广泛的应用对中文信息处理技术也提出了较高的要求。本文从主流技术、新技术展望等,对中文信息处理技术进行了初步探索。 关键词:中文信息处理N元模型语音识别词性标注 中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言:但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。 一、中文信息处理的特点及难点 中文信息处理在许多方面有自己的特点。 1、汉字的特殊性 西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。 2、书面汉语的特殊性 书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。 3、汉语语音的特殊性 汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面, 也有不利的一面。 4、汉语语法的特殊性 汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得

同济大学中文信息处理期末试卷

同济大学中文信息处理期末考试A卷 课程名称:中文信息处理专业:计算机科学与技术、信息安全 学号:姓名:成绩: 一、填空题: 1、分词单位是指汉语信息处理使用的、具有确定的语义或语法功能的基本单位,包括和少量。 2、所谓框架,是由、、和组成的抽象数据结构。 3、机械分词方法无法解决分词阶段的两大问题—— 和,影响了分词的准确率。 4、对于语法分析而言,自动标注的性能采用性能来衡量较好。 5、对于齐次的马尔可夫过程而言,一旦知道了它的 和,它的统计性质,即它的任意有限维分布就完全确定了。 6、若将词的生成过程看作一个HMM,其中构成一个时齐的马尔可夫过程,而则服从多项概率分布。 7、在上下文无关(CFG)规则库中出现的符号包括:终结符和非终结符。通常地,终结符就是,非终结符就是。 8、将一个句子映射到它的的过程称为语义解释。 9、动词及其参数之间存在一组抽象的语义关系,这些关系一般称为。 10、自然语言处理是领域与领域中的一个重要研究方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 二、简答题: 1、什么是自然语言理解,什么是自然语言生成?请列举三个自然语言研究的应用领域。 2、请运用树结构形式表示下面句子的结构。

那位老人在公园散步。 3、在语义分析阶段,采用选择限制法消除歧义的基本思想是什么? 三、请描述下面句子采用逆向最小匹配分词的过程(设MAXL=4)。 他的确切地址在这里。 四、请根据下面的语法规则,给出下面句子的双向图语法分析过程。 他是好学生。 语法规则如下:(#pronoun表示pronoun是触发类) ⑴ NP ?#pronoun ⑵ NP ?#noun ⑶ NP ?#adj noun ⑷ VP ?#verb ⑸ SUBJ ?#NP ⑹ PRED ?#VP NP ⑺ S ? SUBJ #PRED 五、请根据给定的语法规则、ACTION表和GOTO表,写出对下面句子进行LR语法分析的过程。 句子:He is a *.(其中*表示未登录词) 语法规则: (1) S ? NP VP (2) S ? S PP (3) NP ? *n (4) NP ? *det *n (5) NP ? NP PP (6) PP ? *prep NP (7) VP ? *v NP

第1章 习题答案

第一章习题答案 1.问答题 (1)计算机的发展经历了哪几个阶段?各阶段的主要特征是什么? 答:根据计算机所采用的电子元件不同可划分为:电子管计算机、晶体管计算机、集成电路计算机和大规模超大规模集成电路计算机等四个阶段。 第一代计算机主要特点是:内存容量非常小;计算机程序设计语言为机器语言;尚无操作系统出现,操作机器困难。它体积庞大、造价昂贵、速度低、存储容量小、可靠性差、不易掌握,主要应用于军事目的和科学研究领域的狭小天地里。 第二代计算机主要特点是:采用了晶体管的电子元件;内存储器容量扩大到几十万字节;计算机软件有了较大发展,出现了监控程序并发展成为后来的操作系统;推出了Basic、Fortran、Cobol高级程序设计语言。主要应用范围由单一的科学计算扩展到数据处理和事务管理等其他领域。 第三代计算机的特点是:体积、重量、功耗进一步减小,运算速度、逻辑运算功能和可靠性进一步提高;软件在这个时期形成了产业;出现了分时操作系统;提出了结构化、模块化的程序设计思想,出现了结构化的程序设计语言Pascal。这一时期的计算机同时向标准化、多样化、通用化发展。 第四代计算机的特点是:磁盘的存取速度和容量大幅度上升;体积、重量和耗电量进一步减少;计算机的性能价格比基本上以每18个月翻一番的速度上升;操作系统向虚拟操作系统发展,数据库管理系统不断完善和提高,程序语言进一步发展和改进,软件行业的发展成为新兴的高科技产业;计算机的应用领域不断向社会各个方面渗透。 (2)未来计算机发展的趋势是什么? 答:现代计算机的发展表现为两个方面:一是巨型化、微型化、多媒体化、网络化和智能化5种趋向;二是朝着非冯·诺依曼结构模式发展。 (3)计算机的特点是什么? 答:①处理速度快 ②计算精度高 ③存储容量大 ④可靠性高 ⑤工作过程的全自动化 ⑥适用范围广,通用性强 (4)计算机的类型有哪些? 答:①按其处理数据的形态分为:数字计算机、模拟计算机、混合计算机 ②按其使用范围分为:通用计算机、专用计算机 ③按其本身性能分为:超级计算机、大型计算机、小型计算机、微型计算机、工作站 (5)简述计算机的应用领域。 答:计算机具有存储容量大、处理速度快、工作全自动、可靠性高,同时又具有很强的逻辑推理和判断能力等特点,所以已被广泛应用于各种学科领域,并迅速渗透到人类社会的各个方面,同时也进入了家庭。计算机应用已形成一门专门的学科,这里只对应用的几个主要方面作简单介绍。

《中文信息处理》复习提纲

《中文信息处理》复习提纲第一章汉字信息处理 一、填空: 汉字的属性信息包括字量、字频、字序、字形、字音。 二、现代汉语用字排列的顺序 1、义序法 2、音序法 3、形序法 三、GB2312-80:中国《信息交换用汉字编码字符集·基本集》 四、什么是汉字字形识别输入? 也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统告诉自动输入的手段和根本出路,是汉字中文信息处理的一种好办法。五、自动字形识别输入的类型。 汉字识别的类型主要分三大类:联机手写汉字识别、印刷体汉字识别和手写汉字识别。 1、汉字手写汉字识别,又称实时手写汉字识别,人用笔在图形输入板上写字,机器隔着认。 2、印刷体汉字识别包括单体印刷体汉字识别和多体印刷体汉字识别两小类。 (1)单体印刷体汉字识别是识别印刷在纸上的一种印刷体汉字。 (2)多体印刷体汉字识别是同时识别印刷在纸上的宋、仿宋、楷、黑等多种字体的印刷体汉字。 3、手写汉字识别,又称通用手写汉字识别,是识别人写在至上的规整汉字。一般限制为楷书,笔画数要正确,要写于方格中。 六、汉字识别的基本思想与步骤。 1、汉字识别的基本思想是匹配识别。 2、步骤: 第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中,形成已知的汉字库。 第二步用图形输入板或光电设备(如图文扫描、光导摄像管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。 第三步将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。最后在机器存贮的标准汉字模式表达形式的集合中,找出最接近汉字输入特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。 七、汉字语音识别输入的定义。 汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语言特征,实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。 八、语音识别的类型 1、按使用人分类,有特定人语音识别和非特定人语音识别 (1)特定人语音识别指使用前由使用者对系统进行训练,让系统记住事先选好的字或词的发音特征,识别时由这个使用者将字或词读进系统。 (2)非特定人语音识别是供许多人使用的系统,使用者不用对系统进行训练。系统要能听懂任何人说的话,就必须让系统获取许多人说话的共性特征,并在处理中进行强化,是许多人说的同一语音的特征有极高的稳定性,对不同的语音有极大的区别度。 2、按词汇量分类,有小词汇量语音识别、中词汇量语音识别和大词汇量语音识别。 小词汇量指几十个字或词,中词汇量指几百个字或词,大词汇量指几千甚至上万的字或词。 3、按发音方式分类,有孤立词语音识别和连续语音识别。(1)孤立词语音识别指识别时将字或词孤立地读进系统。(2)连续语言识别指语言识别时将整个句子连续读进系统。要求系统既具备处理连续造成地同化、异位、脱落、换位等音变问题的能力,又具有通过语义、语法知识分析得出正确识别效果的能力。 另外,还有使用环境优劣的区分,也就是指噪声轻重情况。目前噪声下的语音识别还只是在初步研究阶段。通常所说的语音识别都是有较好的使用环境。 九、汉字编码的类型。 拼音编码、字形编码、音形编码。 十、汉字编码的原则 1、社会学原则 汉字编码研究的目的之一时为了信息处理技术的普进,这一普及首先要面向教育。汉字输入系统进入中小学课堂是培养跨世纪人才的根本大计,教学的规范化相应地要求汉字编码研究的规范化。在规范化的前提下,将中小学的“识字、定字、查字、打字”教学统一起来。 汉字是我国悠久历史文化的一个特征,研究汉字的分解原则,必须联系我国社会的文化背景。人们称说汉字的习惯有着深厚的群众基础,之所以能相沿习用,必有其合理的一面。现在,中文信息处理在拆分汉字,设计汉字编码方案时,就要充分考虑到这种文化传统和社会基础。2、汉字学原则 汉字编码作为汉字的计算机语言或代码,必须准确而简洁地反映和体现汉字地特点和规律。在实际过程中,容

中文信息处理重点题目及解答

中文信息处理 ①信息:是物质世界存在的形式、状态及各种关系,是与物质、能量共同构成世界的三大要素之一。具有主观和客观双重属性。中文信息,是特指以汉语言文字为载体形式的信息。从宏观角度看,一类是自然性信息,一类是社会性信息。 ②信息处理:就是用计算机对各种信息符号进行输入、转换、存储、传输、分类、排序、统计、分析、重组等加工过程。 ③中文信息处理:是利用计算机对中文(包括口语和书面语)进行输入、转换、传输、存储、分析、加工的科学。中文信息处理技术已到社会生活的各个方面,汉字/汉语信息处理。 ④代码:汉字的代码有:汉字输入码、汉字内部码、汉字交换码、汉字地址码、汉字字形码和汉字控制功能码。从汉字代码的角度看,一个汉字信息处理系统,就是一个进行汉字代码转换的过程。中文代码包括内部码和外部码两大类,内部码是中文在计算机系统内部进行处理和传输的代码,外部码作为人机接口由用户给计算机输入信息时使用的代码。 *中文计算机操作系统使用的代码系列一共三种,七位代码系列,八位代码系列和双八位代码系列。中文信息内部处理代码包括存储码、运算码、传输码。 (是程序员用开发工具所支持的语言写出来的源文件,是一组由字符、符号或信号码元以离散形式表示信息的明确的规则体系。) ⑤编码:是以固定的顺序排列字符,并以此做记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。 A.计算机通讯技术领域对所处理信息的字符集序号序列的排序原则和代码赋值方式,也是“机内码”的编码。 B.专指计算机键盘输入汉字的代码设计与实现,简称外码或人机界面编码。 汉字编码:广义的汉字编码就是汉字排检法,即确定一个排序规则使全部汉字成为有序的集合,以便能按照排序规则检索到所需要的汉字。狭义的汉字编码特指采用通用键盘上的字母数字为汉字编制代码,以便实现汉字的计算机输入。 *静态编码:指把汉字作为等概率的离散字符进行的编码,不考虑汉字的使用频率。 动态编码:是根据汉字的使用频率进行信息编码,如传输码、处理吗都采用动态编码。 ⑥字符集:字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集。计算机对字母和符号采用国际上通用的ASCII码来编码,标准的ASCII码用7位二进制数编码,字符存放时采用一个字节,规定最高位为0,这样可以表示128个字符。 ⑦汉字三种类型输入法: A.键盘输入方法使用已有西文键盘,通过编码输入。分整字输入方法和编码输入方法。 B.非键盘输入方式:如识别输入,包括汉字识别输入和语音识别输入。 C.数字键盘编码输入。 汉字输入计算机的途径:A.通过计算机的键盘人工输入B.计算机自动识别 汉字的自动识别级汉语的语音自动识别 ⑧汉字属性:是汉字作为记录汉语的书写符号所具有的形、音、义等属性。其研究和属性库的建立,具有特别重要的理论意义和实践意义。汉字的信息属性是汉字作为信息载体所具有的所有属性,包括传统的形音义,频率、分布、构词等。对汉字属性的传统认识是针对形音义三要素,现代对汉字信息属性认识有字量、字形、字音、字序四种。 ⑨汉字属性库: 从关系数据库的结构出发,任何一个层级的分类都可作为数据结构中的一个属性项,所有的

试论中文信息处理与现代汉语语法

试论中文信息处理与现代汉语语法 论文关键词:中文信息处理现代汉语语法句处理 论文摘要:用计算机来处理汉语信息包括“字处理”、“词处理”和“句处理”三个阶段。“句处理”是实现自然语言的处理与理解这一关键性的技术难关。其中遇到的问题比较多:词性的判断;短语、句子的结构分析;歧义现象分析等等,最根本的方法是语言学家尽可能地把语言中的这些现象通过归纳、分析、总结出规律,再用形式化的方式描述出来,以便利于计算机处理。 用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。“字处理”、“词处理”分别与汉字和词汇有关,在此主要谈谈“句处理”。 句处理的主要内容是,怎样使计算机理解自然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合自然语言规则的句子。“句处理”所需要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题,许多问题在人看来还是比较容易解决的,但计算机就解决不了。也有一些问题,本身在学术界就有不同的观点,那么,就给中文信息处理增加了更大的困难。 用计算机来处理中文信息,遇到了很多困难,从现代汉语语

法的角度来看,主要有以下一些问题: 一、词性的判断 由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能,不同的词,词性意义可能不同,同一个词出现在不同的地方,词性意义也可能不同,汉语中,大多数词有固定的词性,但有些词的用法比较特殊。例如: 1.他花了十块钱买了一盆花。 2.你用那个锁把门锁上。 3.他比雷锋还雷锋。 这三个句子中分别有两个“花”、“锁”、“雷锋”。但它们只是音同、形同,词性和意义都不同。句子1中的第一个“花”是动词,“花费”的意思,第二个“花”是名词,“植物”的意思。句子2中的第一个“锁”是名词,即“锁子”的意思,第二个“锁”是动词,是“锁住”的意思。句子3中第一个“雷锋”是名词,表示人名,第二个“雷锋”是形容词,表示“雷锋的精神、品质等”。具有一定语言知识的人大体上都能分清它们的区别。从传统语言教学的角度来讲,句子1中的两个“花”是词形、读音相同,但词性和意思都不一样,且两个“花”的意思之间没有联系,所以属于同音词。句子2中的两个“锁”,也是词形、读音相同,词性和意思都不一样,但两个“锁”意思间有联系,所以属于兼类词。句子3中的两个“雷锋”词形、读音相同,词性和意思都不一样,意思也有

相关主题