搜档网
当前位置:搜档网 › 《教育学基础》期末考试试题

《教育学基础》期末考试试题

《教育学基础》期末考试试题
《教育学基础》期末考试试题

《教育学基础》期末考试试题

一、选择题(每题1分,共10分)

1、教育目的不具有(B)

A导向功能B激励功能C调控功能D评价功能

2、教育评价的核心是(B)

A价值判断B价值引领C客观描述D增值探索

3、下列教学方法中以语言传递信息为主的方法是(A)

A讲授法B演示法C实验法D研究法

4、教学活动的本质是(D)

A课堂活动B实践活动C交往活动D认识活动

5、被称为现代“教育学之父”的教育家是(B)

A夸美纽斯B赫尔巴特C杜威D赞可夫

6、学校管理的基本途径是(B)

A教学活动B沟通C教劳结合D协调

7、我国学校教学工作的基本组织形式是(C)

A个别教学B复式教学C班级授课D分组教学

8、“除数是小数的除法”,某老师把学生的回答的分12个馒头的计算板书出来12÷3=4(人),12÷2=6(人),12÷1=12(人),12÷0.5=24(人),这一做法体现了(C)

A巩固性原则B直观性原则C理论联系实际原则D因材施教原则

9、“活到老学到老”是现代教育(C)

A大众性B公平性C终身性D未来性

10、学校管理的目标和尺度是(C)

A经济收入B良好的公共关系C学校绩效D政治影响

二、填空题(共10分)

1、广义教育包括____、____、____。(社会教育、家庭教育、学校教育)

2、教育目的规定了把教育者培养成什么样的人,是培养人的______,是对受教育者的一个总的要求。(质量规格标准)

3、影响学生发展的因素___、___、___(家庭,学校,同辈群体)

4、影响教师专业发展的因素______、______、______、______。(社会环境、学校文化、个人经历、自我更新)

5、教学是__________共同组成的双边活动。(教师的教和学生的学)

6、____是教学必须遵循的基本要求。(教学原则)

7、教师的素养包括_________(思想品德修养、知识结构、能力结构)

8、教育评价的功能是多种多样的,但从根本上说是两大功能____和____。(教育功能、管理功能)

9、____是教师专业情意发展成熟的标志。(专业情操)

10、____是制订课程标准的思维起点,也是制订课程标准的核心依据。(课程性质)

三、名词解释(每题4分,共20分)

1、教育:教育是培养人的一种社会活动,它同社会的发展人的发展有着密切联系从广义上说,凡是增进人们的知识和技能影响人们的思想品德的活动,都是教育狭义的教育,主要指学校教育,其含义是教育者根据一定社会(或阶级)的要求,有目的有计划有组织地对受教育者的身心施加影响,把他们培养成为一定社会(或阶级)所需要的人的活动。

2、教学:教学是老师的教和学生的学组成的双边互动活动。

3、教学原则:教育原则是根据一定的教学目的的任务、遵循教学过程的规律而提出的教学工作必须遵循的基本要求和指导原理。

4、教育评价:教学评价是根据一定的客观标准对教学过程和教学结果所进行的价值判断。

5、教学风格:教学风格是教师在教学中表现出来的个性化较稳定的教学行为。

四、简答题(每题4分,共20分)

1、学生心理素质的结构

答:(1)学生的心理能力因素(2)学生的心理动力因素

(3)学生的适应性因素(4)学生的创造性因素

2、学生的本质

答:(1)学生是发展中心的人

(2)学生是一个完整的人

(3)学生是以学习为主要任务的人

3、教育的社会功能?

答:(1)教育发展的社会制约性

(2)教育的经济功能

(3)教育的政治功能

(4)教育的文化功能

4、教师要上好一堂课,必须注意

答:(1)目的明确(2)内容正确(3)方法恰当

(4)组织得好(5)积极性高

5、培养学生道德素质的措施

答:(1)提高学生的道德认识

(2)丰富学生的道德情感

(3)锻炼学生的道德意志

(4)训练学生的道德行为

五、论述题(每题15分,共15分)

谈谈现代教学评价改革发展的趋势

答:现代教学评价致力于促进学生个性的全面发展和弘扬学生人格的主动精神,更注重质的分析,把评价范围扩展到与学生发生紧密相连的徳、智、体等诸多方面,并以此作为衡量教学质量高低的标准。与此同时,现代教学评价的主题也由教师操作逐渐转移到让学生成为教学评价的积极参与者,以克服对教师的依赖,同时,也通过学生的自我评价发展学生的评价能力。

在评价类型上,传统教学评价比较重视总结性评价,而现代教学评价多重视形成性评价,力求在评价的过程中及时发现问题,从而及时调节教学行为方式。由此也是教学评价的功能发生重大的转折,具体表现在从过去着重评优劣,分等级,排名次的鉴定功能和选拔功能向侧重导向、改进、调节和激励的教育功能转变,为客观教育学目标服务。

在教学评价的技术上、方法上力求科学化。现代教学评价把各种定量的方法作为提高教学评价的科学的基础,同时,注重定性评价,多采用定性与定量相结合的方法。

六、案例分析(每题15分,共15分)

一位家长在星期一发现儿子上学时磨磨蹭蹭,遂追问是怎么回事,孩子犹豫了半天才道出实情。原来在上个星期二早上,班主任老师召开全班同学会议,用无记名的方式评选3名“坏学生”,因有两名同学在最近违反了学校纪律,无可争议地成了“坏学生”;而经过一番评选,第三顶“坏学生”的帽子便落在儿子头上。这个9岁的小男孩,居然被同学选出了18条

“罪状”。当天下午初二年级组长召集评选出来的“坏学生”开会,对这三个孩子进行批评和警告,要求他们写一份检查,将自己干的坏事都写出来,让家长签字,星期一交到年级组长手中。该家长当着孩子的面,没有表示什么,签了字便打发孩子去上学。随后,她打通班主任的电话,询问到底是怎么回事,班主任说:“你的孩子是班上最坏

的孩子,这是同学们用无记名投票的方式选出来的。”当她质疑这种方法挫伤脑筋孩子的自尊心时,老师却回答:“自尊心时自己树立的,不是别人给的”,并说他们不认为有什么不对,其目的也是为了孩子好。

自从这个9岁的孩子被评选为“坏学生”后,情绪一直非常低落,总是想方设法找借口逃学。问题:请用相关的德育教育原则对该班主任的做法进行批判。

答:这位班主任用无记名方式评选了3名“坏学生”,其用意是想以其严格要求学生,让学生引以为戒,想用此对学生进行教育,但这种做法违反了德育原则中“以积极因素克服消极因素”的原则,致使消极因素增长。身为一名教育工作者,应该在教育中因势利导,长善救失,运用名种形式,不断强化和发扬学生自身积极向上的一面,抑制或消除落后的一面

如有侵权请联系告知删除,感谢你们的配合!

数据库期末考试习题及答案

2004-2005学年第二学期期末考试 C 2002级计算机科学与技术专业《数据库原理与应用》课程试题一、选择题(15分,每空1分): 1.在数据库中,产生数据不一致的根本原因是____。 A.数据存储量太大 B.没有严格保护数据 C.未对数据进行完整性控制 D.数据冗余 2.相对于其他数据管理技术,数据库系统有①、减少数据冗余、保持数据的一致性、②和③的特点。 ①A.数据统一 B.数据模块化 C.数据结构化 D.数据共享 ②A数据结构化 B.数据无独立性 C.数据统一管理 D.数据有独立性 ③A.使用专用文件 B.不使用专用文件 C.数据没有安全与完整性保障 D.数据有安全与完整性保障 3.关系运算中花费时间可能最长的运算是____。 A.投影 B.选择 C.笛卡尔积 D.除 4.关系数据库用①来表示实体之间的联系,关系的数学定义是②。 ①A.层次模型 B.网状模型 C.指针链 D.二维表格数据 ②A.若干域(domain)的集合 B.若干域的笛卡尔乘积(Cartesian product) C.若干域的笛卡尔乘积的子集 D.若干元组(tuple)的集合 5.集合R与S的连接可以用关系代数的5种基本运算表示为________。 A.R-(R-S) B.σ F (R×S) C.空 D.空 6.在关系代数中,对一个关系做投影操作后,新关系的元组个数____原来关系的元组个数。 A.小于 B.小于或等于 C.等于 D.大于 7.下列SQL语句中,创建关系表的是____。 A.ALTER B.CREATE C.UPDATE D.INSERT 8.关系数据库设计中的陷阱(pitfalls)是指________。 A.信息重复和不能表示特定信息 B.不该插入的数据被插入 C.应该删除的数据未被删除 D.应该插入的数据未被插入 9.数据库的____是为了保证由授权用户对数据库所做的修改不会影响数据一致性的损失。 A.安全性 B.完整性 C.并发控制 D.恢复 10.事务是数据库进行的基本工作单位。如果一个事务执行成功,则全部更新提交;如果一个事务

数据挖掘试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

数据库期末考试试题及答案

数据库期末考试试题及答案 一、选择题(每题1分,共20分) 1(在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。 在这几个阶段中,数据独立性最高的是( A )阶段。 A. 数据库系统 B. 文件系统 C. 人工管理 D.数据项管理 2(数据库三级视图,反映了三种不同角度看待数据库的观点,用户眼中的数据库称为(D)。 A. 存储视图 B. 概念视图 C. 内部视图 D. 外部视图 3(数据库的概念模型独立于(A)。 A. 具体的机器和DBMS B. E-R图 C. 信息世界 D. 现实世界 4(数据库中,数据的物理独立性是指(C)。 A. 数据库与数据库管理系统的相互独立 B. 用户程序与DBMS的相互独立 C. 用户的应用程序与存储在磁盘上的数据库中的数据是相互独立的 D. 应用程序与数据库中数据的逻辑结构相互独立 5(关系模式的任何属性(A)。 A. 不可再分 B. 可再分 C. 命名在该关系模式中可以不惟一 D.以上都不是 6(下面的两个关系中,职工号和设备号分别为职工关系和设备关系的关键字: 职工(职工号,职工名,部门号,职务,工资) 设备(设备号,职工号,设备名,数量) 两个关系的属性中,存在一个外关键字为( C )。

A. 职工关系的“职工号” B. 职工关系的“设备号” C. 设备关系的“职工号” D. 设备关系的“设备号” 7(以下四个叙述中,哪一个不是对关系模式进行规范化的主要目的( C )。 A. 减少数据冗余 B. 解决更新异常问题 C. 加快查询速度 D. 提高存储空间效率 8(关系模式中各级范式之间的关系为( A )。 A. B. C. D. 9(保护数据库,防止未经授权或不合法的使用造成的数据泄漏、非法更改或破坏。这是指 数据的( A )。 A. 安全性 B.完整性 C.并发控制 D.恢复 10(事务的原子性是指( B )。 A. 事务一旦提交,对数据库的改变是永久的 B. 事务中包括的所有操作要么都做,要么都不做 C. 一个事务内部的操作及使用的数据对并发的其他事务是隔离的 D. 事务必须使数据库从一个一致性状态变到另一个一致性状态 11(下列哪些运算是关系代数的基本运算( D )。 A. 交、并、差 B. 投影、选取、除、联结 C. 联结、自然联结、笛卡尔乘积 D. 投影、选取、笛卡尔乘积、差运算 12(现实世界“特征” 术语, 对应于数据世界的( D )。 A(属性 B. 联系 C. 记录 D. 数据项 13(关系模型中3NF是指( A )。 A.满足2NF且不存在传递依赖现象 B.满足2NF且不存在部分依赖现象

数据挖掘考试题库完整

一、名词解释 1.数据仓库:是一种新的数据处理体系结构.是面向主题的、集成的、不可更新的(稳定性)、 随时间不断变化(不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。 2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP:OLAP是在OLTP的基础上发展起来的.以数据仓库为基础的数据分析处理.是共享多 维信息的快速分析.是被专门设计用于支持复杂的分析操作.侧重对分析人员和高层管理人员的决策支持。 4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据 仓库中的数据量的大小.同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如0-1) 以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。 6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属 性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP:OLTP为联机事务处理的缩写.OLAP是联机分析处理的缩写。前者是以数据库为基 础的.面对的是操作人员和低层管理人员.对基本数据进行查询和增、删、改等处理。 9.ROLAP:是基于关系数据库存储方式的.在这种结构中.多维数据被映像成二维关系表.通 常采用星型或雪花型架构.由一个事实表和多个维度表构成。 10.MOLAP:是基于类似于“超立方”块的OLAP存储结构.由许多经压缩的、类似于多维数组 的对象构成.并带有高度压缩的索引及指针结构.通过直接偏移计算进行存取。 11.数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要.并且能够得到和原 始数据相同的分析结果。 12.广义知识:通过对大量数据的归纳、概括和抽象.提炼出带有普遍性的、概括性的描述统 计的知识。 13.预测型知识:是根据时间序列型数据.由历史的和当前的数据去推测未来的数据.也可以 认为是以时间为关键属性的关联知识。 14.偏差型知识:是对差异和极端特例的描述.用于揭示事物偏离常规的异常现象.如标准类 外的特例.数据聚类外的离群值等。 15.遗传算法:是一种优化搜索算法.它首先产生一个初始可行解群体.然后对这个群体通过 模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体.并最终达到全局最优。 16.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程.使得在同一个 簇中的对象之间具有较高的相似度.而不同簇中的对象差别较大。 17.决策树:是用样本的属性作为结点.用属性的取值作为分支的树结构。它是分类规则挖掘 的典型方法.可用于对新样本进行分类。 18.相异度矩阵:是聚类分析中用于表示各对象之间相异度的一种矩阵.n个对象的相异度矩 阵是一个nn维的单模矩阵.其对角线元素均为0.对角线两侧元素的值相同。 19.频繁项集:指满足最小支持度的项集.是挖掘关联规则的基本条件之一。 20.支持度:规则A→B的支持度指的是所有事件中A与B同地发生的的概率.即P(A∪B).是 AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。 21.可信度:规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A).

数据库期末试卷

浙江工业大学 《数据库原理及应用》 一、填空题 1、SELECT Name,Tele FROM Person 的作用是。 2、数据独立性是指数据与应用程序之间不存在相互依赖关系,分为 和。 3、用树型结构表示实体类型及实体间联系的数据模型称为层次模 型。 4、提供数据库定义、数据装入、数据操纵、数据控制和DB维护功能的软件称为 _ 数据管理系统 _。 5、在关系代数中专门的关系运算包括、、、除等。 6、关系数据库的第一范式保证列的原子 性。 7、一个数据库由若干个表组成,关系的元组称为,属性称为。 8 久性。 9、数据字典通常包括数据项、数据结构、数据流、数据存储和处理过程5个部分。 10、并发操作带来的数据不一致性包括三类:丢失覆盖修改、 不可重复读、 读”脏数据。 11、管理信息系统的四种结构模式为:单机模式、、 和。 12、数据管理技术经历了:人工管理阶段、文件管理阶段以及数据库系统阶段 三个发展阶段。

14、实体之间的联系按照联系方式的不同可分为一对一或1:1 、 一对多或1:n 、___ 多对多或m:n 。 15、E-R图中包括__实体、____ 属性和联系三种基 本图素。 16、数据模型由三部分组成:模型结构、数据操作、数据约束条件 。 17、事务必须具有的四个性质是:原子性、一致性、隔离性和持久 性。 18、基本的封锁类型有排它锁和共享锁两种。 19、DB并发操作通常会带来三类问题,它们是丢失修改、不一致分析和读脏数据。 20、数据库系统可能发生的故障有:事务内部的故障系统故障、和介质故障等。计算机病毒 21、按转储时间来分,数据转储可分为静态转储和动态转储两种方式。 22、列举三种管理信息系统开发的方法:结构化开发方法、__原型方 法_ _____、 面向对象方法。 23、一个学生可以同时借阅多本图书,一本图书只能由一个学生借阅,学生和图书之间的联系为一对多联系。 二、判断题 1、关系中允许有重复的元组,但是不允许有重复的属性名。() 2、关系代数的运算对象是关系,但运算结果不是关系。() 3、连接操作可以多个表之间进行,也可以在一个表内进行。() 4、触发器是一种很有效的保证数据库完整性的手段。() 5、对于关系R、S,如果R-S的元组数是0,则说明R中包含了S的所有元组。 ()6、设关系R、S的元组数分别是20、30,则R和S连接的元组数不可能超过50。 () 7、数据库中的每一个基本表与外部存储器上一个物理文件对应。() 8、一个数据库可以有多个外模式和多个内模式。() 9、概念模型向关系模型转换时,实体间的n:m联系可以有两种转换方法,一

sql数据库期末考试题及答案

一、单选题(共 10 道试题,共 50 分。)V 1. SQL Server中,保存着每个数据库对象的信息的系统表是( C)。 A. sysdatabases B. Syscolumns C. Sysobjects D. Syslogs 2. 在存在下列关键字的SQL语句中,不可能出现Where子句的是(D )。 A. Update B. Delete C. Insert D. Alter 3. 在查询语句的Where子句中,如果出现了“age Between 30 and 40”,这个表达式等同于(A )。 A. age>=30 and age<=40 B. age>=30 or age<=40 C. age>30 and age<40 D. age>30 or age<40 4. 如果要在一张管理职工工资的表中限制工资的输入范围,应使用(D )约束。 A. PDRIMARY KEY B. FOREIGN KEY C. unique D. check 5. 记录数据库事务操作信息的文件是(D )。 A. 数据文件 B. 索引文件 C. 辅助数据文件 D. 日志文件 6. 要查询XSH数据库CP表中产品名含有“冰箱”的产品情况,可用( C)命令。 A. SELECT * FROM CP WHERE 产品名称 LIKE ‘冰箱’ B. SELECT * FROM XSH WHERE 产品名称 LIKE ‘冰箱’ C. SELECT * FROM CP WHERE 产品名称 LIKE ‘%冰箱%’ D. SELECT * FROM CP WHERE 产品名称=‘冰箱’ 7. 储蓄所有多个储户,储户能够在多个储蓄所存取款,储蓄所与储户之间是(D )。 A. 一对一的联系 B. 一对多的联系 C. 多对一的联系 D. 多对多的联系 8. SQL的聚集函数COUNT、SUM、AVG、MAX、MIN不允许出现在查询语句的( D)子句之中。 A. SELECT B. HAVING C. GROUP BY… HAVING D. WHERE 9. 列值为空值(NULL),则说明这一列( C)。 A. 数值为0

数据挖掘考试题库【最新】

一、填空题 1.Web挖掘可分为、和3大类。 2.数据仓库需要统一数据源,包括统一、统一、统一和统一数据特征 4个方面。 3.数据分割通常按时间、、、以及组合方法进行。 4.噪声数据处理的方法主要有、和。 5.数值归约的常用方法有、、、和对数模型等。 6.评价关联规则的2个主要指标是和。 7.多维数据集通常采用或雪花型架构,以表为中心,连接多个表。 8.决策树是用作为结点,用作为分支的树结构。 9.关联可分为简单关联、和。 10.B P神经网络的作用函数通常为区间的。 11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等几个步 骤。 12.数据挖掘技术主要涉及、和3个技术领域。 13.数据挖掘的主要功能包括、、、、趋势分析、孤立点分析和偏 差分析7个方面。 14.人工神经网络具有和等特点,其结构模型包括、和自组织网络 3种。 15.数据仓库数据的4个基本特征是、、非易失、随时间变化。 16.数据仓库的数据通常划分为、、和等几个级别。 17.数据预处理的主要内容(方法)包括、、和数据归约等。 18.平滑分箱数据的方法主要有、和。 19.数据挖掘发现知识的类型主要有广义知识、、、和偏差型知识五种。 20.O LAP的数据组织方式主要有和两种。 21.常见的OLAP多维数据分析包括、、和旋转等操作。 22.传统的决策支持系统是以和驱动,而新决策支持系统则是以、建 立在和技术之上。 23.O LAP的数据组织方式主要有和2种。 24.S QL Server2000的OLAP组件叫,OLAP操作窗口叫。 25.B P神经网络由、以及一或多个结点组成。 26.遗传算法包括、、3个基本算子。 27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合 类型等。 28.聚类分析中最常用的距离计算公式有、、等。 29.基于划分的聚类算法有和。

数据库期末考试试卷A卷.docx

数据库期末考试试卷 A 卷 时间: 90 分钟总分: 100 分 题次一( 50 分)二( 40 分)三( 10 分)总( 100 分) 得分 注:请大家在试卷上注明自己的学号。 :一、选择题。(每题 2 分,共50 分) 名题号12345678910 姓答案 题号11121314151617181920 答案 题号2122232425 答案 1、 ACCESS 数据库是()。 A 、层状数据库 B、网状数据库 C、关系型数据库 D、树状数据库 2、在 ACCESS 数据库中,数据保存在()中。 A 、窗体 B、查询 :C、报表 号D、表 学3、数据库系统的核心是() A 、用户 B、数据 C、数据库管理系统 D、硬件 4、关系数据库中,一个关系代表一个() A 、表 B、查询 C、行 D、列 5、 ACCESS 数据库文件的扩展名是()。 A 、 DBF :B、 DBT C、 M DF 级 D、 MDB 班 6、关系类型中的“一对多”指的是()。 A 、一个字段可以有许多输入项 B、一条记录可以与不同表中的多条记录相关 C、一个表可以有多个记录 D、一个数据库可以有多个表 7、数据库文件中包含()对象。 A 、表 B、查询 C、窗体 D、以上都包含 8、在 ACCESS 的下列数据类型中,不能建立索引的数据类型是()。 A 、文本型 B、备注型 C、数字型 D、日期时间型 9、如果某一字段数据类型为文本型、字段大小为8,该字段中最多可输入()个汉字 A 、 8 B 、 4 C、 16 D 、32 10、在定义表字段时,输入掩码向导只能处理哪两种字段类型()。 A 、文本和数字B、文本和日期型 C、数据和日期型 D、货币和日期 11、下列哪一个不是设置“关系”时的选项()。 A 、实施参照完整性B、级联更新相关字段 C、级联追加相关记录 D、级联删除相关记录 12、如果字段内容为声音文件,可将此字段定义为()类型。 A 、文本B、查阅向导C、 OLE 对象D、备注 13、在表设计视图中,如果要限定数据的输入格式,应修改字段的()属性。 A 、格式B、有效性规则C、输入格式 D 、输入掩码 14、一般情况下,以下哪个字段可以作为主关键字() A 、基本工资 B 、补贴C、职工姓名D、身份证号码 15、级联删除相关记录的含义是() A、删除主表中的记录,将删除任何相关表中的相关记录 B、删除相关表中的记录,将删除主表中的记录 C、只能删除“一对一”表中的相关记录 D、不能删除“一对多”表中的相关记录 16、文本型字段最多可以存放()个字符。 A 、250B、 10C、 254D、 255 17、下面有关主键的叙述正确的是()。 A、不同的记录可以具有重复的主键值或空值 B、一个表中的主键何以是一个或多个 C、在一个表中的主键只可以是一个字段 D、表中的主键的数据类型必须定义为自动编号或文本 18、下面有关ACCESS 数据库的叙述正确的是() 1

数据库期末试题附答案

《数据库原理》课程考试模拟题四 一、单项选择题(在每小题的四个备选答案中选出一个正确答案。本题共16分,每小题1分) 1. 在数据库中,下列说法()是不正确的。 A.数据库中没有数据冗余 B.数据库具有较高的数据独立性 C.数据库能为各种用户共享 D.数据库加强了数据保护 2. 按照传统的数据模型分类,数据库系统可以分为( )三种类型。 A.大型、中型和小型 B.西文、中文和兼容 C.层次、网状和关系 D.数据、图形和多媒体 3. 在数据库的三级模式结构中,( )是用户与数据库系统的接口,是用户用到的那部分数据的描述。 A.外模式 B.内模式 C.存储模式 D.模式 4. 下面选项中不是关系的基本特征的是( )。 A. 不同的列应有不同的数据类型 B. 不同的列应有不同的列名 C. 没有行序和列序 D. 没有重复元组 5. SQL语言具有两种使用方式,分别称为交互式SQL和( )。 A.提示式SQL B.多用户SQL C.嵌入式SQL D.解释式SQL 6. 设关系模式R(ABCD),F是R上成立的FD集,F={A→B,B→C},则(BD)+为( )。 A.BCD B.BC C.ABC D.C 7. E-R图是数据库设计的工具之一,它适用于建立数据库的( )。 A.概念模型 B.逻辑模型 C.结构模型 D.物理模型8. 若关系模式R(ABCD)已属于3NF,下列说法中( )是正确的。 A.它一定消除了插入和删除异常 B.仍存在一定的插入和删除异常C.一定属于BCNF D.A和C都是 9. 解决并发操作带来的数据不一致性普遍采用( )。 A.封锁技术 B.恢复技术 C.存取控制技术 D.协商 10. 数据库管理系统通常提供授权功能来控制不同用户访问数据的权限,这主要是为了实现数据库的( )。 A.可靠性 B.一致性 C.完整性 D.安全性 11. 一个事务一旦完成全部操作后,它对数据库的所有更新应永久地反映在数据库中,不会丢失。这是指事务的( ) 。 A. 原子性 B. 一致性 C. 隔离性 D. 持久性 12. 在数据库中,软件错误属于( )。

数据库期末考试模拟试题及答案(一)

四、程序设计题(本大题共2小题,每小题15分,共30分) 1.对于教学数据库的三个基本表 学生student (sno,sname,sex,sage,sdept) 学习sc(sno,cno,grade) 课程course(cno,cname,cpno,ccredit) 试用SQL语句表示:下列语句。 (1)"查询全男同学信息情况" "select * from student where sex='男'" (2)"查询选修了1号课的学生的学号和成绩" "select sno,grade from sc where cno='1'" (3)"查询所有选修过课的学生的姓名,课程名及成绩" "select sname,cname,grade from student,sc,course where student.sno=sc.sno and https://www.sodocs.net/doc/3d7879786.html,o=https://www.sodocs.net/doc/3d7879786.html,o" (4)"查询选修了数据库原理课的最高成绩" "select max(grade) as '最高成绩' from student,sc,course where student.sno=sc.sno and https://www.sodocs.net/doc/3d7879786.html,o=https://www.sodocs.net/doc/3d7879786.html,o and cname='数据库原理'" (5)查询所有选修了1号课程的同学的姓名" " select sname from student where student.sno in (select sc.sno from sc where cno='1')" 2.设有一个SPJ数据库,包括S,P,J,SPJ四个关系模式(20分)供应商表S(SNO,SNAME,STATUS,CITY); 零件表P(PNO,PNAME,COLOR,WEIGHT); 工程项目表J(JNO,JNAME,CITY); 供应情况表SPJ(SNO,PNO,JNO,QTY);SPJ表 J表 S表 P表 请用关系代数完成如下查询: 1.求供应工程J1零件的供应商号 SNO 2.求供应工程J1零件P1的供应商号吗SNO 3.求供应工程J1零件为红色的供应商号码SNO 4.求没有使用天津供应商生产的红色零件的工程号JNO 5.求至少用了供应商S1所供应的全部零件的工程号JNO 1.∏sno(σJNO=‘J1’(SPJ)) 2.∏sno(σJNO=‘J1’ΛPNO=’P1’(SPJ)) 3.∏sno(σJNO=‘J1’(SPJ)∞σcolor=‘红’(P)) 4.∏jno(SPJ)-∏jno(∏sno(σcity=‘天津’(S))∞∏sno,jno (SPJ)∞∏jno σcolor=‘红’(P)) 5.∏jno, pno(SPJ)÷∏pno(σsno=‘s1’(SPJ)) 五、分析题(本大题共2小题,每小题15分本大题共30分) 1. 学生运动会模型: (1)有若干班级,每个班级包括: 班级号,班级名,专业,人数 (2)每个班级有若干运动员,运动员只能属于一个班,包括:运动员号,姓名,性别,年龄

最新数据挖掘试题(单选)

单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?(A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法?(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型:(D) A 标称 B 序数 C 区间D相异 15. 在上题中,属于定量的属性类型是:(C) A 标称 B 序数C区间 D 相异 16. 只有非零值才重要的二元属性被称作:( C )

数据库期末试卷和答案

数据库程序设计试题 1一、判断题(每题1分,共10分) 1、DB、DBMS、DBS三者之间的关系是DBS包括DB和DBMS。( ) 2、数据库的概念结构与支持其的DB的DBMS有关。( ) 3、下列式子R∩S=R—(R—S)成立。( ) 4、数据存储结构改变时逻辑结构不变,相应的程序也不变,这是数据库系统的逻辑独立 性。() 5、关系数据库基本结构是三维表。( ) 6、在嵌入式SQL语句中,主语句向SQL语句提供参数,主要用游标来实现。( ) 7、规范化的投影分解是唯一的。( ) 8、不包含在任何一个候选码中的属性叫做非主属性。( ) 9、在 Transact-SQL 语句的WHERE子句中,完全可以用IN子查询来代替OR逻辑表达式。 ( ) 10、封锁粒度越大,可以同时进行的并发操作越大,系统的并发程度越高。() 二、填空题(每空0.5分,共10分) 1、两个实体间的联系有联系,联系和联系。 2、select命令中,表达条件表达式用where子句,分组用子句,排序用 子句。 3、数据库运行过程中可能发生的故障有、和三类。 4、在“学生-选课-课程”数据库中的三个关系如下: S(S#,SNAME,SEX,AGE),SC(S#,C#,GRADE),C(C#,CNAME,TEACHER)。 现要查找选修“数据库技术”这门课程的学生姓名和成绩,可使用如下的SQL语句:SELECT SNAME,GRADE FROM S,SC,C WHERE CNAME= 数据库技术AND S.S#=SC.S# AND。 5、管理、开发和使用数据库系统的用户主要有、、 。 6、关系模型中可以有三类完整性约束:、 和。 7、并发操作带来数据不一致性包括三类:丢失修改、和。 8、事务应该具有四个属性:原子性、、隔离性和持续性。 9、数据库运行过程中可能发生的故障有事务故障、和三类。 10、在“学生-选课-课程”数据库中的三个关系如下:S(S#,SNAME,SEX,AGE),SC(S#,C#,GRADE),C(C#,CNAME,TEACHER)。 现要查找选修“数据库技术”这门课程的学生姓名和成绩,可使用如下的SQL语句:SELECT SNAME,GRADE FROM S,SC,C WHERE CNAME= ‘数据库技术’AND S.S#=SC.S# AND。 11、数据库设计包括、、逻辑结构设计、物理结构设计、数据库实施、数据库运行和维护。 12、MS SQL Server提供多个图形化工具,其中用来启动、停止和暂停SQL Server的图形 化工具称为_________。 13 、SELECT语句中进行查询 , 若希望查询的结果不出现重复元组 , 应在SELECT子 句中使用____________保留字。 14、如果一个关系不满足2NF,则该关系一定也不满足__________(在1NF、2NF、3NF 范围内)。 15、数据库的物理设计主要考虑三方面的问题:______、分配存储空间、实现存取路径。 三、单选题(每题1分,共20 分) 1、在SQL中,关系模式称为() A、视图 B、对象 C、关系表 D、存储文件 2、要保证数据库逻辑数据独立性,需要修改的是( )

数据挖掘测试题

1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?A A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准?A (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC 3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?C A. 频繁模式挖掘 B. 分类和预测 页脚内容1

C. 数据预处理 D. 数据流挖掘 4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?B A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?A A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?A A. 探索性数据分析 B. 建模描述 C. 预测建模 页脚内容2

D. 寻找模式和规则 7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?B A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?C A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务? A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 页脚内容3

数据库期末考试试题及答案

一、选择题(每题1分,共20分) 1.在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。在这几个阶段中,数据独立性最高的是( A )阶段。 A. 数据库系统 B. 文件系统 C. 人工管理 D.数据项管理 2.数据库三级视图,反映了三种不同角度看待数据库的观点,用户眼中的数据库称为(D)。 A. 存储视图 B. 概念视图 C. 内部视图 D. 外部视图 3.数据库的概念模型独立于(A)。 A.具体的机器和DBMS B. E-R图 C. 信息世界 D. 现实世界 4.数据库中,数据的物理独立性是指(C)。 A. 数据库与数据库管理系统的相互独立 B. 用户程序与DBMS的相互独立 C. 用户的应用程序与存储在磁盘上的数据库中的数据是相互独立的 D. 应用程序与数据库中数据的逻辑结构相互独立 5.关系模式的任何属性(A)。 A. 不可再分 B. 可再分 C. 命名在该关系模式中可以不惟一 D.以上都不是 6.下面的两个关系中,职工号和设备号分别为职工关系和设备关系的关键字: 职工(职工号,职工名,部门号,职务,工资) 设备(设备号,职工号,设备名,数量) 两个关系的属性中,存在一个外关键字为( C )。 A. 职工关系的“职工号” B. 职工关系的“设备号” C. 设备关系的“职工号” D. 设备关系的“设备号” 7.以下四个叙述中,哪一个不是对关系模式进行规X化的主要目的( C )。 A. 减少数据冗余 B. 解决更新异常问题 C. 加快查询速度 D. 提高存储空间效率 8.关系模式中各级X式之间的关系为( A )。 A. B. C. D. 9.保护数据库,防止未经授权或不合法的使用造成的数据泄漏、非法更改或破坏。这是指数据的( A )。 A. 安全性 B.完整性 C.并发控制 D.恢复 10.事务的原子性是指( B )。 A. 事务一旦提交,对数据库的改变是永久的 B. 事务中包括的所有操作要么都做,要么都不做 C. 一个事务内部的操作及使用的数据对并发的其他事务是隔离的 D. 事务必须使数据库从一个一致性状态变到另一个一致性状态 11.下列哪些运算是关系代数的基本运算( D )。 A. 交、并、差 B. 投影、选取、除、联结 C. 联结、自然联结、笛卡尔乘积 D. 投影、选取、笛卡尔乘积、差运算

数据库期末考试试题及答案

数据库期末考试试题 ━━━━━━━━━━━━━━━ 一、填空共30题(共计30分) ━━━━━━━━━━━━━━━ 第1题(分)题号:2385 ORDER BY 子句实现的是【1】. 答案: =======(答案1)======= 排序 第2题(分)题号:2374 如果列上有约束,要删除该列,应先删除【1】 答案: =======(答案1)======= 相应的约束 第3题(分)题号:2394 在每次访问视图时,视图都是从【1】中提取所包含的行和列. 答案: =======(答案1)======= 基表 第4题(分)题号:2372

1.在增加数据文件时,如果用户没有指明文件组,则系统将该数据文件增加到【1】文件组.答案: =======(答案1)======= 主 第5题(分)题号:2371 查看XSCJ数据库信息的存储过程命令是【1】 答案: =======(答案1)======= sp_helpdb 第6题(分)题号:2392 创建视图定义的T-SQL语句的系统存储过程是【1】. 答案: =======(答案1)======= sp_helptext 第7题(分)题号:2379 1.表的外键约束实现的是数据的【1】完整性. 答案: =======(答案1)======= 参照 第8题(分)题号:2390 要进行模糊匹配查询,需要使用【1】关键字来设置查询条件.

答案: =======(答案1)======= LIKE 第9题(分)题号:2380 定义标识列的关键字是【1】. 答案: =======(答案1)======= identity 第10题(分)题号:2383 在进行多表查询是,必须设置【1】条件. 答案: =======(答案1)======= 连接 第11题(分)题号:2363 联系两个表的关键字称为【1】 答案: =======(答案1)======= 外键 第12题(分)题号:2382 用【1】字句可以实现选择行的运算. 答案:

数据挖掘试卷及答案

12/13 年第2学期《数据挖掘与知识发现》期末考试试卷及答案 一、什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。(20分) 数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。 步骤: 1)数据清理(消除噪声或不一致数据) 2) 数据集成(多种数据源可以组合在一起) 3 ) 数据选择(从数据库中检索与分析任务相关的数据) 4 ) 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 5) 数据挖掘(基本步骤,使用智能方法提取数据模式) 6) 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;) 7) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 二、元数据的定义是什么?元数据包括哪些内容?(20分) 元数据是关于数据的数据。在数据仓库中, 元数据是定义仓库对象的数据。 元数据包括: 数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义, 以及数据集市的位置和内容。 操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和审计跟踪)。 汇总算法,包括度量和维定义算法, 数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。 由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述, 数据划分, 数据提取、清理、转换规则和缺省值, 数据刷新和净化规则, 安全 (用户授权和存取控制)。 关于系统性能的数据,刷新、更新定时和调度的规则与更新周期,改善数据存取和检索性能的索引和配置。 商务元数据,包括商务术语和定义, 数据拥有者信息和收费策略。 三、在 O L A P 中,如何使用概念分层? 请解释多维数据模型中的OLAP上卷 下钻切片切块和转轴操作。(20分) 在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些 O L A P 数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。因此, O L A P 为交互数据分析提供了友好的环境。 上卷:上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。 切片:在给定的数据立方体的一个维上进行选择,导致一个子方。 切块:通过对两个或多个维执行选择,定义子方。

数据库期末考试部分试题

题型:选择 第一章 题型:名词解释 题目: 1)DB 答:DB是长期存储在计算机内、有组织的、统一管理的相关数据的集合。2)DBMS 答:DBMS是位于用户与OS之间的一层数据管理软件,它为用户或应用程序提供访问DB的方法。 3)DBS 答:DBS是实现有组织地、动态地存储大量关联数据,方便多用户访问的计算机硬件、软件和数据资源组成的系统,即采用数据库技术的计算机系统。4)数据独立性 答:应用程序和DB的数据结构之间相互独立,不受影响。 5)物理独立性 答:在DB的物理结构改变时,尽量不影响应用程序。 6)逻辑独立性 答:在DB的逻辑结构改变时,尽量不影响应用程序。 题型:问答 题目: 1)人工管理阶段的数据管理有哪些特点? 答:人工管理阶段主要有4个特点:数据不保存在计算机内;没有专用的软件对数据进行管理;只有程序的概念,没有文件的概念;数据面向程序。2)文件系统阶段的数据管理有哪些特点? 答:文件系统阶段主要有5个特点:数据以“文件”形式长期保存;数据的逻辑结构与物理结构有了区别;文件组织已多样化;数据面向应用;对数据的操作以记录为单位。 3)文件系统阶段的数据管理有些什么缺陷?试取例说明。 答:主要有3个缺陷:数据冗余;数据不一致性;数据联系弱。 例如:学校里教务处、财务处、保健处建立的文件中都有学生详细资料,如联系电话、家庭住址等,这就是“数据冗余”,如果某个学生搬家,就要修改3个部门文件中的数据,否则会引起同一数据在3个部门中不一致,产生上述问题的原因是这3个部门文件中的数据没有联系。 题型:填空 题目: 1)数据管理技术的发展,与________、________和________有密切的联系。 答:硬件、软件、计算机应用 2)文件系统中的数据独立性是指________独立性。 答:设备 3)文件系统的缺陷是:________、________和________。 答:数据冗余、数据不一致、数据联系弱 4)就信息处理的方式而言,在文件系统阶段,________处于主导地位,________只起着服从程序设计需要的作用;而在数据库方式下,________占据了中心位置。

数据挖掘考试题库

1.何谓数据挖掘?它有哪些方面的功能? 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。 数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些? 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有: ①简单堆积结构 ②轮转综合结构 ③简单直接结构 ④连续结构 3.简述数据仓库设计的三级模型及其基本内容。 概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。 逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。 物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。 提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。 4.在数据挖掘之前为什么要对原始数据进行预处理? 原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。 为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。 5.简述数据预处理方法和内容。 ①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。 ②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲 突问题和冗余问题等。 ③数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的 重构。 ④数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 6.简述数据清理的基本内容。 ①尽可能赋予属性名和属性值明确的含义; ②统一多数据源的属性值编码; ③去除无用的惟一属性或键值(如自动增长的id); ④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的) ⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果) ⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额) ⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。 7.简述处理空缺值的方法。 ①忽略该记录; ②去掉属性; ③手工填写空缺值; ④使用默认值; ⑤使用属性平均值; ⑥使用同类样本平均值; ⑦预测最可能的值。 8.常见的分箱方法有哪些?数据平滑处理的方法有哪些? 分箱的方法主要有: ①统一权重法(又称等深分箱法) ②统一区间法(又称等宽分箱法) ③最小熵法 ④自定义区间法 数据平滑的方法主要有:平均值法、边界值法和中值法。

相关主题