山西财经大学
硕士学位论文
聚类分析在数据挖掘中的应用
姓名:许存兴
申请学位级别:硕士
专业:统计学
指导教师:雷钦礼
20040510
各种类型的数据。
就现状而言,第一代数据挖掘系统仍未发展完全,第二代、第三代数据挖掘系统已出现。第二代、第三代数据挖掘和预言模型系统将与数据仓库合并,以提供一个集成的系统来管理同常的商业过程。
(五)、数据挖掘的过程
数据挖掘的过程可粗略地分为:问题定义、数据收集和预处理、数据挖掘算法执行,以及结果的解释和评估。(如图1.1所示)。
图1-1
(1)、问题定义
数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。在问题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实际工作对数据挖掘的要求;另一方面通过对各种学习算法的对比进而确定可用的学习算法。
(2)、数据收集和数据预处理
数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。
数据选取的冒的是确定发现任务的操作对象;即目标数据j是根据用户的需要从原始数据库中抽取的一组数据。