搜档网
当前位置:搜档网 › 序列模式挖掘两种典型算法的研究

序列模式挖掘两种典型算法的研究

文章编号:1009-2552(2016)11-0118-03 DOI :10.13274/https://www.sodocs.net/doc/b416382648.html,ki.hdzj.2016.11.029

序列模式挖掘两种典型算法的研究

张 亮1,赵 娜2

(1.中国石油大学(华东)网络及教育技术中心,山东青岛266500;2.山东省青岛市黄岛区建筑工程质量监督站,山东青岛266500)

摘 要:近年来,序列模式挖掘或序列挖掘已经成为数据挖掘的一个重要方面三序列模式挖掘是指从序列数据库发现相对时间或者其他顺序出现的频繁子序列三文中首先介绍了序列模式分析的基本概念,然后对序列模式的两种经典算法(GSP 算法和PerfixSpan 算法)进行了描述,之后对这两种算法进行了分析和比较,分析比较的结果对序列模式挖掘应用到Web 日志挖掘具有一定的参考价值三下一步的工作是进一步探讨算法的优化问题,主要研究如何缩小搜素空间,更好的提高算法效率三

关键词:序列模式;数据挖掘;算法;候选序列

中图分类号:TP301.6 文献标识码:A Research on two typical sequential pattern mining algorithm ZHANG Liang 1,ZHAO Na 2

(https://www.sodocs.net/doc/b416382648.html,work Information Center ,China University of Petroleum (East China ),Qingdao 266500,Shandong Province ,China ;

2.Construction Quality Supervision Station ,Huangdao District ,Qingdao City ,Qingdao 266500,Shandong Province ,China )Abstract :In recent years,sequence pattern mining has become an important aspect of data mining.Sequential pattern mining is frequently found in the relative time sequences or other order as they appear from the sequence database.This paper introduces basic concept of sequential pattern analysis.And then,the sequence patterns of two classical algorithms((GSP and PerfixSpan)are described,these two algorithms are analyzed and compared.The results have some reference value for the sequence pattern

mining applied to Web log mining.The following work is to explore further optimization algorithm.The main study how to reduce the search space and better improve the efficiency.Key words :sequential pattern;data mining;algorithm;candidate sequence 收稿日期:2015-11-30基金项目:中国石油大学(华东)2015年度高等教育研究基金(GJKT201502)作者简介:张亮(1981-),男,硕士,从事计算机信息和网络技术方

面的研究三0 引言

序列模式挖掘最早是由Agrawal 和Srikant 提出的[1-2],最早来源于零售业,它的最初动机是想通过在带有交易时间属性的交易数据库中发现频繁项目

序列以发现一时间段客户的购买活动规律三随着其

后的不断发展,其应用范围不仅局限于交易数据库,

在Web 日志序列模式挖掘二科学实验分析二复杂机

械系统监听诊断二入侵检测技术研究二DNA 序列模

式发现等领域也有很广泛的应用前景三近年来,序

列模式挖掘已经成为的Web 日志挖掘的一个重要

分支,即从序列模式挖掘出其频繁模式,发现用户请

求页面的序列模式三本文主要介绍序列模式分析及

GSP 和PerfixSpan 两种经典序列模式算法的原理二

基本流程,并对这两种算法进行比较和分析三1 序列模式分析给定一个输入数据序列的集合S ,序列模式挖掘是指找出所有满足用户指定的最小支持度min sup 的序列[3-4],每个这样的序列称为一个频繁序列三一个序列的支持度是指S 中包含有该序列的数 811 万方数据

相关主题