搜档网
当前位置:搜档网 › 一种基于子空间聚类的局部相关性可视分析方法

一种基于子空间聚类的局部相关性可视分析方法

第28卷 第11期

计算机辅助设计与图形学学报 Vol. 28 No.11 2016年11月 Journal of Computer-Aided Design & Computer Graphics Nov. 2016

收稿日期: 2016-04-29; 修回日期: 2016-07-25. 基金项目: 国家自然科学基金青年基金(61309009); 教育部博士点基金(20130162130001); 湖南省科技计划项目(2015JC3044). 夏佳志(1984—), 男, 博士, 副教授, 硕士生导师, CCF 会员, 主要研究方向为数据可视化、计算机图形学; 张亚伟(1991—), 女, 硕士研究生, 主要研究方向为数据可视化; 张 健(1974—), 男, 博士, 讲师, 论文通讯作者, 主要研究方向为网络安全、信息可视化; 蒋 广(1995—), 男, 在校学生; 李 瑞(1996—), 男, 在校学生; 陈 为(1974—), 男, 博士, 教授, 博士生导师, CCF 会员, 主要研究方向为科学可视化、信息可视化和可视分析.

一种基于子空间聚类的局部相关性可视分析方法

夏佳志1), 张亚伟1), 张 健1)*, 蒋 广1), 李 瑞1), 陈 为2)

1)

(中南大学信息科学与工程学院 长沙 410083) 2) (浙江大学CAD&CG 国家重点实验室 杭州 310058)

(211072@https://www.sodocs.net/doc/7913379350.html,)

摘 要: 数据子集局部存在的维度相关性往往被数据集全体所掩盖. 为了发现有意义的数据子集, 并揭示其表达的维度局部相关性, 提出一种局部相关性可视分析方法. 首先采用基于测地距离和局部子空间距离的二维散点图揭示子空间聚类模式; 然后基于近似覆盖面积和平均距离进行相关显著性估计, 给出可能具有局部相关性的二维子空间推荐; 最后实现了可视分析系统, 并通过案例分析验证了可视分析系统的有效性.

关键词:维度相关性; 子空间聚类; 可视分析; 高维数据

中图法分类号:TP391.41

Local Correlation Visual Analysis Based on Subspace Clustering

Xia Jiazhi 1), Zhang Yawei 1), Zhang Jian 1)*, Jiang Guang 1), Li Rui 1), and Chen Wei 2)

1)

(School of Information Science and Engineering , Central South University , Changsha 410083) 2) (State Key Laboratory of CAD&CG , Zhejiang University , Hangzhou 310058)

Abstract: The dimension correlations which exist in subset of data are often obscured in the full dataset. We propose a local correlation visual analysis approach to detect meaningful data subset and reveal local dimension correlations. First, a scatter plot is adopted to visually reveal the subspace cluster. The two dimensions of the scatter plot are defined based on geodesic distance and the distance between local subspaces correspondingly. Next, an estimation for correlation significance is proposed based on covering area and mean distance of the data. Subsequently, the 2-dimensional subspaces which reveal local correlations are suggested. Last, a visual analysis system is implemented and case studies demonstrates the effectiveness and efficiency of our system.

Key words: dimension correlation; subspace clustering; visual analysis; high-dimensional data

相关性分析是维度约减、维度抽取等高维数据

处理常用技术的基础, 是数据挖掘与高维数据可

视分析中的重要问题. 传统的维度相关性都定义

在数据集中的全体数据上, 体现了全局相关性. 但

在实际的数据集中, 维度之间的相关性往往存在

着数据上的局部性[1]. 如图1所示, 数据集中不同 的数据子集体现出不同的维度相关性. 在进行全局相关性分析时, 维度局部相关性往往被数据集全体所掩盖. 进一步, 只有具有内在联系的数据子集才能揭示有意义的维度相关性. 例如, 当支持局部相关性的数据子集构成一个聚类时, 其意义是清晰的; 反之, 在任意2个维度张成的平面上, 任取 万方数据

相关主题