分享你我的资源分享我们的人生!

聚类算法的验证方法

cluster validity measures

2008-11-10
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。   聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。聚类分析的算法可以分为分裂法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。
源代码下载: 下载位置Code SoSo    DOWNLOAD


相关论文

BIRCH聚类算法优化及并行化研究

Research of BIRCH clustering algorithm optimization and parallelism

朱映辉 江玉珍

为了提高聚类质量,针对BIRCH算法中在聚类精度方面所存在的不足,提出了聚类特征树中的不同簇应使用不同阀值的思想,较好地改善了对体积相差悬殊的簇不能很好聚类的问题。并且深入地研究和分析了如何在集群系统中进行快速聚类,提出了自定义数据类型、采用数据并行思想和非均匀数据划分策略等几点改进意见。最后实验结果表明,通过改进能够获得比较理想的运行时间和加速比性能。[著者文摘]

To improve the quality ofclustering, consideringtheinsufficiency of clusteringprecisin which existsinthe BIRCH aglrithm, the idea of different threshold should be set in different cluster in CF-tree is implemented. An in-depth study and analysis is carried out on how to accelerate clustering in cluster system. Subsequently, some creative schemes such as custom datatype, data parallelism, and asymmetric data-partition are put forward. Finally, a result of the better performance is obtained after the improvement is verified by an experiment.[著者文摘]

基于流数据的模糊聚类算法

FUZZY CLUSTERING ALGORITHM BASED ON STREAMING DATA

龚静[1] 王翰虎[2]

对流数据进行有效聚类是一个吸引研究者很大注意力的问题。传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据。针对混合属性数据的特点,在借鉴Aclu Stream算法的基础上,提出了一种模糊聚类算法。算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量。模’糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类。第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定。实践证明:该算法是快速地有效的。[著者文摘]

Effective clustering of streaming data is attractive to researchers. The traditional clustering excavation algorithm is only suitable for the data of cardinal number value attribute or the data of pure classified attribute, and it is not suitable for data of mixed attribute. Considering the characteristic of the data of mixed attribute, a fuzzy clustering algorithm is presented based on the AcluStream algorithm. The differentiation of the streaming data is classified and measured. The quota attribute is measured by Euclidean space & Kazak Tanzania, and the qualitative attribute is measured by hamming. The fuzzy clustering algorithm has two steps. Firstly, the minimum clustering algorithm is applied to constitute an initial cluster. Secondly ,the initial cluster is clustered and segmented by density clustering to make the cluster set stable. The practice proves that the algorithm is effective and fast.[著者文摘]

基于遗传算法的硬聚类算法改进

Improvement of Clustering Algorithms Based on Genetic Algorithms

赵建民 管国权 王红艳

硬聚类算法HCM求解的结果通常都是局部的最优解,当模糊集合间的运算采用传统定义的时候,它的聚类结果中还会存在无意义的聚类集。本文通过研究表明,在HCM聚类算法中应用遗传算法,可以在一定程度上避免硬聚类算法收敛到局部最优解。因此,本文将遗传算法应用于硬聚类算法,并设计了相应的算法。但是,考虑到本算法实现时的开销和效率,又对该算法进行了改进,并最终提出一种新的算法——CHCM聚类算法。测试数据表明,采用改进后的聚类算法的结果90%以上能够取得全局的最优解,远远超过了采用硬聚类算法时所取得全局最优解的次数,证明了本算法的可推广性。

基于密度的空间聚类算法研究

Research of Spatial Clustering Algorithms Based on Density

聂跃光 陈立潮 陈湖

基于密度的聚类算法作为数据挖掘方法中的一种主要方法,不仅可以从数据集中发现任意形状的簇,而且可以观察到一个并发的、完整的聚类结构,以及具有对噪声数据不敏感的特点。针对目前常用的几种基于密度的聚类算法及改进算法进行讨论,分析了这些密度聚类算法各自的优缺点,并且以地理信息系统为应用研究背景,提出了基于密度的聚类算法与GIS相结合,通过对多维数据属性特征的提取,扩展到多维数据的处理,在三维空间地形数据中的分析中取得了高效的聚类结果。

蚁群聚类算法在物流配送中心选址中的应用研究

段华薇

本文提出了包含多个供货点和配送点的物流配送中心选址模型,并将物流配送选址问题分为供货和配送两个阶段,在其中分别应用蚁群聚类算法,实现了整个问题的最优化。这是一种基于蚁群聚类算法的分阶段求解包含多个供货点和配送点的物流配送中心选址算法。

增量式K—Medoids聚类算法

Incremental Clustering Algorithm Based on K-Medoids

高小梅 冯云 冯兴杰

聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。

SOM聚类算法在文本分类上的应用

丁露 崔平

随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。

基于增量DFT概要的数据流聚类算法

An algorithm for clustering data streams using incremental DFT

孔英会 安静 车辚辚 刘云峰

数据流聚类分析是数据流挖掘领域的重要分支。由于数据流海量、快速、动态到达,传统的静态数据挖掘技术不能满足在线分析的需求。数据流聚类的核心是设计单遍数据集扫描算法,在有限的内存中存储少量概要特征信息,实现数据流实时、在线聚类分析。采用数据流处理中广泛应用的滑动窗口模型,提出一种新的基于增量傅立叶变换(DFT)的数据流概要算法,并在此基础上运用k-均值(k-means)聚类,实现数据流的在线挖掘。基于增量DFT概要的数据流聚类算法可减少运行时间,节省内存空间,实际用电负荷数据证明了算法的有效性。

一种基于密度的快速聚类算法

周水庚 周傲英 等

聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。

基于广义信息距离的直接聚类算法

A Direct Clustering Algorithm Based on Generalized Information Distance

丁世飞 史忠植 靳奉祥 夏士雄

提出了基于广义信息距离的直接聚类算法.基于信息理论给出了离散量的基本概念,讨论并证明了离散量的一个基本不等式,进而给出了离散增量的概念.在分析距离测度的基础上,提出了广义信息距离(GID)、改进的广义信息距离(IGID),建立了基于GID,IGID的直接聚类算法,并对土地肥力数据资料进行了聚类分析.结果表明,建立的算法与传统的聚类算法相比,算法原理简便、对数据本身的维数与分布要求不高,且具有较好的聚类效果.


Please Click the Link of Reference to Download Source Code

评论

2009年05月06日 11时
我最需要的

2009年05月05日 02时
很好

2009年05月02日 12时
学习了

2009年05月01日 15时
good !

2009年04月24日 17时
good

2009年04月18日 19时
谢谢

2009年04月18日 09时
感谢分享!

2009年04月17日 15时
非常好!

2009年04月17日 01时
很不错。看看了

2009年04月05日 21时
学习一下

2009年04月05日 18时
这个非常之不错的

2009年03月25日 10时
xiexie

2009年03月25日 06时
不错

2009年03月25日 04时
很不错嘛!

2009年03月16日 19时
太谢谢了

2009年03月15日 16时
谢la

2009年03月13日 22时
谢谢

2009年03月09日 18时
看看

2009年03月04日 20时
都传上来了

2009年03月04日 06时
下了看看

2009年03月01日 12时
似乎不能下载啊

2009年02月24日 18时
good

2009年02月24日 10时
还不错

2009年02月24日 09时
thanks

2009年02月24日 08时
先表示感谢1

2009年02月19日 18时
xiexie啦

2009年02月06日 21时
谢谢