摘要:随着数学、计算机科学以及统计学、生物学等的快速发展,促进了聚类算法的产生。聚类分析在数据的处理和分析当中有着举足轻重的作用,并且被广泛应用到多个领域,介于此人们发明出了聚类算法。这些算法可以被分为以划分方法为代表的多种多样的处理方法。今天我们着重来探讨一下基于划分的聚类算法的研究与应用。
关键词:划分方法;聚类算法;研究与应用
1 划分方法的基本概念及其常用的方法
划分方法(PAM: Partitioning method)的定义是首先创建 k 个划分,k为要创建的划分个数。常用的划分方法有:k-means, k-medics, CLARA(Clustering Large Application), CLARANS(Clus⁃ tering Large Application based upon Randomized Search). FCM。[1] 其中以k-means的使用最为普通,严格来说k—means属于非层次聚类法的一种,下面我们来看一下它的整个执行过程,一共分为两个部分,分别是初始化,循环。所谓初始化就是指选择或是人为指定某些记录作为凝聚点,但是要注意的一点就是按就近原则进行初始化的选择,而且要注意记录中心的数据,最后根据记录数据重新进行这一过程。一直不断地重复这一过程,直到凝聚点位置收敛为止。这种方法一般具有节省运算时间等特点。
2 具体的运算过程
2.1 数据预处理数据预处理是指我们在对数据进行正式的处理之前,要先对数据的整体进行一下估量,主要从数据的数量、范围、程度和既定标准这几方面入手,进行规划分类和简单的预测分析,然后再就每一个方面对整体数据的影响进行估量式判断,建立起一个预测模式。[2] 当然在我们有了明确的数据处理和分析结果时要将这一预测模式清楚,避免结果混淆。
2.2 定义距离函数聚类的产生是由于多个领域和数据之间存在着相似性,正是由于事物之间相似性的存在,才促生了聚类的算法。但是这些相似性的存在也极容易造成事物之间的混淆。所以给这些数据设置一个定义函数是非常有必要的。函数的设置是为了避免误差,所以在设置相似距离时一定要把握好度量,保持数据点之间的平衡,从而保证整个运算过程的准确性。
3 聚类方法的主要应用研究
聚类算法在实际应用过程中涉及多个行业发展。从商业、生物、地理、保险行业、因特网行业以及电子商务行业等都所有涉猎。
3.1 商业在商业市场的发展过程中,往往对于市场未知风险的预测是企业可持续发展的一个重要问题。如果企业能够有效的预测未来的市场风险,探究潜在的消费者动向,那么往往能够取得显著的利益。因此在当前阶段,聚类算法能够为企业研究消费者行为、探究潜在市场发展、选择实验室市场等奠定坚实的理论数据基础。
3.2 生物在生物行业发展过程中,由于现代化科学技术的发展,在进行生物学的研究过程中,基因数据库的容量大大提升,通过聚类算法能够有效的根据基因数据库的特点进行划分,使人们能够对种群的固有特征有显著的认识。
3.3 保险行业当前世界保险行业发展速度较快,而不同的行业所需要的保险种类略有区别。聚类算法能够根据不同的行业发展类型,制定相应的保险措施,为保险更好地发挥作用效果奠定基础。
4 总结
通过对聚类算法的研究和分析,我们清楚地了解了划分方法的原理以及其作用机制。加深了对划分方法的理解,也为聚类算法在更多领域的应用提供了完备的理论支持,与此同时也促进了聚类算法自身知识和体系的进一步完善和发展。最后,通过对目前阶段聚类算法的实际应用分析发现,其对于我们生活方式产生了极大的影响,其已经渗透到了人们生活的方方面面。
参考文献:
[1] 李荟娆. K-means聚类方法的改进及其应用[D]. 东北农业大学, 2014.
[2] 刘强, 王艳秋, 张健. 人工免疫聚类算法在交通时段自动划分上的应用[J]. 自动化博览, 2008(Z1).
《基于划分的聚类算法研究与应用》来源:《电脑知识与技术》,作者:何 宇。