改进的聚类算法在电子商务中的应用

资料来自用户(Aylin)上传,若本站收录的文献无意侵犯了您的著作版权,请点击版权申明
导师姓名
刘晓强
学科专业
软件工程
文献出处
南昌大学   2019年
关键词
数据挖掘论文  聚类分析论文  算法论文  初始值论文
论文摘要

随着科技的进步,带给了人们很多便捷,现在的人们足不出户就可以在网上通过移动设备购买自己心仪的商品。但是,带给人们便捷的同时,也使我们处在了一个信息漫天飞的时代,我们想要从数据中找到有价值的数据真是难上加难。人们通常会使用聚类分析去对数据进行划分,这样很大程度地缩短了我们搜索信息的时间,K-means算法就是其中比较常用的一种,但是K-means算法在处理一些特殊数据的时候还时常会暴露出其缺点。鉴于k-means算法存在的一些缺点,本文将从三个方面对k-means算法进行改进。(1)传统的k-means算法使用欧式距离去计算数据之间的差异性,(2)k-means算法中k值的模糊性和主观性,(3)k-means算法计算聚类中心不会去衡量类与类之间的联系,会被噪声数据影响且性能还不是很好。本文将采用改进的k-means算法去对数据集进行分类,改进后的算法将使用变异系数法去确定每个坐标的权重,以及通过人们比较认同的方式,对数据的坐标进行加权去验证上述变异系数法应用在计算数据之间距离的可行性。通过函数关系去确定k值。通过计算类之间的距离,再去确定哪些类放在一起进行下一次聚类中心的计算。使用变异系数法去计算数据之间的距离,能更加体现人们对于不同商品的侧重点,变异系数会通过科学的计算去计算出不同商品的每个变量的权重,从而使商品在聚类上达到最优的结果。通过函数关系去确认K值,这个函数是由类成员到各自中心点的距离和以及每个聚类中心到所有类成员中心(计算所有类成员的均值作为类成员中心)的距离和组成,当这个函数的值取到最小值时即:聚类最为合理,那么这个时候的k值就是理想的k值。优化寻找中心点的性能,主要是考虑了类与类之间可能存在的差异性比较大,那么对于差异性比较大的类不应该放在一起进行下一次中心点的计算,因为,差异性比较大,它们的中心点只会在它们类本身变化,而且这样做的好处就是,很大程度地减少了噪声数据对于正常数据的影响。

论文目录
关闭目录

摘要

Abstract

第1章 绪论

1.1 研究的目的和意义

1.2 研究的历史和现状

1.2.1 聚类分析的发展过程

1.2.2 聚类分析在电子商务中的应用研究现状

1.3 论文结构和研究方法

1.3.1 论文结构

1.3.2 本文研究方法

第2章 聚类和k-means算法基本知识

2.1 聚类定义

2.2 聚类的数据结构

2.3 传统的k-means算法

2.4 传统的K-means存在的缺点

2.5 聚类评价和标准

2.6 本章小结

第3章 改进后的k-means算法及应用

3.1 变异系数法确认权重

3.1.1 变异系数法

3.1.2 变异系数法加权欧式距离在电子商务中的应用

3.2 本章小结

第4章 对比改进后的k-means算法

4.1 加权欧式距离性质

4.2 证明改进算法的正确性

4.3 本章小结

第5章 具体的代码实现

5.1 Bean类

5.2 具体实现类

5.3 主类(main)

5.4 本章小结

第6章 k值的确认和寻找中心点的性能优化

6.1 问题的提出

6.2 K值的确定

6.2.1 概念的定义

6.2.2 优化k值的方法

6.3 寻找中心点的性能优化

6.3.1 问题提出

6.3.2 具体做法

6.3.3 修改后的算法流程

6.3.4 核心代码及实验分析结果

6.4 本章小结

第7章 本文总结和展望

参考文献

附录

致谢

在线阅读全文下载
在线阅读全文下载