分类变量数据聚类内部评价及算法研究

来源 :北京科技大学 | 被引量 : 13次 | 上传用户:mylocoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对分类变量数据的聚类问题,从聚类结果的有效性评价入手展开研究工作,主要研究成果包括:(1)针对现有分类变量数据聚类有效性评价指标的适用性问题,分析了常用指标对类内紧密度和类间分离度的度量方法或所用假设,论证了仅考虑类内紧密度的有效性指标不适于层次聚类结果的评价,分析了类间分离度度量或假设的合理性对评价能力的影响。(2)针对聚类有效性内部指标评价能力的定量分析问题,提出了一种基于D-S证据理论的有效性指标评价能力相似性度量方法,由此发展出一种基于外部信息的内部指标评价能力度量方法,并用提出的方法对现有分类变量数据聚类有效性内部指标进行了评价能力分析,指出现有内部指标不能很好的满足评价需要。(3)针对现有分类变量数据内部指标评价能力不足的问题,提出了一种基于信息增益的类间分离度度量方法,进而提出了一种兼顾类内紧密度与类间分离度的分类变量数据聚类有效性内部指标CUBAGE。通过理论和实验对CUBAGE指标的评价能力和计算复杂度进行了分析,验证了 CUBAGE指标的优越性。(4)针对基于原型的划分式聚类算法聚类质量不足的问题,提出了 一种针对分类变量数据的无原型划分式迭代方法,进而提出了一种基于聚类有效性的划分式聚类算法k-CUBAGE。在证明该算法收敛的前提下,实验分析表明k-CUBAGE聚类算法具有快速收敛性、高聚类质量且结果更稳定。(5)针对随机初始划分造成的聚类结果不稳定的问题,提出了一种基于对象聚集度的初始类确定方法,该方法通过寻找对象更聚集且与其他类差异更大的初始类中心来确定初始类,消除了 k-CUBAGE聚类结果的随机性,并提高了聚类质量。
其他文献
<正>在当今书业,许多出版社的分工不再像过去那么细了,编辑被赋予了更多的"权力",要求更加"全才"——选题策划、组稿、编辑加工、绘图、排版、校对、封面设计,甚至印制,都属
<正>"好书要靠好作者"。作者对出版的重要性不言而喻,建设一支相对稳定、成熟、发展的作者队伍是做好出版工作的重要保证。当前,科技图书市场竞争非常激烈,竞争作者资源、维
本文对国内外饮用水消毒的研究现状进行了阐述,并且对我国常用的几种饮用水消毒技术进行了详细介绍,最后对消毒工艺的发展方向进行了合理展望,以期为饮用水消毒技术的研究提
<正>一、释义1、员工绩效指员工在某一时期基于既定工作目标的工作结果、工作行为和工作态度的总和。2、目标管理法指由员工与直接主管共同协商制定个人目标,个人的目标是在
根据城市商业综合体投资风险评价的相关理论,结合国内外学者在此方面的研究资料,采用层次分析法、灰色理论、模糊综合法相结合的方法定性定量地进行预测和评价,为城市商业综
随玻纤含量的提高,玻纤增强PA66会出现成型加工困难、容易“浮纤”、表面粗糙等缺点,严重影响制品外观,限制其应用。汽车外后视镜连接座作为汽车外饰功能件,要求采用60%玻纤
随着近十多年高等院校的连年扩招,目前我国毕业生人数连创新高,尤其是在全球性经济危机的大背景下,我国用人市场上出现了严重的供过于求现象,导致许多高校毕业生、尤其是女大
<正>不管是多大的户型,家中总会有些难以利用好的畸零空间,因此装修时一定得学会巧妙利用小空间,来扩容家的收纳量。对不同的畸零空间进行分析,通过一些多功能设计"抢占"地盘
以科学普及出版社为例,探讨了转企改制新形势下出版社党委如何更好地发挥作用,如何通过加强党的建设促进社会效益和经济效益提高,促进出版社的全面建设和发展。结合转企改制
目的探究在妇产科中运用SWOT分析法对提高护理管理质量的临床体会。方法选取2016年10月—2018年10月该院妇产科收治的71例患者,在护理过程中对所有患者实施SWOT分析法。对比