结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:whitesharke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用.通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来.作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点.然而,受收敛规则的影响,K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题.文中提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans.该算法采用数据对象的密度参数来逐步确定初始类簇中心,使用中心替换方法更新偏离实际位置的初始中心,因而比传统聚的类算法更加精确.为了获得最佳聚类效果,文中同时提出了一个能够对聚类结果进行有效评价的新聚类有效性指标SCVI和一个能够快速获得目标数据集最佳类簇数的新算法OCNS.实验结果表明,所提聚类方法对各种类型的数据集都是有效的.
其他文献
本文主要介绍一种利用电磁铁吸取减速顶调整垫的工具,该工具结构简单,使用方便快捷,在调整减速顶安装高度的维修作业中,能极大地节省时间和体力,提高维修作业效率.
高庆狮院士于2006年发表《新模糊集合论基础》专著,为消解模糊逻辑系列悖论进行逻辑理论基础探索;并于2009年在科学出版社发表《统一语言学基础》专著,为多语言计算前沿构造理论基础支撑.这两部专著在他的创新理论基础研究中为传世瑰宝.在悼念高庆狮院士逝世10周年之际,文中利用最新向量逻辑——变值体系,来展现在高老师的研究方向中元知识系统体系架构建模的最新进展.从向量逻辑出发,综合共轭结构、元知识模型以及各类新型处理机制,在现代逻辑和数学中判定一个复杂系统是否包含经典逻辑悖论,对保证该类系统能否存活起到核心判别
高职院校中青年中层干部队伍建设对学校事业发展和人才培养工作具有重大意义.从历史和现实的视角分析,高职院校中青年中层干部队伍目前存在结构不合理、政治素质不强、业务能力不高、担当意识不足等问题,与新时代高职院校“双高计划”建设的目标要求存在一定差距.因此,需要通过全面提升理论素养、提高思想政治工作水平、补齐能力素质短板、坚持正确的用人导向、完善监督考核机制等路径,探寻破解新时代高职院校中青年中层干部队伍困境的有效策略,为高职院校高质量发展提供坚实的队伍保障.
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务.在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法.近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量.使用wav2 vec预训练可以减少神经网络对数据量的依赖,提升系统的性能.使用wav2 vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提
在传统密码学应用中,人们总假定终端是安全的,并且敌手只存在于通信信道上.然而,主流的恶意软件和系统漏洞给终端安全带来了严重和直接的威胁和挑战,例如容易遭受存储内容被病毒破坏、随机数发生器被腐化等各种攻击.更糟糕的是,协议会话通常有较长的生存期,因此需要在较长的时间内存储与会话相关的秘密信息.在这种情况下,有必要设计高强度的安全协议,以对抗可以暴露存储内容和中间计算结果(包括随机数)的敌手.棘轮密钥交换是解决这一问题的一个基本工具.文中综述了密码本原——棘轮密钥交换,包括单向、半双向和双向等棘轮密钥交换的定
高职院校“双高计划”建设社会满意度调查从满意度理论、发展性评价性理论和生态位理论出发,总结社会满意度调查对于“双高计划”建设的重要意义,并以高水平学校的10项建设任务和高水平专业群的9项建设任务为调查对象,分析在校生、毕业生、教职工、用人单位和家长对各个建设任务的满意度量化值.通过综合分析各方需求,提出“双高计划”应始终坚持以学生为中心、打造高水平双师队伍、服务经济社会发展、注重内涵质量建设的发展理念,推动建设任务动态优化,为新时期高等教育的发展与改革提供新视角,彰显职业教育的内在价值.
依存句法分析旨在识别句子中词与词之间的句法依赖关系.依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能.训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型过拟合问题.文中针对低资源依存句法分析问题,提出了多种数据增强策略.所提方法通过同义词替换有效扩充了训练数据,缓解了未知词问题.通过多种Mixup的数据增强策略,有效缓解了模型过拟合问题,提高了模型的泛化能力.在(Universal Dependencies treebanks,UD tre
近年来,人工智能技术被广泛地应用于多个领域.其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用.然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果.相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的.针对这一应用现状,文中首先围绕“数据非均衡”问题开展了文献调研,尝试通过寻找该问题的通用解决办
科研是高等学校的重要职能之一,加强高职院校科研与社会服务能力是全面实现高职教育高质量发展的重要目标之一.选择论文、课题、专利、科研与社会服务经费等考察视角,对全国1386所高职院校现时科研与社会服务发展状况进行定量分析,发现高职院校的整体科研水平还处于比较低的阶段,校际之间、不同类型之间和不同省域之间,其发展水平也很不平衡,但已有一小部分高职院校表现突出.以后需要进一步提高对科研与社会服务重要性的认识,制定和完善科研与社会服务方面的相关制度,加强师资队伍建设,改善科研条件与环境,并根据各自发展特性及差异采
教学质量是高职院校的生命线,课堂教学质量是教学质量的基础.要提高高职院校教育质量,必须提高教师课堂教学质量.长期的督导听课评课实践证明,评价教师一堂课质量的优劣,必须关注教师“教什么”“怎么教”和“教的效果”,即教师是否根据人才培养方案确定符合学生实际接受能力的教学目标和教学内容,是否遵循课堂教学基本程序、明确教学目标、选择恰当的教学方法、突出重点和难点、提高学生学习兴趣,达到教书与育人的统一,以及是否以学生为主体,激发了学生学习积极性,实现了预期的教学目标等过程要素.只有这样才能作出客观公正的评价,才能