基于密度峰和引力影响度的半监督聚类研究及应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:weiyuhang99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督聚类算法能够在未知数据样本集分类信息的情形下,挖掘数据样本集的内部结构信息,自动地把数据对象按照数据样本间的相似性划分为不同的类别。Rodriguez和Laio在2014年提出的DPC密度峰聚类算法,简单高效新颖,能够自动识别出聚类中心点,适用于不同形状的聚类分析且无需提前设置簇的数量,并且对实际场景中有关用户聚类分群等问题提供了一种新颖的解决方法。在实际场景中,数据样本集自身隐藏着一些已知并且有用的信息,半监督聚类算法就是通过一些已知类别标签的数据样本点信息以及更多没有类别标签的数据样本的整体分布,得到比无监督聚类更好的分类结果并且提高整体数据样本集的资源利用率。本文从分析DPC密度峰聚类算法在自动识别聚类中心点时存在聚类中心点选取不准确、数据样本点的簇划分错误导致“多米诺骨牌”效应降低聚类结果准确度的缺陷,结合实际应用场景中数据样本集存在一定数量的带有类别标签信息的数据样本点,研究无监督聚类算法融合带有少量类别标签信息的半监督聚类问题以及半监督聚类在旅游推荐系统的游客聚类分群中的应用问题。本文的研究核心工作主要概括如下:(1)利用少量的类别标签信息解决DPC算法中由于人工决策的参与导致自动识别聚类中心点不准确的问题。充分利用数据样本集中带有已知类别标签的数据样本点,对DPC算法中通过人工决策框图选取的所有可能的聚类中心点进行点点间欧氏距离计算,通过距离标准判别每一个有可能的聚类中心点的簇别,最终以投票方式进行精准校对和筛选,获取准确的聚类中心点。(2)DPC聚类算法中数据样本点簇的划分依靠比其局部密度较大的邻居点的簇信息,而导致“多米诺骨牌”效应降低聚类的准确性的缺陷,结合GSA引力搜索算法中样本对象间存在引力的思想,通过数据样本点间的引力大小衡量数据样本间的相关性程度,按照引力越大则属于同一簇的可能性越大的准则,改变DPC算法原本的簇划分方式,避免DPC聚类算法中“多米诺骨牌”效应,提高整体聚类的准确性,并提出一种基于密度峰聚类和引力影响度的新型半监督聚类算法。在数十个人工数据测试集和实际真实数据集上的实验结果表明:所提出的新型半监督聚类算有效合理,能获得比目前成熟且常用的半监督聚类方法更为精准的聚类结果。通过k近邻的思想进一步优化所提出的新型半监督聚类算法中的局部密度,使局部密度的定义更加的合理,进而提高整体聚类的准确性。(3)用所提出的新型半监督聚类算法解决旅游推荐系统中的游客聚类分群问题。将所提出的半监督聚类算法运用在实际的海南游客聚类分群的问题中,充分利用实际场景中的游客评价标记信息,提高整体资源的利用率以及获取游客聚类分群结果,为海南景区的建设提出有针对性的合理建议。
其他文献
投资要点 1、18年供需缺口进一步放大。2、板块整体估值低。煤炭需求在能源消费弹性恢复中继续回升,伴随工业制造业主动补库增速进一步上扬,但供给端产能与库存自然出清叠加
每年年报发布之际,总会有一些ST股摘帽,但也总有一些股票被戴帽或披星。关于摘帽炒作行情,我们谨慎参与,但对于一些风险股,我们则需要尽可能的去规避。  据Wind资讯统计显示,目前包括*ST川化等在内的15只ST股有可能被暂停上市,同时包括八一钢铁等在内的30只股票有可能戴帽。  15只ST股可能被暂停上市  根据Wind资讯数据统计,截至1月21日,沪深两市共有54只ST股,除了*ST川化、*ST
目的:对创伤性应激性消化道出血的预防和护理方法进行研究,为临床预防和治疗提供参考。方法:选取2011年3月~2012年3月于我院住院治疗和护理的创伤性应激性消化道出血患者96例,随机
目的探讨肺保护性机械通气条件下肺表面活性物质(PS)治疗新生儿呼吸窘迫综合征(NRDS)的效果及临床价值。方法采用气管内滴注单剂PS治疗NRDS患儿28例,并与同期未用PS治疗的20例NRDS
摘要:以氯化钨和氧化石墨烯(GO)为原料,乙醇为溶剂,一步合成了WO。纳米棒,石墨烯纳米复合材料(WO。/RGO).将WOs/RGO纳米复合材料用于锂离子电池负极,并通过充放电测试、循环伏安(CV)和电化
本文从科技类古籍和文史类古籍两个方面,谈及古籍文献中的科技信息资源及其开发利用.
目的测定大活络丸中去氢木香内酯的含量。方法薄层色谱法。结果测定方法的平均加样回收率为98.30%,RSD为1.90%(n=6)。结论该方法简便、准确、重现性好,可为该制剂质量控制提供参考。
投资要点 1、电广煤耗持续回升。2、产品价格持续上涨。环保监管持续从严,钢铁企业和煤焦企业停产、限产、错峰生产的措施将成为常态。前期焦炭价格在连续深跌后止跌回升,焦炭
针对传统稀疏匹配难以满足高精度三维建模需要,本文提出一种迭代三角网约束的近景影像密集匹配算法。与传统静态基于区域增长的“片一片”的匹配传播方式不同,本文采用动态三角
“分寸”是李长之批评实践里的高频词,由“分寸”生发而来的“分寸批评”是李长之文学批评的核心概念之一,“分寸批评”不仅是李长之试图达到的批评目标,还是一种理想的批评方法,一种恰适的批评标准,更是一种文学批评的典型范型。本论文就从“分寸”这一概念入手,探讨李长之分寸批评的基本内涵,分别从李长之分寸批评的理性追求,情感诉求,文化理想等角度入手分析李长之“分寸批评”的基本内涵,李长之的“分寸批评”追求理性