基于划分矩阵的多任务聚类算法

来源 :贵州民族大学 | 被引量 : 0次 | 上传用户:ksxxccna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类在机器学习中有很长的历史及广泛的应用。聚类的目的是将数据点划分为多个簇,使得同一个簇中的数据相似性较大,不同簇中的数据差异性较大。在目前的机器学习中,大部分的方法都局限于单任务。在单任务中,数据样本的独立同分布假设是成立的,我们将它们称为单任务聚类。但是很多时候单个任务中的数据非常有限,不足以挖掘出一个良好的聚类结构。如果只是简单的将多个单任务数据集组合在一起,然后使用传统的单任务聚类方法并不一定能提高聚类性能,因为这些数据的分布是不同的,这违反了单任务聚类中的独立同分布假设。为了解决这一问题,把聚类的应用场景从单任务学习扩展到多任务学习,即多任务聚类。然后通过在相关任务间迁移它们之间的共享信息来提高各个任务的聚类性能。本文的研究内容主要是针对多任务数据集的聚类,因此需要挖掘并利用任务之间的相关性来提高聚类性能。通过对大量多任务聚类算法的深入研究,我们发现了一些问题与不足,因此本文结合多任务学习的优势与经典的单任务聚类方法来实现多任务聚类。在经典的LSSMTC算法基础上提出了两种多任务聚类算法:划分矩阵和约束的共享子空间多任务聚类算法和自步划分矩阵和约束的共享子空间多任务聚类算法。(1)本文是在LSSMTC算法的基础上进行了改进,考虑到LSSMTC算法中对划分矩阵的约束仅仅只是非负,不太符合划分矩阵聚类的物理意义。因此本文在此基础上将非负约束改进为和约束,使之凸显出聚类划分矩阵的物理意义并提高聚类的性能。提出了划分矩阵和约束的共享子空间多任务聚类算法,并采用了新的优化方法优化划分矩阵。通过在多个多域文本数据集上的实验表明,改进的和约束条件能有效的提高算法的聚类性能。(2)划分矩阵和约束的共享子空间多任务聚类算法虽然取得了良好的聚类效果,但为了解决该算法在非监督条件下遇到的非凸性问题,我们提出了自步划分矩阵和约束的共享子空间多任务聚类算法。该算法在同时执行任务内聚类与任务间聚类的基础上,又加入了由易到难训练样本的自步学习框架来优化模型。实验结果表明,我们在解决了非凸性问题的同时,在一定程度上提高了聚类性能。
其他文献
近年来,医疗题材的纪录片开始不断出现,一些纪录片作品被高度誉为现象级的作品,中国对于医疗题材的纪录片的制作相较以前的弱势地位有了很大的改观。如今人们生活水平日益提高,对于医疗条件有着越来越高的需求,医疗题材纪录片承担着正确客观向公众传播中国医疗条件的重要职责,也搭建着医生患者之间相互理解的桥梁。当下我国内镜微创学科目前已达到国际先进水平,而国内对于内镜题材的医疗题材纪录片记录较少,缺乏真实客观的影
PD-1(程序性细胞死亡1)作为免疫抑制性受体表达于活化的T、B、NK细胞和巨噬细胞表面。采用抗体阻断PD-1与其配体的结合近年来成为对付癌症非常有效的免疫治疗手段。然而,由于抗体Fc和免疫细胞表面的Fc受体介导的免疫清除效应会严重干扰抗PD-1抗体的治疗效果。因此,发展缺失Fc片段或Fc功能的抗体或抗体片段成为研究方向之一。纳米抗体是源自骆驼重链抗体可变区的单域抗体,不具备Fc片段,作为潜在的P
随着人工智能时代的到来,人机交互逐渐从接触式交流向语音互动转变。部分语音产品已经实现了与人类进行简单语言沟通的功能。且交流的语言从英语、汉语等主流语言向维吾尔语、粤语等小众语言发展。在少数民族语言中苗语占比较大,目前,国内外学者在苗语语音收集、对比和声韵母分析等方面有了一定的研究,但在苗语语音的核心方法(语音识别、语音合成)研究上成果较少。因此,本文以贵州省中部苗语作为研究对象,分别在音素级语音语
我国的高铁经过几十年的努力发展,已经处于世界领先水平。但是,随着动车组运行速度越来越快,牵引电流越来越大,动车组接地回流问题越来越严重。动车组接地回流会造成轴承电蚀、加剧接地碳刷磨耗等现象,严重威胁动车组的安全运行。因此,研究动车组运动工况下接地回流分布特性并且提出优化方案抑制接地回流意义重大。本文首先对动车组接地回流研究现状和研究意义进行了详细说明,其次介绍了高速动车组的主要组成部分,并阐述了动
劳动关系中整体上是资强劳弱的局面,但与用人单位相比,一小部分劳动者的话语能力开始变强,也就是并非所有劳动者都处于弱势地位,另外劳动者们相对于用人单位的弱势程度也各不相同,在此背景下,提出在加深对劳动者认识的前提下对劳动者实行分层保护,根据不同劳动者的弱势程度在具体法律制度上为更多劳动者提供更适当的保护,促进劳动关系的和谐发展。本文即是在前人研究的基础之上,对“劳动者分层保护”的进一步研究,本文共四
接触网是电气化铁路供电系统的重要组成部分,具有为电力机车输送电能的关键作用。近年来,随着非接触式检测技术的飞速发展,接触网支持装置零部件的故障检测精度和智能化水平得到了极大的提升,但2D图像数据存在自身应用的局限性,在复杂接触网场景中,各腕臂间存在遮挡现象,不完备图像特征严重影响了零部件智能定位识别精度;对于接触网小目标零部件,由于局部图像像素较低,零件图像特征不明显,导致识别精度下降。针对上述问
毒品滥用是由来已久的社会问题,严重危害人体健康、家庭和睦与社会安定。在法医毒理学毒品检验的过程中,对毒品及其主要代谢产物进行快速、准确的检测分析至关重要。但由于毒品在人体内代谢和毒理作用复杂,并且含量随时间延长会逐渐降低。因此,有必要建立生物检材中毒品及其主要代谢产物的高效分析方法。而以液-液萃取为代表的传统样品预处理技术普遍存在步骤繁琐、耗时耗力、所用有机溶剂量大等缺点,为了解决这一问题,分析化
白蚁(Isoptera)是一类典型的植食性昆虫,在对枯枝落叶搬运入巢并取食降解后,最终产生了丰富的草酸盐“池”。鸡枞菌(Termitomyces albuminosus)是一类与白蚁共生的大型真菌,属于担子菌类,鸡枞菌科和鸡枞菌属。白蚁与鸡枞菌形成了白蚁-鸡枞菌-草酸盐降解细菌精细互作的生态关系,当白蚁搬迁后,遗弃菌圃不再生长鸡枞菌,却转而长出炭角菌,这一现象迄今未有合理的解释,其中所蕴含的科学道
基于课堂观察的高中地理课堂教学评价研究,是地理教师专业发展的应然需要、是改善学生课堂学习的实然需要,同时也是提升地理课堂有效发展的必然需要。就地理学科而言,无论是评价教师对地理知识的呈现与总结,还是判断学生地理核心素养的达成,地理课堂教学评价都是其重要的基础与手段,而地理课堂观察作为观察课堂教学中各教学行为的重要手段,为地理课堂教学评价提供了评价依据。论文主要分为五部分,首先,主要对国内外学者关于
网球运动结束后,满地散落的网球往往是人工拾取,现在市场上几乎没有智能拾网球机器人产品销售,其根本原因是拾球效率不高导致,提高机器人拾球效率仍有很多工作可做。本项目从拾球机器人结构、机器人系统架构、机器人位置定位与网球位置识别、拾球路径规划算法、拾球算法五个方面进行智能拾取网球机器人研制,已设计出一套智能拾球机器人系统,获得如下研究成果,该研究成果已向国家专利局申请发明专利与实用新型专利。(1)针对