基于谱双向聚类的半监督文本聚类算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wqfzqgkvbavba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步,人们获取信息、分享信息变得更加便捷,但是也带来了另一个困扰,海量的文本数据远远超出了正常人的阅读和获取信息的能力。文本聚类作为文本挖掘的一个重要分支,存在大量的使用场景,比如数据挖掘、信息检索、文本概括、主题检测等。在实际的文本聚类任务中,有时容易获得一些带有少量监督信息的数据,半监督学习方法能利用少量监督信息大幅提升聚类效果。因此综合利用少量有标记数据和大量无标记数据的半监督聚类方法逐渐引起人们的关注。半监督学习和谱双向聚类都是机器学习领域的前沿技术,本文对基于谱双向聚类的半监督聚类算法展开研究。在文本聚类中,双向聚类产生的邻接矩阵可能是一个存在很大程度差异的稀疏网络。在这种情况下,普通的谱聚类效果往往不好,因为程度不均匀会导致邻接矩阵映射的特征空间有偏差。为了解决这个问题,本文引入正则化的谱聚类来处理文本双聚类中存在的这种稀疏结构问题。本文的研究内容和研究成果主要体现在:(1)将正则化的谱聚类引入到谱双向聚类中,提出正则化的谱双向聚类模型(Regularized Spectral Co-Clustering,RSCC);(2)将正则化的谱聚类引入到谱约束模型中,提出正则化的约束谱双向聚类模型(Regularized Constrained Spectral Co-Clustering,RCSCC),提升半监督的谱双向聚类的效果。(3)提出一种新的使用word2vec来自动构建词语之间的约束条件的方法,不仅能利用用户提供的先验信息,而且能利用文本中包含的上下文语义信息。本文在文本数据集20newsgroups中进行实验分析,将聚类效果与原始的谱双向聚类和谱约束模型进行优劣比较。实验结果表明,通过引入正则化谱聚类算法,谱双向聚类和半监督谱双向聚类模型的效果均获得了明显提升,验证了我们提出的算法具有相对的优越性。最后,将本文提出的模型应用于财经新闻聚类,可以较好地挖掘出新闻中包含的主题,反映当前的财经热点。并且使用lasso-logistic模型建立了聚类主题分布向量与股市指数之间的预测模型,能以较高的准确率预测当天的股市指数涨跌。
其他文献
互联网的发展极大地改变了人们的生活,但网络侵犯版权的问题随之而来,网络版权问题逐渐成为热点话题。安得鲁·默里教授的《信息技术法:法律与社会》一书中通过大量具体案例对信息社会中诸多问题进行讨论。因此,本论文选取该书中有关网络版权一章进行英汉翻译实践,并做相应翻译报告。多数译者在翻译的时候仅仅关注到单词、句子的意思,而忽视了译文的整体性。连贯是语篇一大重要的特点。在翻译的时候,除了要确保信息的准确性外
学位
20世纪80年代,西方翻译研究开始“文化转向”,翻译研究的视野从语言层面拓展到文化层面。操控学派的代表人物,安德烈·勒菲弗尔(André Lefevere,1946-1996)提出了改写理论。他认为翻译是一种“改写”,身在一定社会、文化环境中的改写者往往会对原作进行一定程度的加工和调整,以使其与改写者所处的社会时期的主流意识形态和诗学形态相符。他的理论为翻译研究提供了崭新的视角,具有重要的历史地位
学位
2008年以来,央行多次实施宽松的货币政策来应对外部冲击和国内经济周期性下行的压力。然而,与宽松政策相悖的是,中国经济增长速度自2010年之后,连续六年出现下降。直到2017年,在外部需求的回升刺激下,才小幅提高,但2018年,经济增长又再次下行。与此同时,受房地产价格上涨所引发的居民住房贷款快速提高的影响,我国家庭部门的债务规模不断膨胀。由于家庭债务规模变化会引致家庭居民消费行为的变化,而宏观经
学位
空气污染,特别是PM2.5污染问题,越来越受到人们以及众多学者的关注。PM2.5浓度不仅影响到人类的日常生活环境,还对社会未来经济发展产生了重要的直接或间接的作用,因此,研究PM2.5浓度水平,探究其与气候条件之间的关系,并对其进行有效预测是具有一定的现实意义的。本文拟采用动态半参数因子模型对PM2.5与气候变量之间的关系进行研究。然而,该模型原本的估计方法存在一些缺点,例如涉及大型矩阵的求逆与特
学位
目的:探讨水罐疗法联合白头翁汤灌肠对溃疡性结肠炎(UC)患者Th1/Th2免疫平衡及肠黏膜屏障功能的影响。方法:选取2020年2月~2022年5月期间湖南中医药大学第一附属医院收治的UC患者100例。根据随机数字表法分为对照组(n=50)和研究组(n=50)。对照组患者接受白头翁汤灌肠,研究组在此基础上接受水罐疗法。对比两组疗效、中医证候评分、Th1/Th2免疫平衡及肠黏膜屏障功能变化情况。结果:
期刊
融资约束是制约企业内生潜力发挥的重要原因,“融资难,融资贵”问题依然突出。央行往往会通过调整货币政策,以改变微观主体的外部融资环境,影响企业端资金供求关系,从而促进实体经济健康发展。货币政策实现调控的一般过程是“货币政策-传导机制-实体经济”,也就是说,货币政策能否达到预期经济调控目标,在一定程度上取决于传导机制的有效性。以往的研究表明,我国货币政策主要传导渠道为信贷渠道和利率渠道,即货币政策通过
学位
随着数据规模的增大和数据类型的丰富,近年来基于文本数据的情感分类成为重要研究方向。越来越多学者的研究着手于探索中文文本与其蕴含的情感之间的关系,而中文文本数据通常都是高维(即p>n)的,且文本所蕴含的情感具有多样性、有序性、分布不平衡性等特点。传统的有序分类方法要求解释变量个数小于样本个数,因此在文本情感分类中并不适用。为了解决文本情感分类的问题,本文在连续比例模型的基础上,针对文本标签分布的非平
学位
采用污泥连续培养的方式,分别考察了米诺环素在质量浓度为0、0.001、0.01、0.1、1和10 mg·L-1水平下对活性污泥初期增殖阶段的影响。结果表明,各组污泥增殖均能在20 d内进入平台期,且组间的稳态污泥量差异不显著(P>0.05),表明活性污泥宏观生物量的增长与米诺环素浓度无关,但10 mg·L-1米诺环素的暴露可抑制污泥絮体的形成。细菌群落多样性的分析结果表明,1 mg·L-1的米诺环
期刊
“双碳”目标下,低碳化、节能化成为制造业高质量发展的必然趋势。制造企业如何在降低成本的同时提高绿色生产效益,以应对新时代背景下的挑战,进一步化挑战为机遇,实现柔性生产、可持续制造与绿色发展,显得尤其重要。基于上述背景,本文研究了微电网在制造企业的应用问题,涉及微电网系统各个模块的协调、生产制造的约束以及能源分配优化决策。本文根据微电网相关理论,定义了整个微电网系统,然后分别从它的系统容量设计和该系
学位
环境风险一直是一个人类面临的严峻的挑战,它对巴基斯坦的危害要比南亚的任何其他国家都要严重。在众多危害中,该国目前面临的主要生态风险是空气污染、热浪和极端缺水。对于巴基斯坦这样的发展中国家而言,这种非传统的环境安全威胁带来了多方面的危害,威胁农业,经济和社会等部门。在了解这些威胁的性质之后,只有在政府当局和国际机构的大力参与下,采用多维方法才可以遏制这些风险。本文旨在研究导致巴基斯坦环境安全的原因,
学位