基于深度学习的短文本聚类集成方法研究

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:strongit_likai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使人们越来越依赖网络,同时也催生出例如微博,网络新闻等大量的短文本。利用大量的短文本并且利用其中文本内容的特点,通过聚类的手段对短文本进行信息挖掘,可以帮助相关决策人员或企业更好地观察事情的发展趋势,有利于后续的舆情控制、公关以及决策等相关工作的开展。但是不同于传统文本,短文本具有稀疏性等问题,传统长文本聚类手段不适合应用于短文本的处理,而且现有的文本聚类算通常很难捕捉文中词语间的关联性和前后文所蕴含的语义。为了得到更精准和健壮的聚类结果而衍生出了聚类集成方法,这种技术手段如今已有较为广泛的应用。但是在聚类集成过程中,最终的聚类结果很容易受到低质量基聚类成员影响。本文针对上述这些问题进行了短文本聚类集成算法的优化与改进:(1)本文设计了基于卷积神经网络的短文本处理方法。该方法使用word2vec模型对大规模的维基中文语料库进行训练,得到词语的向量表示形式,然后利用双向长短时记忆网络结合前后文语义得到扩展后的词语向量表示。进而组合得到短文本较为稀疏的原始向量表示形式。之后,结合本文输入的词向量矩阵的特点,利用本文提出的分段文本卷积神经网络对文本向量提取特征,得到维数较低的短文本特征向量,并将此特征向量作为后续聚类算法的输入。(2)本文设计了利用基尼不纯度评估聚类可信度的聚类集成算法。考虑到每个基聚类是由多个最小单元聚类构成,所以并不是简单的把每个基聚类当做不可分割的个体。该方法利用基尼不纯度作为指标来评估最小单元聚类的可信度,从而赋予它们权重。然后利用基于图划分的聚类方法作为一致性函数,与本文提出的权重计算方法相结合产生最终的一致性聚类结果,从而减小低质量聚类成员对最终聚类结果的影响,提升聚类结果质量与鲁棒性。(3)最后针对本文提出的方法,在常见的中文短文本数据集上设计了多组对比实验,并选择常见的聚类效果评估指标ARI和NMI进行衡量。实验结果证明了本文提出的特征提取方法与聚类集成方法是有效的。
其他文献
街头官僚是政府雇员中最基层的、直接与公民打交道的一线执法人员,他们是我国官僚队伍中的中坚力量。街头官僚是政府与民众之间沟通的桥梁,是政府在民众心目中的形象代言人,
转座子是一段可以在基因组上自我复制或者“跳跃”的DNA片段。活跃转座子的转座会在个体间产生丰富的转座子变异,给宿主的生命活动造成影响。利用不同个体异常比对的读段序列
2018年,世界银行对全球贫困情况进行调研并作出报告,对过去的25年全球消除贫困情况作了全方面统计,并在报告中指出,部分国家和地区贫困问题根深蒂固、最贫困40%人口的收入停
苜蓿假盘菌(Pseudopeziza medicais)是苜蓿褐斑病的致病菌。该菌以有性繁殖形成的子实体假囊盘越冬,翌年春天子囊盘释放出子囊孢子进行初侵染完成侵染循环。研究子实体的结构
随着全球各国工业化进程的加快,汽车保有量快速上升,伴随而来的环境污染与能源短缺问题日益突出。而混合动力汽车采用高效节能的驱动方式,既污染小又续航里程远。EVT(Electrical Variable Transmission)系统作为混合动力传动系统的典型代表,具有广阔的发展空间和重要的科研价值。本文将EVT混合动力传动系统作为研究对象,采用图论与机器学习等研究方法,开展了如下工作:(1)建立EV
内部控制是企业在管理进程中为了实现提高经营效率、扩大企业规模、实现财务报告准确化等经营目标的保障。现如今内部控制已经逐渐成为公司治理中极为重要的一部分,关系到企
苦豆子Sophora alopecuroides L.是我国西部荒漠半荒漠地区防风固沙的主要植物之一,同时也是重要的蜜源、饲用、药用植物之一,其根系发达,在自然环境中的生长区呈现典型的斑
植物真菌病害预防的关键是实时监测空气中病菌孢子的数量,以此为依据做出对植物发病的预警。常规的孢子检测是通过单一的孢子捕捉装置捕捉空气中的孢子,将样本取回实验室在显
随着多标签学习方法在多个领域的广泛应用,对多标签数据进行准确的分类,已成为研究多标签学习方法的重要课题之一。对于多标签数据来说,互联网的快速发展使得获取未标注的数
1936年资源委员会发展工矿企业的三年计划得到南京国民政府的批准,资源委员会中央电工器材厂(以下简称中央电工器材厂)的筹建便在此三年计划之中。1936年7月中央电工器材厂筹