基于词向量的短文本聚类研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:passiionlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的高速发展,微信、微博、电子邮件、论坛、直播平台、点评网站等应用已经越来越普及,这些平台产生的信息很多都是以短文本的形式出现。短文本信息具有极高的研究价值,通过对短文本的深入分析,可以挖掘短文本中隐藏的信息和潜在的价值。文本聚类是指通过选择合适的聚类算法挖掘指定文本数据间内在联系的一种机器学习方法,通过对短文本形式的信息数据进行聚类分析,挖掘和提取短文本之间的关系是进行其他短文本挖掘工作的基础,例如用户画像、个性推荐、社群发现等热门研究课题都要用到短文本聚类技术。针对传统的短文本聚类算法存在数据维度高、语义缺失等问题,本文在对文本建模的时候提出了基于词向量的短文本表示模型,通过计算短文本之间特征词的最小移动距离来度量短文本的相似性,并在此基础上完成短文本聚类。实验表明,相对基于向量空间模型和基于文档主题模型的短文本聚类算法,本文提出的方法在多个短文本数据集上的聚类效果得到显著提高。针对基于关键词匹配的论文检索导致检索结果存在信息缺失和推荐偏差的问题,本文以论文标题这一类短文本为研究对象,通过对不同维度的论文文本信息进行词向量训练,找出论文信息元中信息量高的要素丰富论文标题的语义。引入密度峰值发现聚类算法,将小于截断距离的论文文本邻域定义为论文文本相似度邻域,实现论文标题的自动聚类。与已有研究相比,本文方法的实验结果较其他方法在准确率、召回率和F值上均有提高,体现了本文工作的价值。
其他文献
我国乡村治理目前还存在很多问题,缺少系统性和整体性,其主要在于缺少总体治理的指导思想。乡村治理未来的发展趋势应当是由多元化、碎片化走向总体性治理,总体性治理是中国农村
You are my rose,as beautiful as the many colors Of spring and summer.So very delicate- So very1)fragile- So very soft- You stand tall,and reach out for many To t
新中国成立以后,大熊猫在中国外交史上扮演了重要角色,有人称之为“熊猫外交”。美国人喜欢大熊猫超乎想象,其实,全世界的人,有谁不爱憨态可掬、性情温和的熊猫呢?去年7月9日
【正】 一、我国银行经营体制的变迁总体说来,我国银行是游高于世界银行发展主流之外的。当世界各国的银行纷纷由分业经营转向混业经营时,中国的银行却经历了一个由"合"到"分
农业是国民经济的基础产业,其发展形势直接影响了我国民经济的发展。传统农业经济发展体制对资源过度需求,极大破坏了农业生态环境,可持续发展理论取代传统的经济发展理论成
Hello,大家好!想必这会儿大家还沉浸在过年的喜悦和欢乐中吧?过年期间,大家有什么有趣开心的事,别忘了来信或来电和小编们分享一下哦!为满足读者朋友们多元化的阅读需求,这期
课程是直接影响人才培养质量的核心要素。针对当前高职行政管理专业课程体系改革中的不足,广东行政职业学院以市场需求为导向,深化校企合作,构建以职业能力培养为中心的课程
农户主导型流转模式被认为是造成中国土地闲置、配置效率低下的载体,也是导致中国现代农业发展滞后的诱因。尽管农户主导型有很多弊端,但最新调查显示,相对于其他模式,农户主导型
保泰松又名布他酮、布他唑立丁、保太松等,是治疗类风湿性关节炎、风湿性关节炎及痛风的药物之一。也可用于丝虫病急性淋巴管炎。但其与其他药物的配伍。有很多限制。