基于聚类算法的文本挖掘研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:whitesharke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的快速发展,网络数据交互的现象越来越频繁,而交互数据量也呈现指数形式增长。文本数据是这些交互数据的主要呈现方式,而在日常生活中,我们所接触到的最多的文本数据形式则是短文本数据格式。在这样的背景下,如何发掘出这些海量的短文本数据背后的关联关系对于文本数据组织,文本数据归类,基于文本数据的推荐系统的研发等方面都有着重要的意义。由于聚类技术可以发现数据之间的潜在关联,并形成相应的簇结构,因此短文本聚类问题也就成为了我们关注的焦点。短文本数据由于其所包含词项少的特点造成了其特征提取困难等问题。将传统文本聚类模型运用于短文本聚类问题上,往往无法得到有效的簇类结构,给后续应用研究带来了不良影响。Word2Vec词向量模型可以利用中心词项的上下文信息来将中心词项转换为词空间上的一个词向量,相比于传统的向量空间模型它在训练词向量时加入了语义环境的影响,体现出一定的优越性,word2Vec词向量模型思想认为上下文语境相似的词项的语义也应该相似,使得语义相近的词项,其对应的此空间上的词向量也距离更近。在潜在语义分析模型(LSA),概率潜在语义分析模型(PLSA)基础上发展形成的潜在迪利克雷分布模型(LDA)可以依据文档—词项信息提取出文档—主题信息和主题—词项信息。而主题词可以在一定程度上反映出文本数据的潜在信息,这对于短文本聚类问题有一定的帮助。针对于传统文本聚类模型在短文本聚类问题上的不适用问题,本文提出了一种基于word2Vec词向量模型和LDA主题模型的改进文本表示方法和一种基于LDA主题模型的改进k-means聚类算法。并通过仿真实验结果对比的方法印证了使用改进文本表示方法在新闻标题数据集上的聚类效果优于使用word2vec词向量求和平均的文本表示方法的聚类效果和使用word2Vec词向量模型结合特征频率-倒文档频率(TF-IDF)的文本表示方法的聚类效果。印证了使用改进k-means算法在今日头条新闻数据集上的聚类效果优于使用未改进k-means算法和k-means++聚类算法的聚类效果。
其他文献
到了大桃收获季节,山东省平邑县平邑镇白马村办公室的喇叭就响了起来:“果农们注意了,西大棚收‘大红桃’,价格1,2元一斤。南大棚收‘钢山’。价格1.1元一斤……”这是村里客商接
“十三五”是我国决胜全面建成小康社会的关键时期,随着《中国制造2025》和“工业4.0”等规划路线的出台,这无疑对绿色印刷的全面实施起到强大的推动作用,发展绿色印刷势在必行。在印刷行业,针对油墨及印刷品进行重金属检测是不可缺少的重要环节,然而,目前检测中使用仪器设备主要使用国外产品,价格昂贵,检测成本高,且体积较大,测试前处理繁琐,还不能实现直接快速测定。基于此,本文针对目前我国在绿色印刷快速发展
鲁南地区板栗生产周年管理工作历
期刊
杭州是一座女儿城,或者说love城,注意,不是lover。杭州的魅力在哪里?在城西的西湖。西湖的美艳天下文人可谓写绝了。在比西湖水还要多的那些篇什中,无疑,位列"三鼎甲"之首的
1 忌不分树种苹果、梨、枣、柑桔等果树可以采用环剥技术.但核果类的桃、杏、李、樱桃等果树环剥时要特别当心。因为核果类果树环剥后伤口易流胶.加之易形成硬质块影响伤口愈合
脱胎漆器既是一种文化象征,更是一种区域象征,其不仅承载着中华民族传统文化,更是延续、传承我国传统文化的重要介质之一。本文针对我国脱胎漆器的传承和保护提出了一些建议,
棕熊天生一双近视眼,看不清400米外任何物体,但它的耳朵和鼻子特别灵敏。有的雄熊为了促使雌熊尽早发情交配,会设法杀死幼熊,饿雌熊护仔性极强,这时会奋起与雄熊厮咬。
从降雨径流、水分蒸发两方面探讨黄土高原沟壑区藻类结皮的水土保持效应。结果表明:①藻类结皮可显著增加0-10cm土层内土壤孔隙度,最大增加幅度总孔隙度为7.4%,毛管孔隙度为14
在罗马古建筑中给人深刻印象的,除了梵蒂冈圣彼得大教堂、古罗马斗兽场和万神殿外,要算天使古堡了。在未去游览以前,我们从一些导游资料上得知天使古堡历来是一个充满了传奇
期刊
截至2018年10月,我国基本医疗保险已覆盖超过13.5亿人,基本实现了全民参保。但是,现阶段基本医疗保险是如何对患者的消费选择和就医选择产生影响,这种影响的程度又是如何由基本医疗保险对患者经济状况、心理状态等方面的补偿效应反映出来,基本医疗保险又能为患者提供多大的补偿效果,对于这些问题目前仍然没有明确的研究结论。基于此,本文从我国基本医疗保险对患者选择意愿影响的角度出发,对当前我国基本医疗保险对