【摘 要】
:
在互联网技术高速发展的今天,大量的数据伴随着人们的生活不断产生,其中短文本数据随着BBS、微博等媒体的兴起占有着越来越重要的位置。如何对这些短小的文本进行有效地聚类
论文部分内容阅读
在互联网技术高速发展的今天,大量的数据伴随着人们的生活不断产生,其中短文本数据随着BBS、微博等媒体的兴起占有着越来越重要的位置。如何对这些短小的文本进行有效地聚类分析,从而发挥其巨大的价值,是近年来一直被关注的问题。然而由于短文本的一些特点,使得传统的聚类分析方法在处理短文本时效果并不理想。为此,本文试图设计和实现一种针对短文本的聚类分析系统,使其能够在实际的应用当中发挥一定的价值。本文首先介绍了短文本的特点以及目前针对短文本数据的挖掘所做的研究工作,介绍了数据挖掘中经典的文本聚类算法,包括K-means算法、层次聚类算法等。之后,鉴于短文本所独有的鲜明特点,总结出传统聚类分析方法在面向短文本时所遇到的关键问题,并针对这些关键问题,结合经典聚类算法的对比,提出了一种短文本聚类方案,该方案包括基于trie树的文本分词技术、基于tf-idf的特征选择算法、基于改进的K-means算法的短文本聚类算法等几个部分。在聚类系统的设计和实现方面,通过一定的调研,结合实际的需求,利用本文提出的聚类分析方案设计并实现一种面向以微博为代表的短文本聚类系统,该系统所具备的功能可以对相关的检索系统的排序结果起到优化的作用。并在实验中证明这种系统的有效性。
其他文献
数字与信息技术的高速发展以及数字档案馆理论和实践的不断进步.为档案的信息化管理工作提供了基础性的技术支撑。电子档案作为一种新的档案存在形态,凭借其实时性、方便性等诸
在以男性为中心的社会中,女性的独立人格被极大地扭曲。舒婷用橡树这一具有独立品格的意象,阐释了新时期现代女性的爱情观,从而体现了女性意识的觉醒与张扬,从一个独特的角度表达
中美共享经济蓬勃发展,对其进行比较研究具有现实和理论双重意义。选取Airbnb和途家进行案例研究后,发现三个共同点:公司主业都是在线短租,商业模式都在走向混业经营,服务对
随着全球气候变暖、世界自然环境日益变坏,人们开始逐渐意识到节能减排对于改善环境气候的重要性,低碳理念作为全新的理念逐步走入人们的视野确。在健身方面,全民健身活动的
校本课程是依据国家的教育目的和满足地方教育要求的基础上,由各学校的教师对当地社区和本校的资源、环境因素以及学生的实际需求进行分析,针对本校学生进行编制,成为可实施
本文梳理了国际上有关环境经济核算的探索与实践,对我国自然资源资产负债表的性质、研究进展进行较为全面的梳理与评价,总结了我国自然资源资产负债表与生态文明建设的相关制度
“异化翻译”的概念是美籍意大利学者劳伦斯.韦努蒂于1995年在其著作《译者的隐身—翻译史论》中提出来的。异化翻译的提出是基于对传统的归化的翻译观的批评之上,目的是抵抗
当前各类研究机构都在不断增加力度研究开发自身的机构知识库,力求整合自身内部的研究资源和成果,为机构内部和外部的研究人员提供更加便捷的途径来获取科研资料。机构知识库
本文以47家在中小板上市的苏南民营上市企业为研究对象,选取样本2010-2013年共188组有效观测值,本文将以公司治理为出发点,围绕委托代理理论,通过实证研究分析了苏南民营上市企业
国家“第十二个五年计划”,明确指出要加快建设多层次资本市场体系,提高直接融资比重。目前我国多层次资本市场体系是由主板(上交所主板、深交所主板和深交所中小板)、创业板(深交