可增量的用户短文本聚类方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:cychenying2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,用户短文本数据呈爆炸性增长,充分利用聚类分析技术获取短文本中的有用信息显得十分重要。聚类分析作为一种重要的知识发现手段,是将对象按其特征的相似程度进行归类的过程。为此,提出了一种可增量面向用户短文本聚类方法。该方法包括离线聚类和在线聚类两大类,前者在短文本预处理的基础上,利用无关语词典对短文本中的无关语进行识别和清理,再利用词类词典对短文本进行语义归一化;同时还提出了基于多特征融合的相似度计算方法,以实现对文本的相关性聚类。后者则以离线聚类结果为特征,对在线文本进行在线聚类操作,将离
其他文献
在开展工程项目设计时,需要充分重视结构设计以及结构荷载的选取,为了全面提升整体工程质量,应加强结构设计工作以及全面分析工程荷载对工程结构存在的影响,确保工程结构的安全、
现阶段,我国人事劳资管理工作微机化尚处于起步阶段,与西方发达国家相比,存在着一段差距,需要我们不断努力来缩短这段距离。下面笔者结合银行实际,谈谈目前微机在人事劳资管
蒲松龄故居座落在山东省淄博市淄川区洪山镇蒲家庄。蒲家庄位于古般阳城(今淄川)东三点五公里的丘陵地带,是一个历史悠久的村庄。蒲家庄始有于宋代,原名“三槐庄”,以村内三
任务调度时的服务器能耗是云计算系统动态能耗的重要组成部分。目前云计算带来的巨大能耗已经成为制约云计算发展的技术瓶颈,因此节约能源和提高能源利用率是实现绿色云计算系
新时代党和国家重视全面落实创新驱动发展战略,要求各类产业实现高质量创新发展,推进粤港澳大湾区建设、促进产业协同发展对于充分发挥粤港澳三地资源优势、有效实现经济产业
MapReduce是目前大数据处理中应用最广泛的云计算模型,预测其性能有利于提高云计算的效率。然而MapReduce运行需要依赖大量的配置参数,这些参数会对MapReduce性能产生较大的
建筑行业的不断发展,对节能减排要求越来越高。给排水设计作为建筑重要组成部分,通过对其节能减排的设计无疑可有效提升整体建筑质量。本文将结合实际案例对建筑给排水设计中节
城市经济发展水平不仅从一个侧面体现地区的经济实力,而且从一定程度反映地区人民的生活水平。根据对中、西部省会城市消费、投资、收入、生产、科技投入等方面重点信息的统
风险贷款是阻滞商业银行资产流动性、效益性,对商业银行经营及信誉构成直接威胁的劲敌。所以防范风险应当作为商业银行不断探索的投资管理课题。笔者仅就实际工作中的体会谈
本文立足于节能角度,对当前生态办公建筑的设计策略进行浅析,试图为常规的办公建筑设计提供更多设计思 路,以促进绿色办公建筑的研究发展。