短文本主题分析的相关问题研究

被引量 : 2次 | 上传用户:ch12358
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网与通信技术的迅猛发展,不仅促进了微博、微信等短文本信息在全世界范围内的有效传播,甚至对人民的日常生活方式带来了深远的影响。海量信息导致人们反而难以找到有效的信息。这样极端性的发展,要求我们找到一种方法从海量互联网短文本数据中挖掘主题信息,这就是本文研究的短文本主题分析技术。本文的工作主要集中在针对短文本的热点话题发现相关算法的研究中,主要工作如下:首先,提出了基于改进的BM25算法的话题发现算法,解决了话题的可读性差的问题,算法包括基于BM25算法的词相似度研究、突发词发现、基于关键词的聚类。其次,提出了LDA-BM25算法,在提升话题可读性的同时,保证了话题很好的独立性,该方法融合了LDA模型与话题词BM25算法,进一步提升了话题发现效果。最后,提出了分布式处理系统设计方案,解决了互联网中海量短文本数据流处理效率低下的问题,包括海量短文本的分布式预处理、分布式存储、高效话题发现技术,其中话题发现模块成功解决了时间乱序问题。
其他文献
"雷锋倒掉了吗?现在社会还需要雷锋精神吗?"伴随着这样的疑问,引起了社会有关雷锋精神的大讨论。雷锋精神是优秀的民族精神,内涵丰富,意义深远,是社会道德建设必不能缺少的因
内部控制系统局限性的克服不仅依靠系统本身的完善 ,还信赖于公司治理与内部控制两者间的无缝对接。公司治理与内部控制都产生于委托代理问题 ,但两者委托代理的层次是不同的
本文考察了中国贫困类型的变迁过程,分析了贫困群体的特征和国家反贫困战略的变化。它以历史分析和制度分析相结合的方法,描述了中国反贫困政策演变的过程,阐释了导致这一进
经上世纪上半叶的发现和下半叶的开掘,楚文化已引起海内外瞩目,回顾近一百年学术史,楚文化研究在诸多领域取得丰硕成果,它从一个侧面,为我们认识中华文明核心的形成过程以及
本文研究了我国上市公司环境信息披露的现状,总结了当前上市公司环境信息披露存在的问题,针对存在的问题,结合国外已有的经验,对建立并完善我国企业环境信息披露体系提出了自
厦门经济特区工程建设公司是一家具有三十多年历史的从计划经济时代附属企业转型而来的国有老企业,当前正处于房地产市场的激烈竞争中,也是凾待加快转型跨越发展的关键时期。
】从焊接质量和维修养护两方面分析无缝线路焊缝断开的原因,在此基础上提出预防焊缝断开的措施。
古典主义时期,大小调功能和声已成为一种定型的技法体系,其严谨的T-S-D-T功能逻辑成为创作实践中作曲家们共同遵循的准则。古典主义协和观念日臻完善,并促进人们感情表达与理
农村集体土地确权登记发证工作,是十七届三中全会的重要议题。作为关系到农村、农业、农民的重大政策,《中共中央国务院关于加大统筹城乡发展力度进一步夯实农业农村发展基础
本文介绍了网上投票系统的功能设计要求以及功能模块的划分,简单地说明了采用的数据库系统和需要建立的数据表,并对在设计和开发过程中的关键技术作了详细的说明。