中文微博话题发现技术研究

被引量 : 0次 | 上传用户:lucky121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Web2.0技术与移动通信技术的快速发展,微博开始兴起,并发展成为用户发布、分享个人信息,以及获取他人信息的主要平台。微博平台简单、便捷的使用功能,引吸了越来越多的网民成为微博用户;而且微博信息裂变式的传播特点也导致众多文本信息出现在微博平台中,以致人们陷入了信息过载的困境。研究针对中文微博文本(本文提到的微博均指中文微博)的话题发现技术,对微博文本数据进行组织、归类,有助于应对信息过载,使用户快速了解整个微博空间中所存在的话题信息;对微博热点话题发现与跟踪等奠定坚实的基础,也为用户制定合理的决策提供依据,可及时发现网络谣言并采取措施遏制其迅速传播、扩散,以正确引导网络舆论、净化网络环境,促进微博平台健康地发展。微博话题发现主要涉及到微博数据获取、文本预处理、文本特征词选择、文本相似性度量及文本聚类等方面的技术,本文主要研究了其中的特征词选择与文本相似性度量这两个关键技术,针对其所存在的问题,提出了相应的改进算法。其一,在特征词选择方面,针对微博文本内容长度短、信息量少,以致有效特征稀疏、难以提取的问题,提出一种基于统计与语义信息相结合的微博文本特征词选择算法。该算法依次根据词性组合匹配规则、基于词项多因子(TF-IDF、词性与词长)构造的综合评估函数以及词项与文本内容语义相关度对微博文本进行特征词选取,并与朴素贝叶斯分类算法结合以对微博分类语料集进行实验,结果表明,相较于传统的特征词选择算法,该算法提取出来的特征词,能够更准确地表示微博文本内容主题。其二,在文本相似性度量方面,针对微博文本的特征稀疏性阻碍了文本相似性的精确度量,且传统的文本相似性度量算法未能很好地考虑词与词之间的语义关联性、微博文本的结构化信息的问题,提出了基于语义、时间与社会化关系的微博文本相似性度量算法。该算法先扩展了公共块的定义,并构建基于公共块序列的语义相似度;然后利用微博文本发布时间、转发与评论信息修正该语义相似度,以此来度量微博文本之间的相似性;最后将该算法融入Single-pass聚类算法中以实现微博话题发现,实验结果表明,相较于传统的文本相似度算法,该算法更为准确地度量了微博文本间的相似性。最后,融合这两种改进的算法,提出了基于特征词选择与相似度融合的微博话题发现方法。通过对中文微博进行实验,结果表明,相较于基于文本相似度算法的微博话题发现方法,本方法能更有效地提高微博话题发现的质量。
其他文献
<正>在职高教学中,学生为将来能更好地就业,更注重专业课的学习,对语文等学科不再像初中时那么重视,本应是最有魅力的语文课,却不受学生欢迎。究其原因,除了职业教育的特殊性
葡萄糖氧化酶是用黑曲霉等发酵制得的一种需氧脱氢酶,对人体无毒、副作用,具有去除葡萄糖、脱氧、杀菌等功能,已广泛应用于食品、饲料、医药等行业中。该文从葡萄糖氧化酶的
中国劳动力市场一直存在城乡之间以及城市内部双重分割的问题,在渐进式的改革模式下,城乡分割逐渐瓦解,但同时又强化了城市内部的二元分割。未来劳动力市场变革的核心将转向
<正>教社科[2014]3号各省、自治区、直辖市教育厅(教委),新疆生产建设兵团教育局,有关部门(单位)教育司(局),部属各高等学校:经国家教育体制改革领导小组审议同意,现将《完善
我国《合同法》引进了英美法的预期违约制度,但与英美法相比,存在着判断构成预 期违约的标准不明确、法律救济措施不完善的缺陷。对于这些缺陷应予以相应的完善。
氨基糖作为一种碱性糖,具有特殊的理化性质和生物学作用,在医药、食品、化工、农业及环保等方面均有广阔的应用前景,牦牛奶因为其纯净绿色的奶源及其丰富的营养越来越受到人
加强基层财会人员素质提升与管理,已成为当务之急。过硬的政治素质,良好的职业素养,精湛的电算技能,扎实的理论基础,卓越的理财能力,流利的外语水平是新形势下高素质会计人员
<正>实行劳动力优化组合,应遵循马克思主义政治经济学的理论观点,使人们在物质资料生产过程中结成的相互关系进一步趋于合理,最大限度地挖掘人才宝库,以提高劳动生产率,为社
改革开放以来,随着我国经济的持续增长,绑架这一曾经一度销声匿迹的犯罪又死灰复燃。由于绑架罪有严重的社会危害性,所以绑架罪历来都是世界各国刑法打击的重点。当前,对该罪
在信息技术的推动下,课程与教学迎来了新的变革机遇。无论是慕课、翻转课堂还是近来备受推崇的微课,都对传统教学模式、教学内容、学生的学习方式和教学评价方式带来巨大挑战