基于隐主题分析和文本聚类的微博客新闻话题发现研究

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户:szoysj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究在大规模微博客文本集上的话题发现的问题。微博客与传统博客不同,首先,它的长度比传统博客短,往往只有只言片语。其次,它可以通过手机,即时通讯软件等,实时发布,从而会在短时间内产生大量数据。对于微博客的短文本数据,传统使用词或短语作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。本文使用隐主题模型,充分挖掘短文本的隐主题信息,并在隐主题空间上度量短文本之间的相似度,从而有效解决了短文本的数据稀疏性问题。另一方面,对于大规模的数据,传统直接利用聚类方法聚合出新闻话题的方法,很难快速得到理想结果。而本文则首先根据新闻的特点,选择出最有可能谈论新闻事件的微博客,然后用一种两层的K均值和层次聚类的混合聚类方法,将选择出的微博客快速准确地聚合成不同的新闻话题。实验结果表明,本文的方法能有效地从大规模微博客短文本数据集中,挖掘出新闻话题。
其他文献
气相色谱法测定空气中非甲烷总烃与一氧化碳、甲烷、二氧化碳的改进河南省职业病防治研究所(郑州450052)孙文鉴马军营田崇彬空气中非甲烷总烃和一氧化碳、二氧化碳含量的测定常需要两
传统问答系统的研究主要是针对事实问句,目前国内外对于情感问句的研究还很少见。情感问句能够更加直接地表达用户的想法和情感倾向,因而在日常生活中普遍存在。本文基于HowNet
会议
搜索引擎性能评估是信息检索界一个很重要的课题。目前,随着用户行为信息越来越多的被学术界和产业界所关注,相关用户行为信息挖掘的方法也相应产生。已有的相关研究表明,长查询
会议
在企业运行过程中,资金对其具有十分重要的作用和意义,如果资金没有及时到位,就会对企业的正常生产以及运营产生较大的影响.资金管理涉及企业各个环节的全部经济活动,把握着
她,是一个脸上曾经有明显胎记的美丽女子。为了梦想,19岁那年独自创业,成为台中最年轻的美容室老板,以台湾为发源地,构建起了一个跨越台湾、大陆、香港、泰国、马来西亚、印尼、新加坡、欧美等全球主要华人世界的国际性美容王国;并创造了从每月净利60万元到年营业额达32亿台币的奇迹;在近二十年的事业拓展中,她和她的集团发展出一套近似工厂“装配线”的高效率加盟模式。  如今的她,已是时尚商人圈中美貌、财富、慈
术语自动识别是获取领域术语表中未登录的规范化词汇的方法,并且是信息抽取、文本挖掘等领域的重要任务。近年来,基于统计分析的术语抽取方法取得了一定进展,出现了C-Value、NC-
传统的音译方法采用建立音译模型解决音译命名实体的翻译问题,但是该方法不能解决不符合音译规律或部分符合音译规律的命名实体翻译问题。为此,本文提出一种利用音译结果作为扩
随着时代的发展、理念的革新,事业单位在近几年的发展速度不断加快,但是在人力资源管理方面遇到了一定的难题.人资管理的流程需要进一步的优化,该方面的工作实施,要站在科学
科技型中小企业整体实力较弱,需要通过各种方式来降低成本,其中税收优惠政策就是科技型中小企业降低运营成本的最佳途径,而且税收优惠政策对科技型中小企业具有一定的影响,科
他是插队的知识青年。每天不是沿着百米长的垄沟不断地锄地、拔草,要么,就是和劳动伙伴们一起抡大锤、砸石头。大家的抱怨牢骚不知有多少,唯有他一声不吭。 He is a knowled