中文社交媒体话题关键词抽取算法

来源 :北京交通大学 | 被引量 : 12次 | 上传用户:mugua604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据2013年互联网数据中心报告显示,预计到2020年全球的数据总量将超过40ZB,这一数据量是2011年的22倍,如何从海量数据中快速抽取出用户所需要的信息是一个重要的研究课题。关键词抽取是快速获得文档核心语义的重要手段,是自然语言处理和信息检索等领域的重要组成部分,有着很高的理论和应用价值。现有的关键词抽取算法多集中于处理学术论文以及新闻等具有一定长度的文本,然而随着社交媒体的蓬勃发展,类似于新浪微博的微型博客在我们生活中发挥着越来越重要的作用。传统的长文本关键词提取方法不再适用于这样的短文本,并且也没有提取社交媒体话题关键词的现有方法。为了解决类似于新浪微博之类的中文社交媒体话题关键词的抽取问题,本文做了如下几个方面的工作:提出了基于图模型的话题关键词抽取方法。根据词语的同现关系构建微博文本的图模型,采用改进的TextRank算法,即根据顶点的词性以及是否为命名实体赋予其不同的初始权重,抽取出排名靠前的N个词语。接着使用基于改进神经网络语言模型而来的词向量工具:Word2vec进行话题级别的训练,充分利用话题下所有微博之间的语义信息,概括生成最终的微博话题关键词。根据多个基于经典的、非监督的关键词抽取方法而设计的多组对比实验结果来看,该方法有效的提高了微博话题关键词抽取的性能,尤其提高了查全率。提出基于低秩矩阵分解的话题关键词抽取方法。本文创造性地将低秩矩阵分解理论应用于话题关键词的抽取。构造微博话题的关键词矩阵,采用鲁棒性主成分分析(RPCA)算法进行矩阵的分解,获得关键词矩阵的低秩矩阵,得出微博话题的关键词。实验证明,该方法在所有的方法中获得了最高的准确率。构建了微博话题语料库及测试数据集。本文设计了微博文本采集系统,构造了首个微博话题关键词抽取语料库。语料库含有100个热门话题,每个话题下约有12万条有效微博条目。采用人工标注的方式构建了话题关键词抽取测试数据集,总共标注了涵盖社会、娱乐等不同类型的30个话题。设计开发了微博话题关键词抽取与展示系统。利用本文提出的基于图模型的话题关键词提取方法抽取话题关键词,采用B/S架构开发话题关键词展示系统。融入HTML5技术实现了关键词的可视化,建立了微博话题的关键词云。
其他文献
计算机的普及和更新带动了互联网的发展,互联网的发展使得网络上信息的传播更为迅速和广泛。博客作为一种互联网用户之间用于交流和传播信息的工具,受到大部分人的喜爱,成为网络
近年来,车载设备作为监测列车运行状态的重要组成部分,其健康运行受到人们的广泛关注。目前关于车载设备的研究大多是基于车载设备采集系统对列车上空调系统、受电弓、车钩及
随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所
室内电波预测由于不同室内环境的复杂性而出现了较多的预测模型。电磁波传播理论与数值分析方法为基础的确定性射线跟踪模型,依靠现有的计算机技术能够较好的预测电波数据。射
随着计算机技术的飞速发展和生活水平的提高,人们在许多领域对信息安全要求越来越高,例如用计算机对小区进行智能监控,不仅节约人力资源和成本,也为日后案件的调查提供证据。
蛋白质折叠结构预测问题是当前生物学研究的一个热点。由于其特殊的结构和所使用的模型限制,利用NP问题的求解来求其最小能量值从而推测出折叠结构是这个问题的研究方向之一。
随着计算机网络在各个领域中的广泛应用,产生了庞大的网络信息,其中,以手机短信、QQ聊天记录、博客评论、新闻评论等短文本形式存在的信息也得到了空前的膨胀,如何对这些以短文本
近年来,越来越多的以短文本(通常文本长度小于160字符)形式存在的信息逐渐成为了人们获取消息的主要途径之一,如:微信,微博,网络评论,网络聊天以及搜索引擎返回的网络片段等等。所以
Internet技术和无线通信技术已经成为目前世界科学技术发展中最为活跃的领域之一。人们对移动性和信息的需求也在急剧上升。越来越多的人希望移动过程中不用更改计算机配置就
在互联网高速发展的今天,推荐系统能够缓解用户筛选感兴趣内容时的困扰,帮助用户发现有价值信息,已成为解决信息过载的有效手段。推荐系统中的协同过滤算法,因其领域无关性及