中文短文本中的热点话题发现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xby520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本通常指文本长度小于160个字符,一般以手机短信、网页评论、网络聊天信息等形式存在的文本。短文本的热点话题识别问题是短文本应用领域必须解决的具有挑战性的基础问题之一。由于短文本具有长度短、所描述概念信号弱的固有缺陷,传统的话题识别方法并不适用于短文本。短文本话题识别的可行途径是利用外部资源中的可用信息来扩展短文本所描述的概念。   上下位关系作为一种重要的语义关系,利用这种关系扩展短文本的特征向量,能够在一定程度上弥补短文本描述概念不显著的缺陷。本文围绕如何将上下位关系用于中文短文本的话题识别展开研究,主要工作如下:   (1)建立了一个将上下位关系用于短文本话题识别的整体框架,即首先从短文本中抽取关键词,再利用《知网》的上下位关系对这些关键词进行特征扩展。在此框架下,重点研究了如何抽取短文本中关键词。由于短文本自身的特点,本文利用简单聚类的方法来抽取短文本中的关键词。利用已有的上下位关系库对这些关键词进行特征扩展,对扩展后的短文本进行二次聚类,最终得到热点话题列表。实验表明:上下位关系有助于短文本话题识别性能的改善   (2)针对短文本长度短、描述概念能力弱的问题,提出了一种利用词语上下位关系对短文本关键词进行特征扩展的中文短文本热点话题发现方法。思路首先是通过聚类抽取初始话题中的关键词,然后针对这些关键词利用词语上下位关系进行特征扩展,最后对特征扩展后的文本再次聚类从而得到热点话题。该方法弥补了短文本特征不足的缺点,在一定程度上提高了中文短文本中热点话题发现的性能,实验证明该方法有效。
其他文献
随着近几年互联网的飞速发展,网络中各种各样的电子文本信息急剧膨胀。如何迅速、有效地从这些海量的、非结构化的文本中获取我们所需要的信息和知识已经成为自然语言处理领
随着网络技术的发展和计算机在各个行业的普及,每天都有海量的电子数据需要存储和管理。电子数据由于其自身特点,在存储过程中极易被篡改、伪造、破坏或毁灭。人们使用了安全备
蛋白质折叠预测在生物信息学领域是非常关键的问题,蛋白质折叠解释了不同的生物现象,可以用来预测以及控制这些生物学现象。为了模拟蛋白质折叠的形成过程,近年来许多学者提
目前,各航天大国越来越趋向于使用体积小、重量轻、无转动部件、高可靠性的NAND闪存做为空间数据记录器的存储部件。通常,一个闪存分成若干块,每个块又分成若干页。块是擦除
近年来,由于网络的大规模发展,流媒体视频直播已经渐渐成为互联网核心业务之一,因而也有越来越多的关注。也有很多成功的商业系统向大家展示了流媒体视频直播的可行性。然而,
随着软件技术的飞速发展以及软件应用的广泛普及,用户对软件的可靠性和安全性提出了更深层次的要求。软件测试是保障软件质量、确保程序正确性的必经流程和必要手段。但是随着
随着传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术的迅速发展和日益成熟,推动了具有划时代意义的无线传感器网络的产生和发展,其目的是协作地实时监测、感知、采
近年来,随着微机电系统与无线通信技术获得长足发展,已涌现出许多种类的无线网络。这些网络的发展主要集中于提升数据传输率与降低网络能耗,而在某些能量受限的应用中,能量的有效
随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。而短文本(通常文本长度小于160字符)作为手机短信息、在线即时聊天记录、论坛用户评论等信息的主要表现形式,已经成
随着全球经济的迅速发展和市场竞争的日益激烈,企业正面临着更大的挑战和机遇,而供应链管理作为提升企业市场竞争力的重要手段,越来越受到企业管理者的重视。由于供应链所处的环境并非持续稳定的,经常会遇到各种各样的突发状况,如果不能及时处理,往往会给供应链系统带来巨大的损失。供应链应急协调作为供应链管理的重要内容之一,对于应对供应链中突发事件,改善供应链系统性能具有实际意义。本文将多Agent技术引入到供应