基于关键句选择与有效文档选择的突发性热点话题发现

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:pkpm1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
热点话题的发现一直都是自然语言处理领域常见的研究课题。在网络舆情监控方面,需要实时发现老百姓讨论最多的新闻事件,特别是网民对网络突发性事件的热议。及时对这类事件进行预警、跟踪和处理,防止事态恶性化发展是有关部门工作的重点之一。本文采用经典的K-means算法对文档进行聚类,并根据簇的大小(即文档数量的多少)反应话题的重要程度。为了提高文档的质量,以便后期提取优质的特征词,本文在聚类前从数据源入手,通过关键句选择与有效文档选择两方面处理尽可能地保证数据的干净、简练。首先从每一篇文档的正文中选择出能反映该文档核心内容的关键句,将原文档转变为新的基于关键句的文档,本文主要从两个角度衡量文档关键句:句子中词的权重均和以及句子在文档中的位置;其次,由于网络上存在大量的“标题党”,为了吸引网民的眼球和点击量,他们常常使用虚假标题诱使网民浏览他们的网站,因此为了选择有效文档,本文比较了关键句与标题的相似性,排除那些文档标题与文档内容不一致的噪音文档;最后利用词频-倒文档频率(TF-IDF)方法计算出关键句文档集的特征词。本文所用的测试语料主要是2016年网络上发生的突发性事件,如“雷洋事件”、“山东疫苗案”等,通过将经过关键句选择与有效文档选择处理后的新文档集聚类的结果与原始完整文档直接聚类的结果进行对比分析,发现前者的F1值为80%,而后者只有67%,因此精炼后的文档不仅提高了文档质量,降低了向量维度,同时在聚类效果上也有很大的提升。
其他文献
数据在实际应用中呈现出多种变化形式。对象增加、维度增加和属性值变化是数据动态变化的三种重要类型。在粗糙集理论中,动态数据的属性约简问题一直备受关注。然而,现有的属性
热点词汇(以下简称热词)是一种普遍的网络词汇现象,反映了特定一段时间内人们普遍关注的问题,对热词进行快速识别和定向跟踪,可以快速地了解民情、了解社会动态和发展趋势,更快捷更
无线传感器网络作为一种新兴网络,其巨大的应用前景以及潜在的科研价值吸引众多国家、机构、企业、公司竞相展开了对无线传感器网络关键技术以及应用的研究与开发。路由协议作
随着互联网上Web服务大量涌现,在语义层面上挖掘并分析Internet上Web服务间竞争或者协作关系将是构建新的、基于相关关系的服务管理、服务发现及服务组合算法的基础。在利用本
传统起搏器监测方法受制于信号频率、功耗、监测方式等因素,因而在进行实时监测时难以应对大量起搏心电数据的采样、处理与传输。压缩感知理论可以进行信号的低功耗采样,实现
网络漏洞(Network Vulnerability)是网络安全研究的一个重要研究领域,网络漏洞分析(Network Vulnerability Analysis)技术是网络漏洞研究的基础,而报文处理(Packet Processing)
随着信息技术的迅猛发展,人类生活中存在各式各样的大规模网络。复杂网络的广泛存在,使得对其研究变得非常必要。而对复杂网络的研究包括复杂网络拓扑结构统计特性及分析、复
随着信息通讯技术的发展与云计算的普及,以平板电脑,智能手机为代表的组织型云端设备逐渐成为人们生活的必需品。区别于传统计算设备,由功能相同、结构相似的云端设备构成的组织
分组调度算法对网络性能和网络服务质量有重要影响。基于轮循的调度算法是应用最广泛的分组调度算法类之一,DRR算法是其中的经典,SRR算法是DRR算法的一种改进。DRR算法和SRR
人脸识别技术是一种生物特征识别技术,由于其数据采集的友好性、面部的客观性以及应用场景的多样性,使其已成为模式识别与深度学习方面的研究热点。但人脸识别在具体应用过程