基于语义聚类的新闻多文档自动文摘

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:nannana001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网信息繁杂的时代,如何快速获取重要、简洁的信息是一个非常有价值的研究点。多文档自动摘要正是基于此背景衍生出来的技术,它是指将某一个主题下的多篇概述文档进行压缩、去重并提取关键信息,使人们能够快速准确地获取到关于这篇主题的精炼信息,而不必对每篇文档进行精细的阅读,提高了用户获取信息的效率。但是多文档自动文摘对于中文来说一直以来仍然是个很复杂的任务,其原因如下:一方面,中文具有一词多义的特点,使得文档量化的过程变得困难;另一方面,如何在不同的文档中抽取最能表现文章大意的中心句也是一个难点;最后,由于抽取的句子来自于多篇文档,对句子如何进行排序输出也是一个棘手的问题。针对新闻多文档事件,文章使用文本聚类的手段实现了自动文摘效果。在文本预处理中,考虑到一词多义的特点,运用基于知网词语相似度来计算句子相似度,并将词特征和语义的方法相融合,以此得到更合理的句子相似度效果;在聚类中,利用canopy算法解决k-means算法不能确定初始聚簇中心及k值的缺点;在抽取关键句时,使用TextRank算法并结合新闻最主要的几个特征对某个聚类簇下所有的句子进行权重计算并抽取关键句,同时考虑了句子上下文信息及篇章结构所带来的影响;最后利用相关规则对抽取的关键句排序从而得到文摘。实验利用哈工大多文档自动文摘语料库以及实验室做的某实际舆情分析项目数据进行相关测试,结果表明系统在哈工大多文档自动文摘语料库中F值提升了1~3个百分点;在舆情分析项目中将项目数据按照系统需求规范处理之后,F值提升1~4个百分点,基本满足用户对摘要的需求。
其他文献
近些年来伴随低排电力交通工具的开发和便携式电子产品的使用,研究者们为此尝试研发出新型高比能量的电池以适应日益增长的需求。锌/空气电池应运而生,由于锌/空气电池的正极
本课题在中温条件下,以玉米秸秆为原料进行了微氧发酵制氢的研究。在150mL厌氧瓶小试实验中,通过控制产氢过程中的进氧量对产氢的最佳微氧环境进行了探索;放大实验是将小试实
目前心血管疾病已经是人类第一大疾病,呼吸道疾病也成为严重威胁人类健康疾病之一。听诊器是临床诊断这两类疾病最常用的医疗器械,但传统的听诊器精度低,且无法保存声音信号,听诊过程依赖医生的主观经验,主观性强,国外高端电子听诊器价格昂贵且无法解决心肺音相互干扰这一关键问题,不能自动提取心音病理特征以辅助临床诊断。为了克服该困难,本文利用了非负矩阵分解和卷积非负矩阵分解,提出了两种心肺音分离方法并研究设计出
蛋氨酸(Met)作为唯一含硫的骨架氨基酸,广泛运用于饲料、食品、医药及化妆品等领域。目前,Met的生产方法主要有化学法。本文主要以2-氨基-4-甲硫基丁腈为底物,采用生物催化生
以泸州主城区某地下停车场为例,介绍FQY高性能膨胀剂结构自防水技术在泸州主城区某地下停车场的应用,混凝土结构自防水是综合的系统工程,必须在设计、材料、施工等环节,综合
随着中国基础设施建设的脚步不断加快,对工程建设效率的要求也越来越高。BIM(建筑信息模型)作为贯通工程建设全生命周期的技术工具,为提高建设效率,节约工程成本提供了一种有效的思路。现阶段对于滑坡工程地质勘查仍没有深度支持的BIM软件。基于这种情况,本文以Autodesk公司旗下的Civil 3D软件为平台,二次开发以克里金插值法为核心的三维地质建模模块和以SQL数据库为核心的工程勘查管理模块。建立了
近年来,随着信息技术的飞速发展以及人们对互联网的不断依赖,宽带接入网已成为一项重要的社会基础设施。由此催生的三网融合正在全国范围内如火如荼的进行。面对日益激烈的竞争环境,天津广电也在顺应潮流不断转型升级,寻求新的组网方式来满足未来大信息量的数据传输要求,FTTH(光纤到户)技术的出现为其指明了发展方向。FTTH技术不仅具有高带宽、抗干扰能力强、运行稳定等特点,而且具有灵活的组网能力,使得在组网建设
水质预测是水环境污染防治的重要方面,利用长期大量收集的水质监测数据就可以对水质污染趋势进行预测,这对水环境的管理和规划具有重要意义。针对如何及时有效地预测水质这一问题,本研究提出一种整合的水质预测模型,这一模型可以基于历史的水质监测数据预测未来一段时间多个时刻的水质状况,为水资源的有效调控与管理提供预先的数据指导。本研究所做的贡献主要体现在两个方面,包括对水质数据的预处理和提出采用基于注意力机制的
禽流感(Avian influenza,AI)是由禽流感病毒(Avian influenza Virus,AIV)感染多种动物的一种急性高度接触性传染病。NA是禽流感病毒粒子表面的重要抗原,在病毒复制过程中发挥
日志是反映系统运行状态和用户行为的重要数据,面对海量异构的日志数据,如何提供可靠的存储以及高效快速的查询以支持日志分析工作,是当前迫切需要解决的问题。HBase与Hadoop