面向新闻文本的自动摘要技术研究

被引量 : 0次 | 上传用户:lk_wuyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代以来,Internet在世界范围内得到了迅猛的发展,网上的信息资源得到了极大的丰富,同时,也带来了“信息爆炸”的问题——即信息极大丰富而知识相对匮乏。人们迫切需要寻找一条能够快速、准确获得所需信息的途径,自动文本摘要技术因其既可以压缩文本,减少用户的浏览负担,又可以为其它文本处理技术提供支持,逐渐成为国内外研究的热点。面对这瞬息万变的社会,无时无刻都有新的新闻大量产生。如何对这些新闻文本进行有效的存储、信息检索和情报挖掘成为一个迫切需要解决的重要问题。本文研究了面向新闻文本的自动摘要技术,在认真总结前人研究成果的基础上,着重解决了新闻文本的特征分析与提取、单新闻文本的自动摘要方法和多新闻文本的自动摘要方法这三个方面的问题。本文的工作和研究成果主要包括以下几个方面:1.深入分析了新闻文本的结构和语义等各方面的特征,明确新闻文本摘要的要素组成,提出了面向新闻文本的自动摘要技术框架,讨论了其中所涉及的关键技术。2.研究了适用于新闻内容的单文本自动摘要技术。针对新闻文本的词汇特点提出新闻文本预处理后的新词识别算法;在新闻文本特征分析的基础上,详细讨论了新闻文本的特征项提取和重要性判定算法,提出了针对新闻文本摘要的新的词汇特征和句子特征,改进了特征项的权重计算方法,使其对新闻文本的摘要更加有效;讨论了摘要生成后的润色和修饰。3.研究了适用于新闻内容的多文本自动摘要技术。根据相关事件新闻报道的特点,提出基于时间轴划分的多新闻文本自动摘要方法,将多新闻文本自动摘要分成相同时间新闻事件的自动摘要和不同时间新闻事件的自动追踪;在计算句子相似度时,加入语义的分析,消除同义词对句子相似度计算的影响;在确定新闻文本集的局部主题时,采用层次聚类算法并提出一种聚类数目的控制算法;最后,研究了针对新闻内容的多文本摘要的生成。4.设计并实现了新闻文本自动摘要系统。通过对提出的新闻文本摘要算法进行实验分析,证明其对新闻文本进行摘要的效果较好,基本能够满足目前的应用需求。
其他文献
目的 建立CT机影像质量保证检测范围及标准。方法 采用美国RMI461A及463检测体模、美国MDH1015C剂量仪及10X5103CT电离室探头、瑞典UNF9004kVp表等检测设备,针对高对比分辨
本文全面分析了螺栓拉伸机的结构特点,阐述了螺栓拉伸机设计原则和设计特点。该机成功地解决了大直径主螺栓在一定范围内有准确预紧力和精确伸长量的问题,同时通过单台和成组
<正>电化学知识是高考中必考的内容,很多同学感觉这部分试题不好做,下面笔者结合多年经验,谈谈该类题型的解题方法及规律.1解题思路分析1.1会看装置图,学会判断电极涉及电化
城市土壤是城市生态环境的主要组成部分之一,具有重要的生态、环境和经济功能,也是城市污染物的源和汇。随着工业发展和城市化推进,一些城市土壤环境质量日益恶化,直接或间接影响
对5种桉木进行了原料分析,同时在用碱量(Na2O)17%、硫化度25%、液比1∶4、升温时间2h、保温2h、最高温度170℃的优化工艺条件下进行了蒸煮实验,进而对其综合制浆性能进行了比
随着国民经济的快速发展以及环境污染问题的日趋严重,加大清洁能源的使用成为一个刻不容缓的议题。我国目前发展利用天然气资源除了可以部分替代煤炭和石油,还可以大幅减少燃煤
为何企业和联结企业选用相同的会计师事务所?这是现有理论不能解释的。为此,本文从一个新的理论视角,即社会嵌入理论,来考察这一问题。本文认为:企业在选择会计师事务所时,除
我公司近年来生产电站转子、核电锻件、加氢反应器锻件、石化冶金产品非常多,简要介绍东北大学大型电渣炉项目组研制120t电渣炉的主要供电方式及本体结构设计。
复杂背景条件下的运动目标检测由于其极高的应用价值和良好的发展前景,正日益成为计算机视觉的一个基本问题。目前,运动目标检测理论已被广泛的应用于军事侦察、安全监视、交
魏晋是中华自然审美史上的重要阶段,其主要成就表现在三个方面:纵游山水风尚将庄子逍遥游自然审美思想转化为现实;在直接欣赏自然基础上发展出自然审美三大拓展形态———园