中文单文档自动文摘技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xys0709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的重点是基于句子抽取的中文单文档自动文摘的几个关键技术:语义段划分、文摘句选取,最后文章对单文档自动文摘系统的评价进行了探讨。首先,本文对基于自然段相似度计算的语义段划分方法进行了详细的讨论,并与基于TextTiling算法的方法进行了对比;在文摘句选取部分,本文应用了命名实体识别和指代消解技术,在此基础上提出了结合去冗余技术的句子特征加权的文摘句选取方法,并且与基于句子特征加权法、全覆盖法这两种方法进行了对比。本文还利用遗传算法对其中的加权系数进行了优化。此外本文讨论了单文档自动文摘的评价技术。基于四个不同文摘系统生成的文摘,结合人工评价的结果对不同的文摘自动评价方法进行了对比,另外,结合自动评价和人工评价,本文对自动文摘中各种方法和技术应用后所起的作用进行了有效地评估,极大地推动了系统的开发与改进。
其他文献
网络空间信息系统是当今GIS发展的必然趋势,目前的研究工作主要集中在利用Internet技术在Web上发布空间数据提供给用户浏览和使用。随着Web上空间数据量的快速增加,以及各个W
本文的重点在于研究能够适应上述并行事务处理系统的数据存储分配策略。本文首先描述了数据库并行事务处理系统的整体结构和工作原理。然后,通过考虑由关系之间的关联而导
虽然近几年来网络速度有了很大的提高,但是由于接入Internet 的用户数量急剧增加以及Web 服务和网络的固有延迟,使得网络越来越拥挤,用户浏览网页时经常会出现网页打开过慢的
随着网络的普及,Linux系统在网络服务器中得到广泛使用,它的安全性越来越受到人们的重视。 本论文首先研究了Linux系统以及运行于该系统的应用程序漏洞,分级讨论了防御对L
随着多媒体、通信技术的发展和普及,数字图像的应用和传播也越来越广泛。由于图像包含的丰富内涵远非文本所能表达,所谓“一幅图像胜过千言万语”,图像所包含信息的分析和获取成
近几十年来随着生物医学科学文献的增多生物医学信息检索已经得到了越来越多的研究人员的关注。如MEDLINE数据库2009年已经包含了超过17,000,000的生物医学文献。仅在2008年
随着计算机技术的发展和网络技术的普及,互联网已成为人们获取信息的最重要途径之一。搜索引擎技术虽然在一定程度上解决了网络上资源的定位问题,但是随着网络规模的扩大,特别是
随着Internet的快速扩展,网络安全已经成为现代计算机系统面临的最重要的问题。由于互联网络在设计、实现和使用中存在着种种安全问题,使得入侵事件不断发生。因此,入侵检测(
知识管理是组织决策支持系统的一个重要研究内容,它为ODSS提供了知识获取、共享以及重用等功能。但是,由于人们对知识的理解存在个体之间的差异,因此ODSS的知识管理存在很多
近年来我国高等院校毕业生的就业问题不断突现出来,原因不仅包括经济改革、高等院校扩招、教育资源紧缺、就业模式不健全等,还包括高等教育模式不适应社会要求的重要因素。深