中文科技文献网络搜索引擎自动文摘系统的设计与实现

被引量 : 0次 | 上传用户:bd235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,Web上的各种数据急剧增加,网络已经成为数据的仓库和知识的来源。用户如何才能快速有效地获取和利用这些资源,已经成为迫切需要解决的一个问题,而信息检索和自动摘要是目前解决这一难题的关键技术。自动摘要技术将文档内容以简洁精练的形式呈现出来,是信息检索技术发展到一定程度的自然延伸。目前,搜索引擎作为信息检索的一个重要工具,往往只是简单截取关键字所在的部分句子或段落作为摘要提供给用户,造成用户在浏览搜索结果时无法把握整个网页的内容提要,进而影响检索效率。而传统基于词频统计的摘要方法又主要针对纯文本文档,且单纯考虑文本的表层特征,缺乏对文档的语义分析,生成的文摘质量不高,因此也难以直接适用于Web文档摘要的自动提取。本课题的研究目标是在对自动文摘技术进行深入研究的基础上,提出一种适合于中文科技文献搜索引擎的Web文档的自动摘要方法,并实际开发出一个Web文档自动摘要系统。该系统可作为搜索引擎的辅助检索,摘要内容应满足完备性和概括性,并且具备一定连贯性。为此,本文在综合分析Web页面信息特征的基础上,首先获得页面的正文信息,然后综合统计方法和启发式规则来提取文档的关键词、关键句,最后根据摘要比例输出符合条件的摘要句子。在这过程中,本文全面系统的介绍了文本自动摘要的相关问题和技术,深入分析了Web页面信息特征,提出了Web页面原文摘要的抽取方法及一种适合于网页信息的小标题提取算法,探讨了摘要生成的相关技术,并提出了一种结合统计方法和文本结构特征分析的自动摘要方法。最后本文综合以上研究成果设计并实现了一个中文Web网页自动摘要系统模型,并对实际的网页进行了测试。测试结果表明:对网页文档的摘要能够满足完备性和概括性的要求,反映文档的主要内容。说明本文提出的摘要方法对中文网页的处理是切实可行的。在测试中发现,部分摘要的连贯性不是很好。在不影响处理速度的前提下,适当地利用一些自然语言理解和生成技术来提高摘要质量,尤其是改善摘要的可读性,这将是今后进一步研究的重点。
其他文献
为了探讨多层螺旋CT肺动脉造影(Computed Tomography Pulmonary angiography,CTPA)对急慢性肺动脉栓塞(acute and chronic pulmonary embolism)鉴别诊断、分析其血液动力学改
厦门水务集团目前拥有高殿、杏林、集美、梅山、莲坂、上李六座水厂,待建两座翔安水厂和海沧水厂。厦门市自来水日供水能力总计120万吨,供水管网总长度近1500多公里,城市用水
2009年6月~9月,陕西省考古研究院和咸阳市文物考古研究所对位于咸阳市渭城区北杜镇边方村的隋鹿善夫妇墓进行了发掘。该墓为斜坡墓道、五天井的双室土洞墓,平面呈"中"字形,墓
网络时代给教育带来了许多新变化、新特点。教师要适应这些变化 ,就应实现角色转换 ,从文化知识的传授者、知识学习的指导者、课程教材的执行者、教育教学的管理者转变为未来
<正>斯蒂芬·道恩斯(Stephen Downes)和乔治·西门子(George Siemens)于2008年首次提出"大规模开放在线课程"(MOOC:massively open online course,中文被音译为"慕课")这一术
随着手机功能的不断强大,人与手机的交互关系变得越来越复杂,特别是多点触摸技术被应用于手机操作后,手机屏幕即具有信息输入功能,又具有信息输出功能。这为手机界面的设计带
对于数学应用题的研究一直是认知心理学家和教育心理学家研究的热点问题之一。国内外学者对数学问题的结构特征、表征机制、解决数学问题的策略和影响数学解题的因素等问题都
基于问题学习对我国教学改革有三点启示 :一是在学习目标上 ,要立足于灵活的知识基础与高层次思维能力 ;二在问题与课程知识上 ,是要正确处理问题与课程知识之间的辩证关系 ;
在实现师范教育战略性转移和跨越式发展的进程中 ,加强重点师范大学的建设具有重要意义。在政策上进一步明确重点师范大学在教师教育体系中的定位 ,支持重点师范大学创新教师
<正>党的十八大以来的反腐败工作,不仅提振了民心人心,而且革新了官风官气,塑造了中国官场新生态。官场新生态改变的不仅仅是官场本身,还是一个国家的前途和命运。党的十八大