中文科技文献自动摘要系统

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:x1026221496
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,人们迫切需要信息压缩工具来对大量的信息进行提炼、浓缩,而自动摘要系统正是这样的工具。人们可以首先利用计算机对这些大量的文本信息进行处理,生成基本能够反映对应文章的主题的摘要信息。然后人们只要阅读少量的摘要就能确定是否进行进一步阅览全文,这将大大提高人们获取电子文本信息的效率。本文正是对中文自动摘要系统研究的一个探索。本文首先介绍了摘要提取的定义、意义、摘要的分类以及摘要的书写规范,提出了本课题的研究背景和目标。接着本文通过对现阶段几种主要的自动摘要技术:基于统计的自动摘要方法、基于自然语言理解的文摘方法、信息抽取、基于结构的自动摘要方法的比较和分析,得到它们自身的优点和缺点,并在此基础上提出一种主要基于传统的统计技术,并结合一定的语义关系的摘要方法。该方法主要结合了基于统计和理解的摘要技术,针对中文科技文献提取出摘要。该方法首先对文本进行分词和词形标注处理,然后通过对词频等文本物理信息的统计,利用HowNet中的语义关系计算词语间的相似度,以此合并具有同义关系的词语,结合停用词词库和科技领域词词库计算出词语的权重,按照词语权重提取出能表征文本主要内容的特征词;根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小提出候选摘要句;最后利用VSM消除重复候选摘要句,并采取措施加强摘要连贯性、消减指代,参照科技文献摘要写作规范将候选摘要句按原文顺序输出。最后本文还讨论了系统的评价方法和系统的实验结果。实验结果达到了预期效果,验证了本文提出的基于统计摘要与基于理解摘要相结合的摘要方法的可行性。本系统提出的摘要质量较好。另外,在实现系统的过程中,本文还提出了领域词词库自动学习的方法。该方法能使领域词词库随着处理文摘数量的增加自身得到不断的完备,提高系统提取出的摘要的质量。
其他文献
随着信息时代的飞速发展,存储在数据库中的信息呈指数级增长。人们希望从存储的大量信息中发现隐藏在数据背后的,有价值的知识。在社会需求的强劲推动下,数据挖掘技术得到了飞速
地理信息的提取和识别是地理信息系统(GIS)、全球定位系统(GPS)发展的基础和迫切需要。自动矢量化因其效率、精度、自动化程度和可靠性方面的显著优势,已经成为获取地理信息的
本文主要研究了将粗糙集 (Rough Set,RS) 约简的神经网络(Neural Network)技术同基于事例推理 (Case-Based Reasoning,CBR) 技术相结合用于昆虫的识别。神经网络技术和基于事例
Web应用系统是互联网技术推广以来发展最快的一种应用系统,基于Web的应用系统已经逐渐成为计算机应用系统的主流模型。J2EE技术架构为Web应用系统提供了性能可靠、服务优良的
为了让计算机能够自动处理机务信息,我们提出了机务信息规范化的研究课题。在机务信息规范化中,自动处理自然语言形式的机务信息是至关重要的。对于一个机务信息系统来说,理
重复体识别问题是现代生物信息学中基因组分析的一个基本研究课题。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复
医院的信息化建设在一定程度上被医院的管理者看作是摆脱困境的一项重要举措,医院的管理者希望通过信息管理系统的实施能让管理层更清楚掌握医院各项业务的开展情况和对医院现
随着网络技术的不断发展,Internet已经成为人们工作和生活的重要组成部分。为满足人们日益增长的通信需求,下一代互联网NGI(Next Generation Internet)必须支持总最佳连接ABC(A
随着网络通信量爆炸性增长以及高性能网络设备的出现,密集波分复用 DWDM(Dense Wavelength Division Multiplexing)技术将会成为下一代Internet骨干网的核心技术。在日趋成熟
P2P(Peer-to-Peer)网络最近几年发展很快。非结构化和结构化P2P网络是其中的两种基本拓扑类型。非结构化P2P网络使用洪泛方法,有着较高的稳定性,但是可扩展性和查询效率比较