中文自动文摘技术若干问题的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hotter_day
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在本文中,我们首先介绍了计算语言学的基础概念体系,给出了计算语言学的定义以及计算机对自然语言的研究和处理的方法和过程,我们还介绍了国内外关于自动文摘系统等方面的研究方向和发展动态,并指出了自动文摘系统研究的某些不足。然后我们介绍了文摘和自动文摘系统的基本概念体系,并针对目前几种主要的自动文摘系统形式化模型和方法:基于统计的机械文摘、基于意义的理解文摘、基于概念的文本结构分析方法和基于知识的文本摘要等模型和方法进行了比较和分析,对它们的优点和缺点进行了讨论,归纳出各自的特点,进而在总结各种不同类型的自动文摘系统的特点的基础上,将基于统计的机械文摘、基于意义的理解文摘和基于概念的文本结构分析方法等三种研究方法相结合,提出了一种综合型的自动文摘系统的设想。 在本文中,我们还给出了名词性短语的指代和省略的概念以及分类,引入了同义词集、缩略集、归类集、归类函数和差异性函数的概念,论述了同义词的回指、缩略形式的回指、省略的回指、限定性名词短语的回指以及代词的回指,在此基础上给出了同义词的回指、缩略形式的回指、省略的回指、限定性名词短语的回指以及代词的回指等的回指算法思想,并引入了这五种形式的名词性短语的回指算法。 我们随后在已经提出的五种形式的名词性短语回指算法的基础上,从篇章宏观结构分析和篇章微观结构分析的角度,介绍了有关全文结构、章节结构、段落结构和复句结构的分类和分析方法,尝试性地给出了复句结构新的分类方法,描述了文本主题句的提取算法思想,引入了文本主题句的提取算法,并对自动文摘系统进行了探索性的研究: (1)我们先对文本进行名词性短语的回指,这可由同义词的回指、缩略形式的回指、省略的回指、限定性名词短语的回指以及代词的回指等名词性短语的回指算法来完成。 (2)在名词性短语的回指已完成的前提下,我们来提取文本的段落、章节以及全文的特征词,得到文本段落、章节和全文的特征词集。dHry 硕士学位论文@MASTER’S THESIS 臼)我们还讨论了如何对文本进行篇章宏观结构分析和篇章微观结构分 析,在完成全文、章节、段落和复句结构分析的基础上,运用主题句的提 取算法进行段落、章节以及全文主题句的提取。 本文尝试性地给出名词性短语的回指算法和文本主题句的提取算法,为进一步讨论一种综合基于统计的机械文摘、基于意义的理解文摘和基于概念的文本结构分析方法等三种研究方法的中文自动文摘系统打下基础。
其他文献
作为人工智能的一个重要应用,人脸机器自动识别是一项极具挑战性的难题。它在理论和应用中的潜在价值一直激励着科研人员的不懈努力。本文主要研究了人脸图像的计算机识别问
数据采集和数据处理是配电自动化系统的两个基本功能.是为其他各种高层应用提供基本数据服务的,是其他应用的基础.该文所涉及的主要部分是从分布式、程序并发与协同设计思想
本文首先提出了国内近几年来办公自动化系统中存在的问题,重点分析了软件的模块复用性差这个问题。针对这个问题,本文提出可以建立一个工作流模型以解决。随后详细分析了在办公
宝钢教培中心在企业的远程教育培训系统中探索引入新的教育理念,即基于教育知识管理理念,利用知识管理技术,开发基于Web的远程教学支持系统.该系统的功能包括了教学媒体素材
随着互联网的普及,向搜索引擎提交查询进行信息检索已经成为人们获取网络信息的主要方法。人名检索是最常见的检索之一,通过搜索引擎可以很方便的获取一个人物的信息,但是由
本文首先分析比较了电力系统短期负荷预测的传统方法时间序列法和回归方法以及最近的专家系统和神经网络技术的优点和不足,然后针对人工神经网络BP算法的不足对其进行了改进,采用了基于拟牛顿的自适应算法,它提高了网络学习效率,具有较快的收敛速度和较高的精度。接着提出了改进的遗传算法来改善神经网络的局部收敛性。文中利用神经网络和遗传算法的优点,建立了一种神经网络和遗传算法相结合的模型来进行电力系统的短期负荷预
石油地质是计算机图形学的主要应用领域之一.本论文首先分析了石油地质中有关三维可视化技术的三个重要特点:一是形状不规则;二是属于科学计算可视化范畴;三是要虚实结合、动
随着信息技术的飞速发展,人们对信息安全的要求越来越高,因而利用密码技术对信息进行加密的重要性已日益突出.目前已有分组算法软件实现速度很难突破100Mbps的大关,就算是用D
该文从多角度、多方位对数字作品的安全与版权保护开展研究,包括数字作品交易的匿名性、公平性、可分割性;数字作品版权标注、数字作品版权认证、数字作品版权辅助认定;以及
该文提出了双密钥的概念,即签名密钥和加密密钥.签名密钥在网络上代表用户的身份,由用户自己产生,且不能备份.加密密钥用于用户加解密数据,由密钥管理中心(KM)产生,由密钥管