非领域知识依赖的文本摘要方法的研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:coolyl1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代如何短时间内获取最有用信息以适应社会的生存和竞争的问题,越来越被人们重视。信息摘要作为该问题的主要解决手段受到广泛关注。由于自然语言文本是信息记录和传播的主要形式,因而文本摘要成为信息摘要的几大核心研究之一。目前文本摘要方法主要分为:基于浅层文本特征的方法和基于领域知识库的方法。基于领域知识库的方法存在许多难以克服的问题,包括文摘生成时间长、运行空间要求高、多语言间的转换存在障碍、存在过度理解、新概念和新领域不识别等。因此,对基于浅层的文本特征进行更精准的重要内容判断显得更有应用研究价值和实用意义。基于浅层文本特征的文本摘要方法对重要内容判断的准确性差强人意。导致该问题的主要原因有两个方面:第一,已有文本特征对重要内容的指示能力没有被充分利用。语言表达的多样性、指代关系和词形多变等情况,导致部分已有文本特征存在对文本中重要内容的重要度指示能力被干扰降低。第二,更有效的文本特征和算法没有被发现。语言学和功能语法学对文本中潜在的重要语义的判断能力没有被发觉和利用。针对以上问题主要研究工作如下:第一,提出基于左归处理的文本摘要算法。针对语言表达多样性导致的部分文本特征重要信息指示能力降低的问题,首先将文本的指代信息还原,然后将所有非停止词统一对齐同义词链的链首词。统一多变的表达和词形,降低特征计算和统计的噪声,以提高与词汇相关的文本特征重要度判断能力、改善文本摘要算法对重要内容判断的准确性。实验结果表明,基于左归处理的的文本摘要算法效果优于对比的已有文本摘要算法。可有效改善因语言表达多样性造成的文本特征的重要内容指示能力被干扰降低的问题。第二,提出左归潜在场景分析算法(LAPS)。基于功能语法构建三类语言模型,借助马尔科夫链计算潜在场景的全局重要度,依据潜在场景重要度判断重要文本内容,以更准确的判断文本中重要内容、改善文摘质量。实验结果表明,左归潜在场景分析算法对比已有算法有更好的文摘效果。证明基于语言学和功能语法学对文本重要内容进行更精准判断的可行性。第三,提出基于流形排序的左归全特征潜在场景分析算法(LAPSx)。用LAPS算法中的语言模型思路,将全部文本特征融合计算初始语言模型权重,运用流形排序算法计算全局模型权重,根据模型权重判定潜在场景重要度,依此分析重要文本内容。后采用二次融合方案弥补,由间接特征利用造成的文本特征指示能力传递衰减的问题,以更好的发挥全部文本特征的作用,取得更精准的重要文本内容、改善文摘质量。实验结果表明,基于流形排序的左归全特征潜在场景分析算法(LAPSx)比对比的融合方法更好的发挥全部文本特征对重要文本内容的指示作用,能取得更精准的摘要文本。
其他文献
本文分析了当前国内计算机平台考试的现状和问题,结合天津市高职高专计算机应用能力考试的实际需求,提出了具体的设计思路和解决方案,包括业务流程分析、数据分析、功能模块
无线传感器网络(WSN)是全新网络技术,它综合了传感器、低功耗通讯以及微电机等技术。无线传感器网络是由很多无线传感节点密集分布组成的,它具有以下特性:各传感节点位置随机
传统的以服务器为中心的存储体系,由于存在“存储瓶颈”和“单点失效”问题,正在向以资料为中心的存储体系转变。SAN(Storage Area Network)就是这种存储体系的优秀代表,但它的
网络考试已日益成为一种主要的考试方式。如何把计算机和网络更有效地引进教育领域为教育服务已成为教育学中的一个新课题和发展方向,论文在“湖南省高校学生非计算机专业计算
目前,各个汽车生产厂商的电控系统中都对发动机采用电子控制装置 (ECU),发动机中各个参数的标定早已成为关注的焦点,它直接决定了整个发动机的动力性能、舒适性能以及污染指数,而
随着计算机技术的迅速发展,图像和视频数据的海量增长推动着计算机视觉研究和应用的不断发展,同时也促进了模式识别,人工智能和机器学习等相关领域的发展。人体行为识别作为
随着计算机技术的不断发展,网络安全的问题也越来越受到人们的关注,其中网络漏洞的存在是影响到网络安全的根源之一。对网络安全来说,如何规范、合理的对漏洞进行分类就显得尤为
快速、高效的文本聚类算法有助于从大量非结构化的文本源中发现和挖掘其所蕴含的巨大潜在知识。文本数据以向量空间模型表示成特征向量,往往呈现出高维特征。利用投影寻踪模型
本学位论文选择了将中国书画艺术电子化创作的论题作为研究中心。 本学位论文对中国书画艺术电子化创作中涉及到的若干智能设计与美学创作的重要问题以计算机科学研究的方
目前,市场上流行的网络物理隔离器件硬件系统,往往基于工控机或者多片嵌入式芯片构成,实现复杂、成本较高。本文首次提出了基于大规模逻辑门阵列FPGA(Field Programmable Gat