面向用户查询的快速多文档自动文摘方法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:wc420178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。   本文重点研究了面向用户查询的多文档自动文摘技术。它是自然语言处理领域一个新的研究热点,旨在根据用户的查询,将检索到的相关信息以简洁、准确的摘要形式呈现给用户,帮助他们判断和浏览感兴趣的内容,提高信息获取的效率。主要的研究工作如下:   1.对句子的构成进行了深入分析,然后进一步探讨了句子、文档集、文摘以及用户查询之间的关系。在此基础上,建立了一个统一的自动文摘模型,为自动文摘研究提供了一个理论框架,使我们对文摘问题有了更深刻的认识。这个模型包含三个子模型,本文分别实现了这三个子模型。   2.证明了LexRank存在解析解,并给出了简单快速的求解方法。然后将这种方法作为基于内容代表性的子模型,纳入到自动文摘模型中。   3.提出了一个新的模型——非完全吸收马尔科夫链模型,并证明了它与吸收马尔科夫链之间的对应关系。它的求解相对吸收马尔科夫链简单高效。然后将它作为基于内容代表性的子模型,纳入到自动文摘模型中。   4.最后,在分析模型缺陷的基础上,对统一文摘模型进一步改进,得到了两种新的快速自动文摘方法,并通过实验证实了它们的有效性。
其他文献
网格技术是当前网络计算的前沿领域,目标是将地理上分布、异构的各种高性能计算机系统通过高速互联网连接并集成起来,共同完成一些重大应用研究问题。全球范围的气象数据共享是
学位
研究了具有异构类型应用程序的MEC系统中的能量延迟折衷,包括非卸载工作负载,云端卸载工作负载和网络流量。基于Lyapunov优化的算法被提出来共同决定卸载策略,任务分配,CPU时钟速
本课题是中国科学院信息化专项项目“超级计算环境建设与应用”的一个重要组成部分。在高性能计算环境中,对资源状态、网格连接状态、应用程序运行状态的监控与分析至关重要,通
学位
近年来,随着无线通信和智能软硬件等物联网技术的飞速发展,各类智能移动设备得到大量普及应用。移动群智感知是一种利用智能移动设备无所不在的感知能力,实现大规模、复杂数据采
随着互联网的不断发展,人们越来越多的通过网络进行信息的发布和接收,这也导致网络舆论对社会稳定的影响程度与日俱增,而能够更好的发现相关事件便成为了舆情系统的主要工作。传
在分布式环境下,由于访问控制机制,不同管理域之间的数据传输,需要利用中间节点中转。一种常用的实现中转的方法就是数据路由,目前被很多分布式数据传输系统所采纳。本文对路径择
服装动画是虚拟现实领域研究的热点和难点之一,也是数字娱乐产业的核心技术之一。利用服装动画技术,能够驱动虚拟角色的服装跟随肢体动作产生逼真的动态效果,为虚拟角色带来强烈
目前针织服装设计领域面临着日益加剧的市场竞争,传统的基于手工设计的研发模式已不能适应当前多品种、小批量、交货期短的市场需求。传统的计算机辅助设计软件(Computer Aide
近年来,随着信息技术的快速发展,我国自然资源和地理空间信息的开发应用迅速展开,与此同时,我国自然资源和地理空间信息资源的开发利用和管理也存在一些问题:一是信息共享中的“部
高校教师综合评价是一个复杂的过程,它依据高校发展目标及高校发展阶段特征,建立科学的评价指标,对高校教师教学科研情况进行系统检测和考核,并做出相应的价值判断。科学合理的教