基于概念向量空间模型的中文自动文摘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhucejuren2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息成指数级的增长,信息爆炸已经成为一个很严峻的问题。通过文摘可以减小信息量,但是如果对大量的文本信息做文摘,人工进行的这些专家文摘所消耗的时间是不可估算的。基于此,机器自动文摘就成为一个非常重要的研究课题。 自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。自动文摘也是一项极具难度和挑战性的工作,人类已经对此进行了几十年的探索。限于相关领域的已有水平,现阶段的自动文摘系统还不能进行完全的自动语法、语义和语境分析,摘要结果还属于指示性摘要的范畴。 本文在目前自动文摘的研究现状下,运用统计学的方法,利用HowNet频率统计进行概念统计的文本摘要的研究。研究工作主要包括以下几个方面: ① 提出基于HowNet获得词语概念的方法。 ② 用概念频率统计代替传统的词形频率统计,来建立概念向量空间模型;通过计算句子重要度和减少句子冗余度,得到文本摘要。 ③ 开发了一个基于概念向量空间模型的中文自动文摘系统。 对基于概念获取的自动文摘系统,运用内部和外部评测手段进行了系统评估。并与基于词频统计的机械式自动文摘系统进行了比较,试验结果证明本系统多个性能指标优于基于词频统计的机械式文摘系统。
其他文献
语义依存是中文语义的深层分析,完善的语义表示体系对语义依存分析有重要作用。但是,目前公开且规范的中文语义依存标注语料还比较少。HIT语义依存是第一个被用来组织公开语义
由于自动导引车的高效性,精确性和灵活性,自动导引车在制造设施、仓库、配送中心和中转码头等地方得到广泛应用。自动导引车对可靠性要求非常高,形式化方法是保证高可靠性的
血管疾病已成为威胁当前发达国家公众健康的头号因素。近年来医学图像中的磁共振成像(MRI)能够有效地呈现出医学数据的几何形态等特征。如果能够采用MRI数据重建出三维脑血管
随着宽带网的发展和用户数量急剧增加,Web服务器成为访问的瓶颈。B/S模式中的Web服务器单点失效可能影响整个网络的可靠性。利用现有的Web缓存服务器和Web缓存服务器机群方案
随着网络的发展,许多应用中的数据不再是数据库中静态的数据,而是以一种流的方式在线到达的动态数据。这样的数据具有数据无界,数据量大,流速快,并且要求实时处理等特性,这种新型的
不断发展的生物实验测定技术产生了越来越多的生物网络数据,比如蛋白质相互作用网络、基因转录调控网络等,这些数据中蕴含了大量的关于各种有机体之间相互影响和相互作用关系的
计算机动画是计算机图形学中一个重要的领域,而用计算机生成三维的卡通动画又是计算机动画中一个举足轻重的研究方向。本文在回顾了烟的动态模拟、烟的动态控制以及烟的非真
网格(Grid)技术是把地理位置上分散资源集成起来的一种基础设施,它为分布式资源与服务的共享和协同工作提供了一个开放的标准平台。随着开放网格服务体系结构OGSA和Web服务资
因为MapReduce对于处理大规模数据有着很好的可扩展性,所以MapRe-duce成为了云计算中非常流行的一个编程模型。但是,MapReduce在异构集群上的表现并不好。出现这种情况的原因是
Web服务和网格计算是构筑在互联网基础上的新兴分布式计算技术,以集成利用各种网络资源、异地处理、跨网协作为特点,成为构建企业异构信息交换平台的下一代支撑技术。Globus