基于交互增强原理的多文档自动文摘算法

来源 :第四届全国学生计算语言学研讨会(SWCL-2008) | 被引量 : 0次 | 上传用户:xypcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种基于交互增强原理的多文档自动文摘方法。首先对句子集合和文档集合建立二部图,然后根据交互增强原理计算每个句子和文档的重要性得分。为了去除冗余,用Normalized-Cut方法将句子聚类成几个不同的子主题,并选出重要性得分最高且不在同—子主题中的句子生成文摘,在DUC2007测试数据上通过实验证明了本文所提出方法的有效性。
其他文献
我最早学习汉简牍隶书,是受苏州沙曼翁先生的影响。那是上个世纪80年代初,沙先生的个人书法篆刻展在河南省博物馆展出,当时展出的作品很多,但不像今天书展的展厅布置及作品装
语义角色标注为谓语动词的论元及附属成分分派语义角色,从而得到句子的浅层语义结构。本文针对两类中文特殊句式“把”字句和“被”字句的句式特点,提出了一种基于规则的语义
如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基
会议
省略恢复是计算机在处理自然语言时遇到的典型网难之一,对自动文摘、信息抽取等具有极为重要的意义。虽然国内外学者从句法、语用、认知等多个角度探讨了省略现象,但是从自然
会议
本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显
组块分析是自然语言的处理研究领域中新近出现的一个语言处理策略,它能有效降低句法分析的难度。本文在汉语多词块描述体系的基础上,阐述了汉语多词块库中块的结构,并对库中
为实现自动分析和自动生成蒙古语语句而研制的《蒙古语语法信息词典》由不同的层次构成,《蒙古语语法信息词典叹词分库》是它第二层次的有机组成部分。本文介绍了有关《叹词分
短语译文获取技术是基于实例机器翻译系统EBMT中的核心技术之一,短语译文获取技术的性能直接影响到EBMT的性能。当前主要的短语译文获取方法过于依赖词对齐结果,只能从词对齐
会议
词对齐是目前主流的统计机器翻译系统必备的模块,而IBM模型是词对齐最常用的模型,但是IBM模型不允许源语到目标语的一对多词对齐,这一限制在像汉英翻译这样频繁出现一对多对齐
本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量