基于交互增强原理的多文档自动文摘算法

来源 :第四届全国学生计算语言学研讨会(SWCL-2008) | 被引量 : 0次 | 上传用户：xypcs

【摘要】

：

本文提出了一种基于交互增强原理的多文档自动文摘方法。首先对句子集合和文档集合建立二部图,然后根据交互增强原理计算每个句子和文档的重要性得分。为了去除冗余,用Normal

【作者】

：

王小磊张瑾许洪波

【机构】

：

中国科学院计算技术研究所信息智能与信息安全研究中心,北京 100190 中国科学院研究生院,北京 100039

【出处】

：

第四届全国学生计算语言学研讨会(SWCL-2008)

【发表日期】

：

2008年期

【关键词】

：

交互增强多文档自动文摘重要性得分句子生成子主题方法文档集合句子聚类句子集合测试数据有效性二部图证明实验冗余计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了一种基于交互增强原理的多文档自动文摘方法。首先对句子集合和文档集合建立二部图,然后根据交互增强原理计算每个句子和文档的重要性得分。为了去除冗余,用Normalized-Cut方法将句子聚类成几个不同的子主题,并选出重要性得分最高且不在同—子主题中的句子生成文摘，在DUC2007测试数据上通过实验证明了本文所提出方法的有效性。

其他文献

三种视角下看传统临武威汉简

我最早学习汉简牍隶书,是受苏州沙曼翁先生的影响。那是上个世纪80年代初,沙先生的个人书法篆刻展在河南省博物馆展出,当时展出的作品很多,但不像今天书展的展厅布置及作品装

期刊

书法篆刻汉简沙曼翁牍书书法创作古代书法硬毫笔李刚田汉碑曹全碑

两类中文特殊句式的语义角色标注

语义角色标注为谓语动词的论元及附属成分分派语义角色,从而得到句子的浅层语义结构。本文针对两类中文特殊句式“把”字句和“被”字句的句式特点,提出了一种基于规则的语义

会议

中文特殊句式语义角色标注语义结构谓语动词句式特点基于规则附属成分标注方法正确率实验论元句子

基于语义结构平行的汉语人称代词消解

如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基

会议

基于概念层次网络(HNC)理论的省略恢复研究

省略恢复是计算机在处理自然语言时遇到的典型网难之一,对自动文摘、信息抽取等具有极为重要的意义。虽然国内外学者从句法、语用、认知等多个角度探讨了省略现象,但是从自然

会议

语义角色在指代消解中的研究

本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显

基于汉语多词块的语料库研究

组块分析是自然语言的处理研究领域中新近出现的一个语言处理策略,它能有效降低句法分析的难度。本文在汉语多词块描述体系的基础上,阐述了汉语多词块库中块的结构,并对库中

会议

汉语词块组块分析自然语言自动识别中块研究领域描述体系句法分析处理策略地统计结构基础测试标记

《蒙古语语法信息词典叹词分库》的建设及难点分析

为实现自动分析和自动生成蒙古语语句而研制的《蒙古语语法信息词典》由不同的层次构成，《蒙古语语法信息词典叹词分库》是它第二层次的有机组成部分。本文介绍了有关《叹词分

会议

蒙古语语法信息词典叹词建设情况自动生成自动分析难点问题处理方法层次构成语句研制机组

基于序列相交的短语译文获取

短语译文获取技术是基于实例机器翻译系统EBMT中的核心技术之一,短语译文获取技术的性能直接影响到EBMT的性能。当前主要的短语译文获取方法过于依赖词对齐结果,只能从词对齐

会议

利用1-m词对齐信息改善统计机器翻译性能

词对齐是目前主流的统计机器翻译系统必备的模块,而IBM模型是词对齐最常用的模型，但是IBM模型不允许源语到目标语的一对多词对齐，这一限制在像汉英翻译这样频繁出现一对多对齐

会议

词对齐信息统计机器翻译机器翻译系统一对多汉英翻译系统性能问题简化目标语模型实验结果IBM源语限制现象条件模块方法

网页去重系统的设计与实现

本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量，然后对主题句向量

会议

镜像网页去重系统语义相似度计算主题句方法运算效率向量搜索引擎准确率重要度召回率上近似互连网证明现象位置提取实验句子

基于交互增强原理的多文档自动文摘算法

与本文相关的学术论文