基于基本要素的多文档自动文摘研究

被引量 : 6次 | 上传用户:fanfrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的日益普及,在线信息急剧增加,如何有效地获取和描述这些文本信息显得越来越重要。尽管用户通过搜索引擎可以快速获得丰富的文档,但要获取其中内容则需要消耗大量时间去阅读每一篇文档。自动文本文摘(Automatic Text Summarization)能够为用户提供一个原文档的压缩版本,旨在减轻用户的阅读压力;而多文档自动文摘(Multi-document summarization)是从多篇文档中提取主要的或用户需要的信息,其在信息检索IR(Information Retrieval)中的重要地位使其成为NLP(Natural Language Processing)的一个研究热点。本论文研究了多文档自动文摘中的四个关键问题,分别是:内容单元选择中的人工行为模式;基于句子抽取的文摘内容提取方法;句子抽取后的排序策略;对文摘质量中“内容连贯性”的评测模型。主要研究工作和成果概括如下:1.提出了基于基本要素(Basic Element, BE)的内容单元选择策略。通过分析BE的频率特征与其被选择作为文摘内容的概率之间的相关性,考察了人工文摘中内容选择的潜在行为模式。对DUC2004任务2所用数据集的统计分析结果显示,人工进行文摘内容选择时,对BE文档簇中出现频率高的BEH(BE Head)或BEHM(BE Head或Modify)更为青睐。2.分析了用户聚焦型文摘中,用户给定的话题对内容单元选择的影响。对DUC2005数据集的分析结果显示,人工进行文摘内容选择时会参考用户给定的话题,参考的模式是:对话题中出现的内容单元,在原文档簇中找到包含该内容单元的句子,并将该句子前后若干句子中的内容单元作为候选,选择其中出现频率高的内容单元作为文摘内容。3.提出了基于基本要素向量空间聚类的文摘句抽取方法,该方法的特点在于它是以基本要素为内容单元的,在DUC2004任务2上的评测结果显示,其效果要好于以词为内容单元。提出了聚类数目的自适应探测方法和从聚类中抽取代表句的全局搜索策略,该方法能自动探测聚类的个数,并从文摘全局的角度出发考察各类中哪个句子应该出现的文摘中。实验结果显示,自动探测聚类的数目比人工设定文摘的长度或聚类数要好。另外,在全局的角度从各类中选择文摘句比直接选择类中的质心句等局部方法性能更优越。为回避聚类数目难以确定的问题,还实验了一种基于演化计算的句子抽取方法。基于演化计算的方法视从原文档簇中抽取句子的过程为一个背包过程,并用演化计算的方法进行结果的优化,这种方法避免了通过聚类消除冗余时类的个数不易确定的问题。4.提出了一种文摘句排序混合模型,提高了文摘的可读性。该模型综合了文摘句之间的四种关系:时间关系、位置关系、依赖关系、话题关系,以句子为节点、句间关系为边,构建句子优先关系有向图并通过对已有的PageRank方法进行改进,对优先关系有向图中的各节点进行排序。对混合排序模型的评测,采用了两种自动评测的方法,一种是计算排序模型的排序结果与理想(人工)排序之间的距离,另一种考察排序模型对提高文摘质量的影响。在DUC2004任务2和任务5的数据集上评测可以发现,这种混合排序模型较其它参照模型要好,而且具有很好的鲁棒性。5.提出了基于BE关系网格的文摘内容连贯性评测模型。该模型以BE为内容单元,以BE中的“关系”为内容单元的语法角色,通过BE关系在BE关系网格中的转移概率来表达文摘内容的连贯性。以DUC2005数据集中的人工文摘为训练集,以其中的机器文摘为测试集,考察该模型对机器文摘内容连贯性的评测结果与人工评测结果之间的相关性。评测结果显示,以BE为内容单元,保留关系为“subj”、“obj”、“conj”、“nn”的BE时,模型评测结果与人工评测结果的Pearson相关系数为0.408,比文献中给出的实体网格模型得到的结果提高了约66%,这说明,基于BE关系网格的连贯性评测模型能够更好地抓住句子的语义信息和结构信息。
其他文献
随着篮球运动的发展,篮球竞赛规则也经历了自定规则——商定规则——制定规则——规范规则四个阶段。对篮球竞赛规则的制度变迁进行了分析,对每一阶段内容进行了概括总结,指出竞
以氧化石墨烯为前驱体,聚乙烯醇(PVA)为交联剂,通过组装-冷冻干燥-热处理制备石墨烯气凝胶(GA),并以GA为骨架,热塑性聚氨酯(TPU)为填充体,采用真空浸渍法制备了TPU/GA导电复
进入二十一世纪,社会要求培养出的学生既要有专业知识,又能精通外语的实用型人才。新的形势对我国毕业生素质提出了更高的要求,也对我国的外语教学提出了新的挑战,大学英语新
随着人类活动范围的拓展以及活动强度的加大,陆地有限的空间与资源日益紧缺,已经不能满足人类的发展需要。21世纪是人类全面认识海洋、开发海洋、利用海洋的世纪,人类开始普遍探
目的:了解苏州市育龄群众生殖健康知识的了解、利用和需求状况,为政府部门制定有关促进生殖健康的策略和措施提供科学依据。方法:采用抽样调查的方法,在苏州市十二个县(市、
世界一流学科建设是建成世界一流大学的核心与前提,对高校实现内涵式与跨越式发展意义重大。通过定量研究方法,对选取的新兴世界一流大学案例进行深入分析,围绕ESI和InCites
活性氧簇(ROS)是生物在有氧环境中进行能量代谢时产生的一类分子的总称,ROS不仅在动物、植物以及细菌的生理过程中发挥着重要的作用,也在研究抗生素杀菌和细菌耐药性的产生上
体育教师评价研究是当前基础教育体育课程改革研究中的重要课题。在实施体育新课程标准背景下,对中小学体育教师评价现状进行研究,具有一定的现实意义和理论价值。本文采用文
现代光测技术是近年来发展起来的一种新技术,它可用于物体的粗糙度测定、变形测量和振动分析。现代光测技术主要包括全息干涉、云纹干涉和散斑干涉。本文基于LabVIEW与MATLAB
本文从民族学、社会学等角度对我国少数民族服饰色彩进行审美解读,分析研究典型民族服饰色彩的审美特点和色彩风格的审美表征,概括形成民族服饰色彩审美评判的诸多因素,提出