面向信息融合的句子排序若干关键技术研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:shaonvshashou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本排序工作是改善多文档自动文摘系统结果可读性以及连贯性的重要手段。近年来,面向信息融合的文本排序工作逐渐成为研究人员关注的热点问题。排序工作是以句子单元为基础,对文本篇章信息所开展的高层次分析。在排序过程中,需要对文本连贯性以及可读性的相关因素进行分析,并针对相关因素生成合理的文本序列。本文结合人工经验,总结出文本序列两方面的相关因素,即相邻句子之间的衔接因素对连贯性的影响以及基于整篇文档的篇章因素的整体连贯性因素对连贯性的影响。本文根据这两方面因素提出了若干个排序模型。本论文提出了四个排序模型,分别是:基于相邻句间的连贯性分析的排序模型;基于拟合思想的排序模型;基于关联分析的排序模型;基于机器学习思路的综合排序模型。在构建模型之后分别对模型效果进行了评测以及分析:主要研究工作和成果概括如下:1.结合句子衔接性的评估策略,提出一个基于句间衔接性分析的排序模型。该模型通过在自然语言处理领域被广泛使用的余弦相似度评估方法,对相邻句子相关性进行量化分析,并利用信息量转移强弱程度的不同对相邻句子赋予一个方向系数。然后结合相关性以及方向性权值构建相邻句子之间的连贯性评估模型。由于句间衔接特性是局部信息,对全局范围内的序列分析能力不足。为了对全局大致序列进行划分,我们将源文档所有文档作为序列分析依据,通过分类器的方法,对待排序的文摘句进行了粗粒度的序列划分。最后,将粗粒度的全局划分方法与局部的细致序列划分方法相结合提出了一个综合排序模型。2.结合文档整体篇章性因素在连贯性分析中的作用,提出了一个基于文本篇章性因素的序列信息获取模型。该模型将源文档集中的每篇文章作为文摘句序列标准的一个来源,然后利用分类的方法,根据每篇源文档的信息构建了一个文摘句子的序列信息。再通过统一的预处理手段消除了序列数据中的无关因素,由于在源文档中获取的序列数据较少,而且其数据在单篇文档范围内以及源文档集的整体范围内都存在不确定性。因此提出一种基于拟合思想的排序模型,根据序列数据信息矩阵建立行数据所属变量的嵌套方程,然后根据可以预见的文本序列的整体信息,对待排序的文摘句子分别给出序列位置的预测值,然后根据序列预测值给出全局的序列结果。3.结合在源文档集中获取,并经过预处理的序列信息数据矩阵信息,提出了一种基于句子序列关联性构建的排序模型。首先,分析了每个文摘句在源文档不同文章中被划分的序列位置的相互关系。根据文摘句整体属于同一文本的特性,提出序列数据信息矩阵的行数据存在联动性,而且文摘句之间的联动特性与句子的序列差异并无特定关系。然后,利用经过预处理的数据中的相邻行数据构建两两句子之间的序列关联模型。最后,利用可以预见的文本序列整体信息结合关联模型逐步预测出每个文摘句的序列信息,并根据预测值给出全局的序列结果。4.结合已经构建的排序模型,基于机器学习的思路构建了一个综合排序模型。首先,根据排序结果的评测方法Kendall相关系数的特点构建了一个多维的结果空间,并将所有可能的序列结果一一映射到结果空间中的空间节点上。然后,经分析发现,代表序列结果的节点在空间几何分布上与Kendall系数的分布存在联动关系。通过这一联动关系我们利用已知排序效果的两个排序模型构建了两个线性无关的系数α与β,并构建了一个组合模型。最后,通过已知的排序结果训练组合模型以获取系数α与β的取值,然后对未知的序列结果进行序列分析,并获得最终的全局排序结果。
其他文献
从商务部获悉,备受关注的《二手车流通管理办法》预计将在2005年下半年出台。此办法的制订,其目的一是破除垄断,多渠道推进二手车交易的发展:二是规范二手车交易行为,保护消费者的
<正> 89、889、899、91、991乘倍9数不用传统方法,可以采用先进的巧乘法,该法简便易行、快速、轻松、有趣,可启智力,具体如下: (一)89巧乘倍9数 89乘任何倍9数有四种巧乘方法
<正> 哲学是关于自然科学和社会科学的概括与总结,所研究的是整个世界的普遍规律。珠算属于自然科学范畴,是建立在哲学原理之上的。因此应从哲学观点的角度来思考珠算课堂教
<正> 各位领导、各位理事、同志们: 我受省珠算协会常务理事会的委托,向大会作我省一九九五年珠协工作执行情况和一九九六年工作安排的报告,请予审议。并请各位理事提出意见
机械中大量使用圆柱形零件配合,如轴承和衬套等,一般采用较紧的过渡配合来保证定心,使传动平稳,但是如果过紧,不但装配困难,有时往往因装配后的变形减少了轴承径向游隙,降低
什么是珠算?作为传统文化的珠算,是以算盘为工具,用数学理论做基础,用手指拨动算珠进行数值计算的一门应用计算技术。
[摘 要]电子阅读时代,手机报、报纸的电子版已经不能满足读者的海量信息需求。传统报纸要想突破短、平、快的网络新闻的围追堵截,必须要从内部进行改革,将纸媒与互联网有机结合。而“云报纸”便成为一种新的运营模式,充分利用移动互联网的优势,实现受众的“云阅读”需求,同时也为报纸实现多元化经营开辟新路径。  [关键词]云报纸 品牌延伸 产业链  “云报纸”作为一种新的报纸形式,在移动互联网不断完善的情况下,
T300是山猫履带式装载机系列中最大的型号,其额定操作重量为1361kg,橡胶履带宽度为45cm,整机的接地比压仅为29kPa,因此可保证最佳牵引力。这一优点使施工作业不受季节气候的限制
教练能否培养出真正的优秀选手,关键在于选拔学苗,也就是教练的对象。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield