时序多文档文摘相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：itolbaxk

【摘要】

：

互联网的发展产生了爆炸式增长的文本、图像、音频和视频等多媒体信息。面对信息极大丰富,知识相对匮乏的时代,人们陷入一种咨讯焦虑的困境之中。而且随着时间的不断演化,相

【作者】

：

贺瑞芳

【出处】

：

哈尔滨工业大学

【发表日期】

：

2009年期

【关键词】

：

时序多文档文摘内容选择时间表达式识别与归一化宏微观重要性判别模型进化流形排序谱聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的发展产生了爆炸式增长的文本、图像、音频和视频等多媒体信息。面对信息极大丰富,知识相对匮乏的时代,人们陷入一种咨讯焦虑的困境之中。而且随着时间的不断演化,相关的媒体信息也在逐渐地更新和进化。如何有效地获取、组织信息逐渐成为信息处理领域的一大挑战。本文以信息压缩为目标,着重研究文本压缩技术。时序多文档文摘为自动文摘领域的新方向,是传统静态多文档文摘的自然扩展,其处理的对象跨越了同一时段的相关文档集,即处理跨时段的相关文档集。其主要目标是按照一定的压缩比从时序角度自动总结出系列新闻报道的内容进化,以帮助人们快速获取信息。伴随着国际评测DUC2007、TAC2008的举办,相关的研究越来越受到政府、企业界和学术界的重视。时序多文档文摘有着广阔的应用前景,可用于新闻搜索引擎、商业竞争情报分析、趋势预测等领域,通过不断满足人们的需求,创造更大的社会价值。本文的研究对象系列新闻报道本身具有比较突出的时序特性,可以认为同一时段的静态多文档文摘是时序多文档文摘的一种特殊情况。因此,时序多文档文摘的研究重点是如何在时序上下文的背景下解决传统静态多文档文摘的内容选择和语言质量控制两大难题。前人的工作对时序信息考虑的比较少,本文着眼于识别时序特性并应用其来深度挖掘时序多文档文摘的抽取式内容选择方法,力图保持文摘内容的重要性、新颖性和覆盖性,重点研究了以下问题:1、识别时间表达式并进行归一化。理解文本的语义是自然语言处理的终极目标,而时序语义对于理解文本是不可或缺的。时间表达式识别和归一化是时序语义标注的基础。时间表达式识别与归一化的研究为时序多文档文摘的内容选择和语言质量控制奠定了基础,也可以为其它时序信息抽取应用提供支撑。2、基于宏微观重要性判别模型的内容选择。本着逐步求精的原则,首先在假设系列新闻报道各时间片相互独立的基础上,通过分析其不断演化的宏微观时序进化特性,探索基于宏微观重要性判别模型的时序多文档文摘内容选择方法。3、基于进化流形排序的话题相关内容选择。更进一步,系列新闻报道在时间轴上是连续进化的,在假设当前时间片的内容进化依赖于以前时间片话题内容的基础上,研究话题描述的动态增强对表达用户兴趣不断更新所带来的信息需求的变化,对内容选择的影响。提出迭代反馈机制引导的进化流形排序算法,以模拟系列新闻报道中话题演化的动态性,为时序多文档文摘的内容选择提供了时序自适应的重要性排序。4、谱聚类增强的话题相关内容选择优化。在进化流形排序的基础上,研究了通过归一化谱聚类改进内容选择的覆盖性,设计了时序去冗余策略来保证文摘内容更好的新颖性。结合子话题排序和新颖的去冗余策略探索了时序多文档文摘优化的内容选择方法。在国际评测TAC2008中的UpdateSummarization任务上,获得了名列前茅的内容选择评测性能,证明了该方法的优越性。本文对时序多文档文摘及其内容选择技术进行了初步探索,提出的方法具有语言无关性,取得了一定成果,为今后的深入研究奠定了基础。

其他文献

粘贴碳纤维布砖砌体墙受剪承载力有限元分析

砌体结构是一种古老的建筑形式,在房屋建筑结构中应用广泛。但是,由于砖砌体结构建筑物出现较早,许多建筑物在最初设计时只考虑了重力荷载而没有考虑水平地震作用或抗震能力

学位

碳纤维布砖砌体墙受剪承载力有限元分析

针灸治疗红斑性肢痛症1例

红斑性肢痛症是一种少见的肢端血管扩张性疾病。临床上根据肢端皮肤阵发性红、肿、热、灼痛，温热使症状加剧，局部冷敷减轻疼痛，多数病例诊断不困难。常规上使用镇静、抗炎、止痛、扩管及封闭等治疗，但效果均不甚理想。腕踝针治疗红斑性肢痛症效果显著，缓解症状迅速，且操作方法简单、方便，病人痛苦小，值得推广。红斑性肢痛症在中医上当属热痹，治疗上宜清热利湿，化瘀通络，内庭、行间、侠溪皆足经荥穴，与陷谷同有泄热理气镇

期刊

红斑性肢痛症腕踝针穴位选择临床疗效

迁延性病毒性脑炎四例临床特点分析

目的分析迁延性病毒性脑炎的临床特点，提高早期诊断率，分析预后的影响因素。方法回顾性分析4例患者的临床、脑脊液、影像学、脑电图特点及治疗。结果4例患者均缺乏前驱感染症状

期刊

脑炎病毒性磁共振成像脑电图

葫芦岛公开曝光5起国土资源违法违规案件

为严厉打击国土资源领域的违法违规行为，理顺土地、矿产资源管理秩序，葫芦岛市近日向社会公开曝光5起国土资源违法违规案件，分别为：2016年6月，李某非法占用南票区虹螺岘镇大安屯村

期刊

违法违规行为国土资源葫芦岛市案件曝光集体土地占地面积基本农田

股骨粗隆间骨折手术治疗进展

股骨粗隆间骨折是指股骨颈基底部至小转子水平以上区域的骨折,是常见的髋部骨折之一,占髋部骨折的31％～51％,全身骨折的1.4％[1-2],临床中常见年轻人及老年人群,前者多系高能量损伤

期刊

精量细算,守土尽责——记全国国土资源系统先进集体丹东市土地收购储备中心

12月17日上午10点整,随着D7707次列车从大连北站缓缓驶出,丹大快速铁路正式开通,结束了从丹东到大连只能绕行沈阳的尴尬历史,改变了两城间的铁路最短运行时间由原来的10个小

期刊

土地收购储备国土资源城市经济运行时间土地规划城市改造补偿安置历史遗留问题集约用地土地储备

多巴胺D1受体在视神经保护中的研究进展

多巴胺是一种中枢和外周神经系统的神经递质,在中枢神经系统中,多巴胺能神经传递功能的紊乱可以导致多种神经精神疾病,帕金森病即是其中一种典型的疾病,另外还包括精神分裂症

期刊

多巴胺受体受体介导视神经保护帕金森病视网膜神经节细胞神经保护作用受体激动剂信号途径中枢神经系统神经元

《多功能跑步机设计》

期刊

说说节目主持人的那股“劲儿”

如今的广播，是个性为王的时代。虽然还有着许多字正腔圆的播报，但是也仅出现在一些特定场合。而新闻的娱乐化和节目的个性化，更加要求主持人自身的个性化，让别人一听就记住。除了一部分主持人具有天赋以外，我们可以通过培养来让另一部分主持人也脱颖而出。　　一、何为“劲儿”？　　听广播节目，你会很容易被某一个声音吸引。而被吸引的原因有很多种，比如声音有磁性、内容有意思、节目形式有特色等等。但是就综合情况而言，

期刊

节目主持人个性化字正腔圆娱乐化广播新闻特定

中办、国办印发《关于创新体制机制推进农业绿色发展的意见》

中办、国办近日印发《关于创新体制机制推进农业绿色发展的意见》指出，强化耕地、草原、渔业水域、湿地等用途管控，严控围湖造田、

期刊

三调媒体广场土地确权国土资源地理信息不动产登记国家级项目业内企业绿色矿山资金投入

时序多文档文摘相关技术研究

与本文相关的学术论文