基于语义结构和时序特征的话题检测与跟踪技术研究

被引量 : 0次 | 上传用户:magic1213cam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术在世界范围内的普及和发展,信息的传播与交互方式突破了传统时间与地域的限制。基于互联网的这一优势,新闻媒体逐步将其作为新闻报道传输与发布的重要平台。但是,网络信息的海量化、无序性和持续拓展性制约了新闻话题的有效识别、采集和组织。如何智能化、精确化地自动挖掘新闻话题并追踪其动态演变过程,逐渐成为网络信息处理研究领域的重要课题。话题检测与跟踪(简称TDT)即是针对这一课题提出的研究方向,它也为信息检索、数据挖掘和自然语言处理等技术提供了全新的多语言测试平台。本文首先针对TDT中的话题关联检测任务提出一种基于语义域语言模型的相关性判定方法。关联检测融会了篇章理解和语义分析等相关性判定的本原问题,对后续各项TDT任务的研究具有重要意义。语义域语言模型的核心思想是为报道建立凝聚于不同语义的结构体,借以从语义层面判定报道的相关性。该研究验证:基于语义对报道内容进行划分与组织有助于建立更为清晰易懂的话题模型。其次,本文针对TDT中的新事件检测任务先后提出基于子话题分治匹配和基于时序话题模型的检测方法。新事件检测侧重挖掘新闻话题的种子事件和构建话题初始质心,对识别话题的后续相关报道具有标杆式作用。因而,新事件检测是后续话题跟踪任务重要的辅助性研究。基于子话题分治匹配的检测方法继承语义域切分的思想,将话题构造为语义不同的多个子话题,并在话题与报道之间独立地匹配子话题相关性,最终基于相关子话题的分布概率判定新话题首次报道。在此基础上,时序话题模型将子话题的来源归因于不同相关事件的出现。为此,该模型将话题描述为对应不同时间的事件集,并基于“同时同事”原则高效地匹配话题与报道的相关性。此外,时序话题模型尝试基于时间表达式的分布属性,挖掘话题的种子事件和新颖事件,并基于这些事件对话题演化趋势的影响合理调整相关性匹配中的权重分配,借以提高新事件检测的准确率。再次,本文针对TDT中的自适应话题跟踪任务提出增量式的新颖性学习方法。话题跟踪的主要任务是在时序新闻报道流中识别特定话题的后续相关报道。其难点在于如何根据系统反馈自动地学习话题的演化趋势和漂移触发点,借以增强话题模型的跟踪适应性。增量式的新颖性学习方法继承了新颖事件在描述话题演化趋势中的重要作用,并在此基础上融入突发式新颖事件的挖掘与应用,从而进一步提高话题模型跟踪话题漂移趋势的能力。最后,本文提出基于二元近似关系的信息过滤技术。信息过滤的根本任务是屏蔽动态信息流中的噪声,借以更为精准地获取相关信息。本课题将信息过滤融入TDT研究体系的原因在于,针对时序新闻报道流的检测与跟踪过程普遍受制于噪声的干扰。为此,本文尝试借助概率模型的改进和数据分布特性的应用提高噪声过滤性能。其中,基于二元近似关系的过滤技术侧重利用相关信息与噪声异同的分布特点屏蔽概率模型中的噪声特征。总体而言,本文将TDT中的主要任务整合为相互衔接的研究架构,逐步探索有效识别、挖掘和组织新闻信息的新方法。其中面向所有任务的研究在改进现有统计模型的基础上,尝试基于新闻信息的独有特点设计技术路线,并取得了良好效果。尽管如此,本文的工作仅是针对TDT领域的前瞻性研究,该领域仍然包含众多极具挑战性的课题等待人们进一步探索。
其他文献
和平和发展是世界的两大主题,但局部战争和各类自然灾害、事故灾难、公共卫生事件、社会安全突发事件仍时有发生。在这种国际、国内形势下,政府必须提高应对这些公共危机的能
豆粕是现代畜禽养殖业基础日粮的主要蛋白来源。为比较目前最常用的粗蛋白含量检测技术的优劣,实验采自中国不同地区的162种大豆样品为实验材料,分别用凯氏定氮法和杜马斯燃
对T300/BMP-316单向层合板静载及疲劳加载各主方向损伤失效进行了试验研究,为建立该材料各主方向疲劳加载剩余刚度退化表达式及剩余强度退化表达式提供了依据。同时,获得了该
主要讨论了Fe-Si-Al磁粉芯粉料粒度、粘结剂用量、成型压力和热处理工艺对铁硅铝磁粉芯品质因数Q、损耗P和有效磁导率μe的影响。
随着社会的进步,科技的发展,在现今生活的各个领域中越来越需要人们具备与人合作、与人分享品质。面对未来世界的挑战,国际21世纪教育委员会提出:教育必须围绕四种基本能力来
在各小学语文教学中阅读都是其中的关键部分,它是学生听说读写综合能力的体现。不管是写作训练还是识字联系,阅读教学常常被教师和学生视为提高能力的主要途径,同时在此过程
当今世界面临着信息化、全球化的两大趋势。计算机和网络技术以前所未有的广度和深度改变着经济管理活动。会计信息系统的开发与应用日趋成熟,现代企业单位广泛运用办公自动
人类生活的客观环境与地理位置息息相关,人类的生活离不开地理信息。传统方法获取各种地理信息多是借助各种纸质地图,不仅难以保存,而且获取的信息量很有限。随着计算机的出现,电
合理认识第三人异议之诉的性质必须立足于第三人异议之诉所涉纠纷的性质和该诉的双重目的。把第三人异议之诉看做是确认与形成之诉的合成之诉的观点具有较强的合理性与自洽性
采用文献资料法、问卷调查法、访谈调查法、数理统计法、比较分析法等研究方法,以我国各省市及东中西三大经济带为区域划分标准,对“我国高校竞技健美操区域发展”这一崭新领