基于Dirichlet过程混合模型的话题识别与追踪

被引量 : 8次 | 上传用户：suibianyidianyaoshi

【摘要】

：

互联网已成为当前人们获取新闻的一个重要途径。将已有各种新闻报道按话题进行分类,进而追踪特定话题的新报道返回给用户,不仅可以有效节省用户获取相关新闻的时间,也提供了

【作者】

：

王婵

【发表日期】

：

2013年01期

【关键词】

：

话题识别与追踪话题识别话题追踪 Dirichlet 过程混合模型 Gibbs抽样话题先验知识

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网已成为当前人们获取新闻的一个重要途径。将已有各种新闻报道按话题进行分类,进而追踪特定话题的新报道返回给用户,不仅可以有效节省用户获取相关新闻的时间,也提供了一种基于话题对网络新闻数据进行有效组织的方式,有着广泛的现实需求。为达成此目的,需要解决两个关键问题：其一是如何将初始呈现给用户的新闻报道自动地依据其所涉及话题的异同进行分组,其二是如何自动判断新出现的报道是否属于某个已知话题或属于一个新话题。这两个问题分别是话题识别与话题追踪。对话题识别与追踪的研究已经有近二十年的历史,取得了不少进展,但是仍然存在一些问题。例如,话题识别任务中如何确定话题数量的问题,话题追踪任务面临的数据稀疏问题、话题漂移问题以及话题偏离问题。本文针对这些问题,分别对话题识别技术和话题追踪技术展开研究,在Dirichlet过程混合模型(DPMM)这个统一的模型框架下提出了一系列有效的解决方法,最后,通过综合这些解决方法提出了一个能满足节省用户新闻获取时间、对互联网新闻数据进行基于话题的组织等应用需求的系统方案。论文的主要工作和研究成果如下：(1)针对话题识别任务在先验知识缺乏时难以预先确定话题数目的问题,将DPMM引入话题识别研究中,提出了一个基于DPMM的话题识别模型。该模型无需预先给定话题数目,而是可以根据输入的新闻报道而自动确定。模型假设任一报道都对应一个话题分布,并将其中具有最大概率的话题作为这个报道的话题标签。实验表明,基于DPMM的话题识别模型可以得到比已有方法更好的识别性能,最低识别代价仅为0.0981,比基于传统聚类算法的话题识别模型降低了50%以上。(2)提出了一种考虑上下文信息的Gibbs抽样(C_Gibbs)方法,该方法在对某个词产生抽样概率时同时考虑其上下文中的其他词,以建模同一报道中的词间相关性。实验表明,与Gibbs抽样方法相比,基于C_Gibbs抽样方法进行参数推导可以大幅度提高识别系统的性能。(3)提出了一个能有效结合待测话题信息的DPMM进行静态话题追踪。模型在基于Gibbs抽样进行参数推理时融入待测话题信息,得到报道和各个待测话题的相关度。同时,对多次Gibbs抽样结果进行投票确定最后的话题追踪结果。实验结果表明,该模型只需要少量的种子报道,就可以显著提高话题追踪的性能,最低追踪代价仅为0.0723,比基于一元语言模型的话题追踪模型降低了45%。同时,该投票方法也保证了性能的稳定性。(4)针对话题追踪任务中存在的话题漂移问题以及已有自适应方法中存在的话题偏离现象,本文在基于DPMM的静态话题追踪模型的基础上,提出了一种新的自适应话题追踪方法。该方法的基本思想是在追踪过程中考虑追踪反馈,并在话题、报道相关度计算过程中为追踪反馈赋予一个M_reli参数,以控制不相关报道反馈带来的误差。实验结果表明,该方法不仅可以在一定程度上解决话题漂移问题,并可以有效地抑制已有自适应算法中的话题偏离现象。该模型最低追踪代价仅为0.0677,比静态话题模型降低了6%。(5)综合本文提出的一系列话题识别和追踪技术,设计了一个可以满足前述应用需求的话题识别与追踪系统方案。该系统首先利用话题识别和话题追踪技术将新闻报道流以报道簇为单位组织起来,每个报道簇对应一个话题,同时获取报道流中描述话题内容的标签,并将相关报道和标签同时呈现给用户,达到节省用户新闻获取时间、并基于话题对互联网新闻数据进行组织的目的。

其他文献

基于金及金银合金纳米粒子表面增强铽离子发光测定多巴胺

多巴胺(DA)是生物体内一种重要的儿茶酚胺类神经递质,在中枢神经系统、心血管系统、内分泌系统和肾脏系统的功能调节方面发挥着重要作用。帕金森症、精神分裂症、亨廷顿氏舞蹈症、阿尔茨海默氏症等神经系统疾病与生物体液中DA含量的异常密切相关。因此,建立简便、高灵敏、高选择性的DA检测新方法,对于相关疾病的临床诊断及相关生物医药的研究具有重要意义。稀土发光离子是一类优良的荧光探针,因其具有发射光谱窄、光致发

学位

表面增强荧光金纳米粒子金银合金纳米粒子稀土发光离子多巴胺

共享型养老平台构建研究

中国老龄化趋势加剧,传统的家庭养老模式的弊端日益凸显,无法满足当今多样化的养老需求。互联网、大数据这些新兴的工具为解决养老问题提供了新的思路。在分析构建共享型养老

期刊

老龄化共享型养老平台互联网

正确服用止咳糖浆

止咳糖浆是家庭药箱中常备的药物，特别是有小孩的家庭。但很多家庭不知道止咳糖浆的正确用法，以至于药效不能完全发挥，甚至延误病情。下面七点请记清：　　不要随意加大剂量有的家长认为糖浆多喝几口没关系。其实，孩子感冒后，如服用过量含盐酸异丙嗪的止咳糖浆，可引起口、鼻、喉部发干和眩晕，甚至出现腹痛、腹泻和呕吐等消化道症状;服用过量含氯化铵的止咳糖浆，孩子可能出现恶心、呕吐、口渴、上腹痛等不适，严重时还会出

报纸

《诗毛传》语法研究

中国有五千年以上的辉煌文明史，也被称为诗的国度。《诗经》是我国最早的一部诗歌总集，收录了从西周初年到春秋中叶的305首诗。海内外有识之士，一直把对《诗经》文化的研究

学位

《诗毛传》语法

国产IP电影“内容为王”的重构路径

本文在梳理近几年国产IP电影发展现状的基础上,阐明当前IP电影产业发展的缺陷和瓶颈,主要体现在片面重视市场利益,急功近利地猎取商业价值导致IP电影内容贫乏苍白及艺术性缺

期刊

IP电影内容为王重构

紫外分光光度法对比国标法检测烟草专用肥中硝态氮含量

烟草在生长发育过程中以硝态氮和铵态氮为主要氮源,硝态氮是能被其直接吸收的氮源。烟草的生长发育和产量在很大程度上受到氮素形态的影响,硝态氮对烟草有促进钾、钙、镁等阳

期刊

硝态氮紫外分光光度法检测

十八胺改性氧化石墨烯/乳聚丁苯橡胶复合材料的结构与性能研究

以十八胺(ODA)对氧化石墨烯(GO)进行改性,采用乳液复合法制备ODA功能化GO(ODA-GO)/乳聚丁苯橡胶(ESBR)复合材料,并对其结构和性能进行研究。结果表明:ODA-GO在ESBR中的分散性

期刊

十八胺氧化石墨烯乳聚丁苯橡胶复合材料结构动态力学性能气密性能

浅析核电厂电气贯穿件的装配工艺

低压电气贯穿件(以下简称电气贯穿件)是核电站建设所必须的重要核级设备之一,它的整机密封及电气性能要求高、制造质量直接关系到核安全,而确保制造质量的关键环节之一就是装

期刊

电气贯穿件装配工艺国产化

论素质教育与大学班主任工作职责之定位

中国传统教育是偏重于知识积累和应试能力培养的应试教育,现代社会是重视个人全面发展和创新能力培养的开放型社会。中、小学教育与大学教育的学龄差异使大学班主任工作应迥

期刊

应试教育素质教育大学班主任职责

10kV变电所位置选定分析

<正>1变电所位置选择对降损的影响节电降损的措施有很多种,降低线路损耗是其中的重要措施之一。降低线路损耗的重要前提条件,就是选择好变电所的位置。也就是变电所要接近负

期刊

变电所设计变压器容量电缆线路

基于Dirichlet过程混合模型的话题识别与追踪

与本文相关的学术论文