层次化概率主题模型的研究及其应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:hongguoqwer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,每天都有海量数据出现。帮助人们从海量数据中迅速而准确地获取最需要的信息,成为亟待解决的重要问题。主题信息能够在一定程度上反映数据的高层信息,成为解决这一问题的重要途径。David M.Blei等人于2003年提出了潜狄利克雷分布模型,能够自动地从数据中发现主题信息。   潜狄利克雷分布模型认为文档是由若干个主题混合生成,主题是词上的分布。在这个模型中,文档的主题分布和主题上词的分布都以狄利克雷分布为先验分布。潜狄利克雷分布模型是一个良好的产生式模型,在自然语言处理等领域得到了广泛的应用。但是,潜狄利克雷分布模型也存在很多不足。   首先,潜狄利克雷分布模型是一种非监督的模型。在这个模型中,可观测的仅仅是文档里面的词。它发现的“潜主题”并不对应着真正意义的“主题”。同时,我们有大量的人工标注的语义知识库,比如知网。本文通过对潜狄利克雷分布模型进行扩展,将语义知识融合到概率主题模型中,利用语义知识库提供的监督信息帮助我们更好地发现主题信息。   其次,在潜狄利克雷分布模型中,主题数不能自动确定,并且主题之间相互独立,没有对主题之间的结构关系进行建模。David M.Blei等人于2004年提出了层次化的概率主题模型。利用嵌套的中国餐馆过程,在自动确定主题数的同时实现了主题结构的层次化。本文在实现这个模型的基础上,针对大数据量的训练代价过高,实现了分布式的层次化概率主题模型。   本文对概率主题模型进行了详细的介绍,针对潜狄利克雷分布模型存在的不足,进行了改进。实现了分布式的层次化概率主题模型,并且将语义知识融合到概率主题模型中,提高了模型发现主题的性能。
其他文献
当前,随着科学技术的高速发展,在电子信息领域里,一些嵌入式系统的性能必须不断提高才可以满足人们日益增长的数据处理的实时性要求,在一些需要进行大量数据运算的场合对DSP
黑麦草是具有世界栽培意义的禾本科牧草和草坪草,其遗传转化常用的方法是基因枪法,此外有硅碳纤维介导法以及农杆菌介导法,受体体系一般是经离体培养获得的胚性愈伤组织、悬浮细胞系和原生质体。目前黑麦草遗传转化方法尚存在一些缺点,如组织培养时间长、受基因型限制、愈伤组织经长期继代培养易出现体细胞无性系变异、转化周期长等,只从少数品种获得了少量的转基因植株。因此,建立一套高效、快速、不受基因型限制的黑麦草遗传
本文通过对荣华二采区10
期刊
致病疫霉是一类世界性分布的毁灭性的植物致病菌,其有性生殖对该物种的生存及演化非常重要,但分子机理至今尚未阐明。在疫霉菌属中发现一类新的G蛋白偶联受体(G protein coup
网络层析成像因能在无需中间节点协作的情况下,通过端到端测量数据估计出网络内部链路准确的性能参数,受到了广泛的关注。但是并非所有的网络管理和维护工作都需要获得内部链
合成孔径雷达(Synthetic Aperture Radar,SAR)的自动目标识别(Automatic TargetRecognition,ATR)技术在战场感知方面非常重要,是国内外研究的热门课题。复杂目标的SAR回波和
学位
新一代基于人工智能的认知电子战技术代表着未来信息作战的重要发展方向,雷达电子侦察是认知电子战系统的重要组成,也是获取非合作情报信息的主要手段。作为雷达电子侦察的任务
随着计算机技术和网络技术的发展,人们对实时信号处理、大规模科学与工程计算提出了更高的要求,此时,并行计算机的出现为这些问题提供了很好的给解决办法,越来越受到人们的重
信息技术正以革命性的方式推动着社会的进步和发展,伴随着信息技术的快速发展和人们对其依赖程度的不断增加,信息安全问题也日益凸显。信息安全事关国家安全和社会稳定,它包括信
众所周知,在大科学工程的管理中,项目的管理及档案信息的检索占据了重要的地位。上海光源(ShanghaiSynchrotronRadiationFacility,SSRF)作为一项大科学装置和大科学平台,它采
学位