基于层次狄利克雷过程的作者主题模型

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dextersky001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这个时代,人类信息正在以空前地速度产生和数字化。这些信息的载体多种多样,如,新闻博客,微博,网页,科学论文,书籍,图片,声音,视频,以及各种社交网络。信息载体的多样化也直接导致了信息结构的多样性和复杂性。因此,需要更好的计算工具来帮助人们组织,检索以及理解这些浩如烟海的信息。不但需要表达长文本的语义,也需要思考怎么表达元数据,或者说怎样融合元数据的信息。多维语义的表示,将会对后续的应用提供更完整的信息。  本文将要围绕以下两个问题展开:  1.如何更好表示元数据信息?  2.如何通过利用元数据进行数据融合?  本文系统地总结了基于作者元数据的语义特征表示的方法,分析并且比较了这些模型各自的优缺点;并且提出了基于层次狄利克雷过程的非参作者主题模型,该模型可以估计出数据集主题数目,由于主题数目是自适应的,模型可以随着训练文档的变化而自动变化,而且模型可以增量式地训练;而原有的作者主题模型需要通过设置不同的主题数来进行模型选择,另外随着训练文档集的增加,模型训练和模型选择的过程需要反复从头开始,消耗了大量的计算资源。同时提出了基于层次狄利克雷过程作者主题模型的参数估计方法,这种参数估计方法可以被推广到所有的基于层次狄利克雷过程和元数据的主题模型中。  通过实验说明了该模型的优越性以及可扩展性,不仅可以用来建模作者加文本这类数据,也可以建模关键词加文本,命名实体加文本等等类似的数据。
其他文献
本论文是以北京市自然科学基金“软件人与Linux融合技术研究”项目(4072018)为研究背景的子课题——有形软件人的研究与应用。   在三维人脸建模上,本文利用3D建模软件Maya
随着计算机技术的飞速发展,工业生产和现代计算机技术的关系日益密切,将最新的计算机技术引入到传统的工业领域受到世界各国的广泛重视,我国作为工业大国,更加重视相关领域的研究
随着三维游戏、影视动画、多媒体等行业的高速发展,对计算机动画的需求量越来越大;同时对动画质量的要求也越来越高。因此,在计算机动画制作中,人工调整虚拟角色运动的工作方式已
随着超大规模集成电路工艺的发展,对于非易失性存储器容量的需求也越来越高。Nand Flash以其存储容量大,体积小,读写速率高等优势成为最理想的存储器件[16]。自九十年代初Nand F
中医学作为有中国特色的传统医学具有重要的社会价值。中医诊疗过程的个性化、复杂化特点以及中医知识体系的复杂结构使得中医传承在知识共享、知识交换以及知识融合等方面存
实时协同设计技术是计算机支持的协同设计的一个典型应用研究,它允许不同地点的设计人员、制造人员以及用户都能通过网络同步地参与设计,从而缩短产品开发周期、减少开发成本
基于人脸特征点定位的人脸图像处理,是近年来图像处理领域中发展较快速的一项研究课题,在国民经济中有着广泛的应用。随着近年来网络技术和手机应用技术的迅速发展,模拟艺术风格
使用计算机模拟各种自然现象,在计算机游戏、电影特效以及视景仿真领域中越来越流行。先前方法大多侧重于模糊态势的飘雪建模,真实性和实时性不能满足场景渲染需求。雪花作为
“软件人”是具有拟人智能的、生存并活动于计算机网络世界中的一类软件人工生命,是一种“虚拟机器人”,具有拟人属性、拟人功能、拟人行为和拟人结构。研究“软件人”的目的主
Web服务是一种面向服务的分布式计算模型,它提供一种平台独立、自描述、分布式的软件组件,是实现业务流程的一种松散耦合、应用互操作的平台。   单一的Web服务难以满足目前