论文部分内容阅读
这个时代,人类信息正在以空前地速度产生和数字化。这些信息的载体多种多样,如,新闻博客,微博,网页,科学论文,书籍,图片,声音,视频,以及各种社交网络。信息载体的多样化也直接导致了信息结构的多样性和复杂性。因此,需要更好的计算工具来帮助人们组织,检索以及理解这些浩如烟海的信息。不但需要表达长文本的语义,也需要思考怎么表达元数据,或者说怎样融合元数据的信息。多维语义的表示,将会对后续的应用提供更完整的信息。 本文将要围绕以下两个问题展开: 1.如何更好表示元数据信息? 2.如何通过利用元数据进行数据融合? 本文系统地总结了基于作者元数据的语义特征表示的方法,分析并且比较了这些模型各自的优缺点;并且提出了基于层次狄利克雷过程的非参作者主题模型,该模型可以估计出数据集主题数目,由于主题数目是自适应的,模型可以随着训练文档的变化而自动变化,而且模型可以增量式地训练;而原有的作者主题模型需要通过设置不同的主题数来进行模型选择,另外随着训练文档集的增加,模型训练和模型选择的过程需要反复从头开始,消耗了大量的计算资源。同时提出了基于层次狄利克雷过程作者主题模型的参数估计方法,这种参数估计方法可以被推广到所有的基于层次狄利克雷过程和元数据的主题模型中。 通过实验说明了该模型的优越性以及可扩展性,不仅可以用来建模作者加文本这类数据,也可以建模关键词加文本,命名实体加文本等等类似的数据。