基于隐含狄利克雷分配模型的文本分类方法研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:reinhardwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络文本信息资源正在急剧增加,如何利用计算机自动有效地对海量的文本信息进行管理和查询成为了当前的迫切需求。而文本分类技术提供了一种对自然语言文档进行自动组织的有效手段。本文从模型平滑、类别信息嵌入和高性能求解算法等方面对LDA模型(Latent Dirichlet Allocation,隐含狄利克雷分配)开展了研究,研究内容涉及文本分类中不平衡语料分类、文本表示、复杂分类器加速等多个方面,论文的主要工作和创新点总结如下:   第一、为了克服传统LDA模型平滑算法中直接修改多级图模型隐含变量分布的随意性我们提出了数据驱动的Laplacian平滑方法和数据驱动的Jelinek-Mercer平滑方法。数据驱动的Laplacian平滑方法缓解了传统LDA模型的过拟合现象,数据驱动的Jelinek-Mercer平滑方法在基本保持整体性能的情况下,降低了预测阶段的时间复杂度。数据驱动的平滑策略在平衡和非平衡语料库上都能够显著提高LDA模型的分类性能。   第二、传统LDA模型计算目标文档在不同类别上的生成概率时,在文档非所属类别的隐含主题上会发生强制分配。针对这一问题我们提出了Labeled-LDA模型将隐含主题和类别信息融合在一起,在分类目标文档时协同计算全部类别的隐含主题的分配以改善分类性能。   第三、LDA等隐含主题模型是近期在文本挖掘领域发展起来的重要研究方向,但是算法具有较高的计算复杂度。我们以动态负载均衡的算法为重点,研究和实现了LDA模型在多内核计算机上的并行计算和CTM模型(Correlated TopicModel,关联主题模型)在异构集群环境下的分布式计算。   第四、基于提出的Labeled-LDA模型我们设计和实现了一个具有柔性文本分类功能的实验系统。该系统利用Labeled-LDA模型对目标文档中的隐含主题进行概率推断,进而得到文档在各类别上的分配量。相对概率支持向量机等判别模型概率估计方法,该分配量具有较明确的实际意义,同时避免了贝叶斯等生成分类模型输出极端概率值的问题。
其他文献
网络流量分类是多项网络研究工作的前提和基础,一直是网络研究领域的热点问题。近年来,随着互联网技术的发展,新型网络应用不断涌现,给现有的流量分类技术带来了一系列挑战。本文
金融衍生品领域的高效数值模拟计算是当前的研究热点,描述金融衍生品定价的Black-Scholes方程,其参数的改进和数值求解对计算结果与实际结果的拟合,会产生大的影响。本文对Black
随着集成电路的发展速度仍然按照摩尔定律推进,集成电路的功能和复杂性越来越高,对高性能集成电路的测试提出了新的要求。测试和可测试性设计的地位日趋重要。通常测试高性能集
MPI是分布式内存并行处理计算机上开发基于消息传递应用系统的事实标准,主要用于并行计算机和集群的高性能运算,MPICH是其重要实现。MPI程序可能发生死锁,而且调试困难,国际上主
负载平衡是并行计算中的一个重点研究领域,节点间负载的不平衡会严重影响并行计算的效率。负载平衡算法按照调度时可用资源信息和任务运行状态的即时性可划分为静态和动态两种
随着社会的不断发展,需要保存和处理的信息量日益增加,对存储系统在存储容量、数据可用性以及I/O性能等方面提出了越来越高的要求。信息技术正在从以计算为核心的计算时代进入
基于GPRS的远程噪音监测系统是公用无线传输系统在噪声监测领域的应用。远程噪声监测的目标是实现噪声在线自动实时监测和无线传输。目前我国噪声监测还具有瞬时性、空间分布
科学、社会的飞速发展对高性能计算(HPC)提出了更高、更全面的性能要求,刀片式服务器是为满足现代高性能计算应用需求而诞生的新兴机群系统,它具有高密集性、高可用性、高可扩
为了应对千万亿次(Petascale)高性能计算的挑战,国家智能计算机研究开发中心提出了一种新型的体系结构——超并行处理(Hyper Parallel Processing,HPP)体系结构。在HPP体系结构
随着网络的普及和各类设备的智能化、移动化,普遍互联和动态移动构成了当前计算环境的主要特征。服务发现协议帮助用户在各类分布式环境下找到所需的服务,即,存在于网络中,可以被