基于狄利克雷分布和多元高斯分布的双模块主题模型

来源 :山东大学 | 被引量 : 0次 | 上传用户:fourstone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型及其相关方法,通常被用于学习语料库中一系列隐含的主题,以及预测隶属于每个主题的每个文档中每个单词的概率。因此,主题模型是用于学习文本的隐含表示的最主流的方法之一。而基于贝叶斯理论的概率主题模型则是其中最经典的代表。概率主题模型有很连贯的理论证明以及很强的可解释性,适用于长文本。但是现有的大部分概率主题模型都有一个关键性的弱点,就是需要大量的文档数据,进而依赖大量的统计数据来生成可靠的主题。而实际应用场景中,许多数据集没有足够的文档。我们所熟知的经典主题模型LDA及其衍生的主题模型更适用于长文本,在短文本文档的集合中表现极差,难以生成连贯的主题,主要原因就是短文本数据的稀疏性较强。现有方法为了解决数据稀疏问题,将模型日益复杂化,且时间复杂度也急剧增加,难以适应不断变化的场景需求。本文从概率主题模型的角度,提出一种新型的、简洁的、基于离散词表示和连续词表示的多重表示方法的主题模型,此方法综合考虑基于统计信息的离散表示和基于语义信息的连续词表示。结合了基础的狄利克雷分布主题模型和基于多元高斯分布的主题模型的思想,并通过Beta分布调节统计模块和语义模块的比重。同时,我们还给出了针对本文模型详细的理论推导过程以及折叠吉布斯采样算法。相较于已有的概率主题模型的基准方法,我们的方法可以在不同长度数据集上取得极佳的性能。
其他文献
本文以多尺度岩石图像为研究对象,针对基于图像的岩性智能识别方法开展研究。采用目标检测、图像分类、特征融合等深度学习方法,通过图像识别技术建立适用于不同应用场景的岩性智能识别模型。利用卷积神经网络自动提取岩石特征,从而实现了“宏观—介观—微观”三个层次相结合的岩性智能识别。本文的主要工作及研究成果包括:(1)在宏观尺度下提出了一种改进的基于Faster R-CNN的岩石检测模型,通过RPN预选框生成
学位
目前,我国高速公路的设计年限为15~30年,但许多高速公路在建成通车几年内就发生了结构性损坏,需要进行大中修养护。这不仅会产生大量维修费用、造成资源浪费,而且会引起交通拥堵、降低道路通行能力。因此,设计出使用年限长、维修频率低、服役性能好的路面结构,是当前我国公路建设中的重要研究内容之一。本文依据我国路面结构发展特点,结合国内外长寿命路面理论和工程实践发展成果,构建了一种由沥青混合料(AC)作为磨
学位
初级纤毛上分布着信号受体,能将细胞外信号传递至细胞内,在组织发育和信号转导中发挥重要作用,初级纤毛结构缺陷或功能缺陷可诱发严重的纤毛病。哺乳动物Hedgehog(Hh)信号通路在很大程度上依赖初级纤毛,其关键组分动态定位于初级纤毛上。因此,初级纤毛的结构缺陷常常导致Hh信号通路异常。跨膜蛋白TMEM216在初级纤毛形成中发挥作用,其基因突变引起Joubert和Meckel综合征(纤毛病),然而其作
学位
近年来,国家对医药行业的调控日趋严格,两票制、一致性评价等各项制度先后落实,让医药行业在短期内承压的同时,也获得了向更高科技水平发展的新动力和新途径。在这一大背景下,致力于在医药行业大展宏图的企业,对新药研发的渴求也愈发强烈。但是,新药研发往往意味着将大量的资金投入到漫长的研发周期中,这就对医药企业的融资能力提出了更高的要求。由于通过IPO上市存在审核严格、等待时间长等问题,许多企业往往选择借壳上
学位
随着人工智能技术的蓬勃兴起,现阶段的工业生产过程正朝着更加自动化、智能化的方向发展,这一方面提高了工业生产产品的质量、改善了原有的粗犷生产状态,另一方面显著提高了工业的实际生产效率与生产水平。在工业零部件生产作业中,产品质检与产品瑕疵检测一直是一个至关重要的环节。一些基于传统数字图像处理的方法往往需要研究者根据不同瑕疵类别设计相应特征,但此方法缺乏通用性,且成本较高。因此,为改善工业质检流程并提高
学位
对虾养殖作为沿海地区的重要支柱产业,为水产养殖业带来巨大的经济效益。但自上世纪90年代以来,白斑综合征病毒(White spot syndrome virus,WSSV)病频发,对对虾养殖业造成了重大损失。虽然针对该病毒做了大量的研究工作,但到目前为止对WSSV感染的致病机理了解的还很少。除了通过改进养殖模式控制病害传播外,对WSSV也没有有效的防控措施。腺苷酸活化蛋白激酶(Adenosine 5
学位
随着我国经济建设的高速发展、工业科技产业的进一步提升与扩大以及城镇化进程的持续深入,对民生、商业和军事领域的用电能源需求与日俱增,而国家电网工程也取得了突飞猛进的发展。防震锤作为电力系统中的重要组件,在输电线路中起到保护导线、保障输电稳定的关键作用。但由于长期暴露于室外,经常遭受风吹雨打、植物侵蚀等影响,易导致出现锈蚀现象,对输电线路的可靠性和安全性造成巨大影响。因此,防震锤的锈蚀检测是电力系统巡
学位
测地线是指限制在曲面上的最短路径,蕴含了曲面的所有内蕴属性,是形状分析的基础。测地线的计算是计算机图形学、计算几何、计算机视觉、路径规划等多个领域共同关注的研究课题。考虑到连续曲面上一般不存在测地方程的闭式解,大多数已有方法在三角网格曲面上寻求以折线作为表示的离散测地线。从目前的研究进展来看,已有研究工作尚不能满足数据多样性和算法普适性两大需求。一方面,三维模型的表达有多种形式,包括点云,网格曲面
学位
近年来,随着智能手机和可穿戴设备的发展,使用智能设备中传感器数据的行为识别受到了越来越多的关注,并已经应用在医疗保健、智能城市等多个领域。现有方法通常基于深度学习技术,避免了手工特征设计。然而,在广泛应用于现实场景之前仍有几个问题急需解决。首先是隐私保护问题。用户的传感器数据携带隐私信息,传统的集中式训练方式很可能导致用户的隐私数据泄露。第二是标签稀缺问题。传感器产生数据的频率通常很高,人工为这些
学位
在逻辑上相互关联的命题上聚合个体判断的任务称为判断聚合。判断聚合过程的操作首先由List和Dietrich等人开始研究,Endriss等人是第一次从计算角度研究判断聚合过程。Baumeister等人扩展了他们关于操纵的结果,并在判断聚合中引入了贿赂和控制的概念,再次聚焦算法和复杂性理论性质。关于控制操作,外部操纵人员可以试图通过增加或删除法官个人判断集的方式来影响选举结果;对于操纵操作,外部人员可
学位