一种面向多文本集的部分比较性LDA模型

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:wangchong123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨时空、跨文化文本挖掘等比较性文本挖掘(comparative text mining,CTM)旨在从多个可比的文本集中发现各文本集隐含语义结构的异同.针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种部分比较性跨文本集LDA模型(partial comparative cross collections LDA model,PCCLDA)来实现跨文本集的话题分析,该模型通过层次狄利克雷过程(hierarchical Dirichlet processes,HDP)把话题划分为公共话题和文本集特有话题,使模型能更加精确地对文本进行建模.模型采用Gibbs抽样方法进行参数推导,一系列包括Held-Out数据对数似然和模型困惑度指标在内的定量与定性的实验表明,模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题;在Held-Out对数似然测度和模型困惑度指标上,PCCLDA相对当前两个主要的CTM模型具有较大的优势.
其他文献
目的:分析手术治疗以及石膏外固定治疗在桡骨远端不稳定骨折中的临床治疗效果。方法:随机抽取2012年8月至2014年1月于我院接受治疗的桡骨远端不稳定骨折病人作为研究对象,共6
在建筑装饰工程的施工中,必须做好相关的工程造价预算工作,合理投入工程装饰资金,解决工程造价预算过程中出现的问题,做好相应的控制措施,能够有效控制工程资金,保证装饰工程
目的为清晰辨别充填后玻璃离子水门汀和牙体组织间的界限,将亚甲蓝溶液加入玻璃离子水门汀中,通过观察亚甲蓝溶液对玻璃离子水门汀显微硬度、吸水性和溶解性的影响,探讨使用
<正>党建学说是蔡和森思想的重要内容。党内民主思想是党建学说的重要组成部分。对于蔡和森的党内民主思想,迄今为止学术界尚较少关注和论及。本文试抛砖引玉,就教于各位专家
介绍了广东与香港九龙电网运行16年的情况,阐述了联网的发展过程,联网运行的安全稳定技术措施,联网的管理,联网电力电量的交换及联网运行的经验教训。
胶州湾是典型的温带半封闭浅海湾,周围是经济较发达地区,受周围人类活动的影响较强烈,具有代表性的地理位置,生态特性比较明显,与周边社会经济又构成了一个典型的复合生态系
目的:观察穴位贴敷拔罐联合香菊胶囊治疗过敏性鼻炎的疗效,探讨预防和治疗过敏性鼻炎的有效措施。方法:选择2013年1月—2014年7月,在我院治疗的60例过敏性鼻炎患者。在患者知
目的 :比较不同盖髓剂用于乳磨牙活髓切断的效果。方法 :36颗小型猪乳磨牙均分为 4组。分别用氢氧化钙 ,氢氧化钙碘仿 ,FC ,戊二醛制剂做盖髓剂行活髓切断术 ,以对侧同名牙做
传统翻译理论视翻译为一种纯语言的转换行为,译者的主要任务就是要尽最大努力实现与原文文本的对等。传统翻译理论研究以对原文文本的忠实为衡量译作优劣的最高标准,认为忠实
万科企业股份有限公司成立于1984年5月,起初是一家以经营专业摄录像器材为主的全民所有制贸易公司。1988年12月按照国际惯例进行股份制改造并向社会公开发行股票,是中国大陆