排序主题模型及其应用研究

来源 :大连海事大学 | 被引量 : 9次 | 上传用户:lvyuxuan36520091
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型(Topic Models)是一种可以从大规模离散数据集中自动提取其中隐含语义主题的生成概率模型。自2003年提出以来,主题模型逐渐成为机器学习、自然语言处理、机器视觉领域中的重要研究课题,并且在文本挖掘、观点挖掘、社交网络分析、视频场景理解、蛋白质结构分析、金融数据分析等领域获得了广泛的应用。然而,随着待分析语料库规模越来越大,主题模型分析出的主题数目也越来越多,主题模型产生的结果越来越难以利用。本文针对主题模型的发展、演化以及各种模型的特点进行了深入、系统的探讨和综述,在此基础上,结合机器学习、信息检索以及自然语言处理中的相关技术,对有查询词情况下主题排序和没有查询词情况下的主题排序问题进行了研究,并且将提出的算法应用于学术论文推荐系统和多文档自动文摘中。本文的创新性研究成果可概括如下:1)在对主题模型进行深入系统的综述,并比较主题模型与机器学习中其他学习范式的特点后,提出了主题模型研究中如何在大量主题中突出重要主题,忽略其他主题的问题,并且提出了排序主题模型解决这个问题。2)提出基于关联关系的排序主题模型算法,该算法可以利用主题之间的各种关联关系,在没有用户提交查询词的情况下,利用主题间关系重新排序主题。该算法可以解决在大规模语料库包含过多主题的情况下,在没有任何先验信息和用户提供的信息的情况下,依照主题的重要性程度排序,可以有效提高主题特征的可用性。将基于关联关系的排序主题模型应用于多文档自动文摘,通过对比经典的和基于主题模型的多文档自动文摘算法,实验结果表明,关联关系排序主题模型可以凸现重要主题特征,大大提高多文档自动文摘的效果。3)提出基于查询的排序主题模型,可以在用户提供查询词的情况下,依据用户的意图重新组织语料库中的主题。提出利用主题相关性指标排序主题,有序主题可以提高主题特征的可用性。将本文提出排序主题模型应用于学术论文推荐系统中可以提高推荐系统的惊喜度,基于查询的排序主题模型不但能够找到与用户提交的查询相似的主题,而且还能够找到与查询语意相似的主题,这样在保证推荐精度时也能提高推荐的新颖性,从而提高推荐的惊喜度,通过对比实验证明,基于本文提出算法的推荐系统有较高的惊喜度和鲁棒性。4)将脑认知科学中的行为实验技术与功能性核磁共振成像技术引入主题模型研究中,通过上述两种方法研究人在归纳思考抽象主题过程中的认知活动和脑激活区域,取得了初步成果。该成果有助于主题模型的进一步深化研究。
其他文献
目的探讨老年乳腺癌患者对内分泌治疗的反应。方法 2007年10月至2012年6月我科收治的老年乳腺癌患者,共42例。激素受体阳性,口服来曲唑2.5mg,每天1次。用药时间为3~8个月。结
绩效管理作为发轫于企业管理的一种有效管理模式,随着西方国家新公共管理运动的兴起,在“重塑政府”和“改革政府”中逐渐融入并应用于政府管理中,在解决西方经济问题、化解
岳飞之死乃是宋代政治的一大悲剧事件。一般认为是高宗、秦桧为与金媾和而杀害了岳飞,但从更深的政治文化传统来看,岳飞实为宋代士大夫官僚集团共同谋害。他的死象征了士大夫
物联网技术的研究成果促进了经济发展和社会进步,而物联网网关是物联网核心之一,同时物联网网关在智能化生产和日常生活中的应用越来越广泛。嵌入式图像处理系统作为物联网网关
电池荷电状态(State Of Charge, SOC)的准确估计是电动汽车电池充放电控制和动力优化管理的重要依据,直接影响电池的使用寿命和汽车性能。本文针对电动汽车动力电池的SOC估计
近年来随着城市建设速度的加快以及城乡一体化的推进,原有的道路已不堪重负,交通拥堵现象严重,无法满足国民经济发展的要求,各地掀起了高架快速道路的建设热潮。但此类项目具
通过对雷竹(Phyllostachys violascens)竹杆注射不同外源硒(亚硒酸钠、硒酸钠、硒蛋氨酸)培育富硒雷竹笋,研究不同外源硒在雷竹笋的富集分布及抗氧化性,初步探讨硒在雷竹笋中吸收、
从C语言公共课授课对象的实际情况出发,通过总结学生学习C语言循环结构的一般心理思维规律,经过C语言教学实践,结合国内外优秀的计算机语言教学方法和模式,探索出了一种适合
本文首先通过对国内外文献的梳理和回顾,并具体介绍了自由现金流和过度投资的相关理论,为全文奠定理论基础;然后介绍了光伏的相关知识和中国光伏行业的发展特色和现状,并且从市场
随着我国社会组织的发展以及政府职能转变的推进,政府向社会组织购买公共服务这一新型的供给方式得到了飞速的发展。本文采用理论分析和实证研究相结合的方式,选取基层政府和社