基于文档主题相关性的LDA有监督模型

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Arqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和自然语言处理领域中,语义模型(Topic Models)是一类基于统计理论的概率模型,它一般通过构建出“词汇—主题—文档”来发现语料库(文档集合)中的潜在的主题(语义)。其中,最具代表性的语义模型有PLSA语义模型和LDA语义模型。  近年来,作为自然语言处理领域的一大分支的语义模型在原有的PLSA语义模型和LDA语义模型的基础上得到了极大的发展。例如改进的PLSA、LDA语义模型可以处理分类问题和判断文档集合中任意两篇文档的相关性等。在应用上,如今的语义模型已经被广泛用于信息抽取、自然语言处理、文本分类、社交网络、信息检索、自动文摘等领域。本文在层次关系模型(Hierarchical Relational Models)的基础上提出了能处理二类分类问题和回归问题的基于文档主题相关性的LDA有监督模型。该模型可以直接应用到个性化文档推荐和个性化检索领域中。  本文的主要工作总结如下:  (1)本课题首次提出了基于文档主题相关性的LDA有监督模型。本课题在LDA语义模型的基础上,加以适当的改进,将多类分类问题和回归问题结合到LDA语义模型中,从而提出了能在语义层面进行文档间相关性计算的训练模型;  (2)本课题将提出的基于文档主题相关性的LDA有监督模型用于个性化文档推荐的模拟实验中。本课题把原有的用于排序学习的标准文档数据集OHSUMED运用于个性化文档推荐的模拟实验中。实验证明,本课题提出的方法是有效的;  (3)本文提出了采用LDA语义模型来计算文档之间的相似性,且用于传统的列表级排序学习中。本文在前人考虑了文档之间相似性的排序学习的基础上,加入了LDA语义模型计算的文档间的相似性,用语义的信息来影响排序学习,从而获得最终纳入了语义信息的排序函数。在实验中,将纳入语义和词汇相似性的ListMle、ListNet分别与仅考虑词汇相似性的ListMle、ListNet和没有考虑任何相似性的原始 ListMle、ListNet做为对比实验,最终在NDCG@n的评价准则下,我们采用的方法显著优于原有的方法。
其他文献
近年来,随着计算机与多媒体的迅猛发展,图像逐渐成为人们获取信息的重要渠道。然而,图像在获取和传输过程中,不免会受到干扰,使得图像质量退化。因此,对失真图像进行复原显得
随着嵌入式领域的快速发展,使得以前只应用在大型设备如飞机、火箭、轮船上的GPS(Global Positioning System全球定位系统)技术进入了人们生活。嵌入式设备体积小、效率高、
生物水质自动监测方法目前被广泛应用于水体的质量监测和安全预警中,其特点是利用水生生物的生理特性以及对不同水质的行为特性反应水体质量的变化以及水体污染的程度,从生物
相对数值运算而言,符号运算是一种推理过程,有助于解决具体问题,利于揭示事物内涵规律,因此符号运算更是对数学的高度概括和抽象,而当前对积分符号运算并没有规律可循,对某些
随着计算机应用技术的不断发展,传统的采用鼠标、键盘或触摸屏幕作为交互手段的人机交互技术已不能完全满足人们当前的需求,而以自然语言、手势语言和面部表情语言为代表的多
无线传感器网络作为一种新的信息获取方式和处理模式,目前己经逐渐成为国内外学者研究的热点。无线传感器网络包含成百上千的传感器节点,每一个节点有感知环境、执行简单的计算
聚己内酯(PCL)是由ε-己内酯开环聚合制得的热塑性聚酯,由于PCL的熔点较低,热稳定性和水解稳定性优良,与多种聚合物的相容性很好等诸多优点,与其他脂肪族聚酯相比有着广阔的
随着网络的发展,在线社交网络已经成为人们相互联络,发表观点,及分享消息的主要途径。比如Facebook、Flickr、人人网、开心网等。通常社交网络中的用户会提供一些个人信息如:
拓扑控制是无线传感器网络的基础问题,拓扑结构的好坏,直接影响无线传感器网络的网络性能。由于传感器节点一般由电池供电,节点能量、计算、通信等资源十分有限,而无线传感器
在21世纪,互联网信息量巨大,同时以惊人的速度增长,而现有的搜索引擎无法对巨量的信息形成有效检索。形成这种局面的原因主要有以下两方面:一是用户需要特定的信息资源,而信