主题模型对多域数据的挖掘和应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dingjk3883085
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界互联网的快速发展给人们的生活带来了很多便利。其中最重要的一点是方便了信息的分享和传播,具体体现在提高了消息传播的效率。但是互联网的这种便利也造成了信息过载的问题。网络可以用来来购物,交友,娱乐,浏览新闻,但是在大多数的应用场景中,人们总会被很多无价值的信息干扰,特别是当人们需要及时获取感兴趣信息,比如电影,还有志同道合的朋友的时候,这种干扰会严重影响用户体验。在搜索引擎的帮助下,人们能够快速地根据自己的意愿寻找有价值的信息,但是当需求很难明确的情形下,就需要推荐系统的帮助。现在人们的需求是多元化的,比如在看到一个好的小说改编的电影之后也会有兴趣去读对应的小说,网络个体也许会对某一社交圈中的好友喜爱的新闻感兴趣。本文将对这些在不同领域中出现的数据和信息进行分析和研究,并发掘它们的用途。本文将针对多域数据集中的信息挖掘和聚类的方法进行研究,进而研究跨域推荐的方法。我们提出了OVCLDA算法来同时处理分析多个领域的数据,并将根据数据的隐含主题进行聚类,从而可以打破域的限制。我们的模型可以求出特定单词在隐含主题上的多项分布,同时也可以得到单词到各个域上的多项分布。在这个模型中,域之间的信息可以跨域共享也可以保留各自独有的特征。同时这种算法引入了在线学习的思想,能够处理流式的数据,算法效率对比基于蒙特卡洛方法的吉布斯采样有了很大的提高,这也就使得这种方法在当前这个大数据时代是十分实用的。主题模型在分析文本数据时有着很强大的能力,而基于主题模型的各种改进模型同样也有这样的能力。不过在常见的推荐应用场景中,更多地是处理用户对于物品的打分数据,并预测用户对未打分或未产生行为的物品做出合理的预测。在推荐系统的常见算法中有一种隐语义模型,这种模型本质思想与主题模型是一致的,都是挖掘表面数据背后隐藏的特征和联系,将高维度的信息用低维的隐特征来表示。我们对已有的一种传统的矩阵分解算法进行了改进,进而命名为DSSCM模型,从而可以在跨域推荐的问题中一定程度上解决传统单域推荐经常遇到的数据稀疏的问题。最后,我们做了大量实验,实验的结果也使得算法效果达到预期。所以主题模型和与之本质思想类似的隐语义模型能够有效地分析离散的,多域的数据集,并在互联网时代有着广阔的应用前景。
其他文献
随着人工智能时代的来临,移动机器人技术的研究越来越多地受到人们的青睐,涉及到各行各业,如工业、农业、服务业、国防等。轮式移动机器人改善了人类的生活方式,具有提高工作
我国是一个农业大国,在近几十年的农业生产生活中,病虫害一直是影响农业生产的主要因素之一。随着科技的发展,有机磷农药因其低毒、高效、选择性强等特点而被广泛应用于农业
图像的风格转换拥有着广阔的应用领域和很高的实用价值,随着高性能计算机的快速发展以及深度学习研究算法的引入,如今社会对实现图像风格转换有了更高的要求。因此,高质量的
红外图像在军事探测、民用监视和医学诊断等领域中有重大的应用价值和发展空间。但是当前的红外成像系统因其材料与制作工艺的限制和外界环境的影响,拍摄的红外图像会受到非
新生研讨课(freshman seminar)是美国高校为了帮助大一新生顺利地适应大学的学习与生活,促进学生学业和社会性发展而开设的课程。近年来,新生研讨课在我国部分研究型大学得以实践,其新颖的教学模式和充满趣味性的教学风格深受广大师生的欢迎,并且已经成为我高校本科教学改革一道靓丽的风景线,这也说明我国高等教育已经从诠释素质教育和创新教育口号为标志的认识阶段深入到了课程体系和教学方法的实质性改革阶
随着计算思维的重要性日益突出,如何在程序设计教学中有效训练学生的计算思维能力则成为国内外研究的重要主题。本研究通过文献整理和分析、梳理当前程序设计教学存在的问题,
鳞虾群算法(Krill herd algorithm,KH)是一种基于群体智能的新型元启发算法,其主要受南极鳞虾群觅食行为启发,由gandomi于2012年首次提出。鳞虾群算法因其强大的局部开发能力
随着移动互联设备的普及和各种社交app的兴起,个性化推荐系统早已从传统的电子商务和新闻推荐领域渗透到人们生活的方方面面。推荐系统的功能和要求也随之发生了新的变化。从
图像修复工作是一项比较繁琐和精细的工作,其技术在文物保护、影视制作以及刑侦等方面都有着广泛的用途。使用深度学习的相关知识进行图像修复不仅可以保证其修复效果,而且具
基于数据挖掘、机器学习、人工免疫等智能技术的异常检测在计算机图形图像、网络安全等研究领域表现得格外活跃。人工免疫是一种模拟生物免疫的人工智能技术,其技术日益完善,