基于机器学习的信息过滤和信息检索的模型和算法研究

被引量 : 0次 | 上传用户:lingotest
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展,信息网络在人们的工作生活中具有越来越重要的地位。从网络上的海量信息中快速、高效地获取人们真正需要的信息资源,已成为信息社会中的一个关键问题。信息过滤和信息检索技术是解决这一问题的有效方法,具有重要的学术意义和应用价值。本文基于统计机器学习方法,重点研究了信息过滤和信息检索模型与求解算法。主要研究内容包括:首先,介绍了信息过滤和信息检索的概念和意义,总结了它们的起步和发展情况。概括介绍了几种基于统计的机器学习方法的概念和特点以及它们在信息过滤和信息检索中的应用,作为本文的理论基础。其次,介绍了协同过滤问题的几种常见方法,提出了应用于协同过滤的一种概率模型,称为真实偏好高斯混合模型。新模型引入了两个隐含变量,分别用于描述用户类和项目类,用户和项目依概率可以同时属于多个类中。模型中考虑了用户评分习惯以及项目的公众评价对用户-项目最终评价的综合影响。与传统协同过滤模型相比,新模型更符合用户评价的实际情况。第三,研究了有限混合模型在大规模文本数据聚类问题中的应用,提出了用有限混合模型进行无监督文本聚类的一种规范的广义方法。它将模型选择,特征选择以及混合模型的参数估计纳入一个统一的框架。定义了一种改进的“特征显著性”方法,将特征对各混合成员的相关性作为隐变量引入混合模型,在估计模型参数的同时完成特征选择。发展了一种带特征选择的多项式混合模型,作为广义方法的实例做了详细的说明。第四,采用基于图的方法研究半监督学习问题。主要思想是定义样本间基于密度距离的相似度,得到数据集的内在结构信息,并将其引入学习器加以利用。对半监督分类,定义了一种基于密度的距离来反映数据点间的相似度,在此基础上以一种Laplacian核方法来构造整个特征空间上的超分类面。对半监督聚类问题,提出了一种基于密度的约束扩展方法。根据样本点间基于密度的距离和相似度关系,对已知约束集进行扩展,扩展后的约束集包含了数据集的内在结构信息。最后,对论文的主要研究工作进行总结,展望了今后的研究前景。
其他文献
室内空间是建筑空间的重要组成部分,室内空间界面的设计是建筑设计在室内的深化和延续。随着当代西方建筑设计的日渐深入,对室内空间及其设计手法的认识更加深刻完备,值得我
从会展的内涵和营销创新的层次着手,论述了会展在营销理念、营销策略、营销细分市场和营销应用领域的“创新”性。
当“国八条”把传统大型餐饮品牌扫荡得哀鸿遍野时,一批由互联网人开创的餐饮O2O企业正攥住市场的一角,颠覆性地掀起了整块版图。$$   从“叫个鸭子”、西少爷、黄太
报纸
在以市场为基础的住房供应和消费体系中,人们对于住房质量和数量的满足程度取决于对住房的支付能力。因此,住房价格与居民支付能力始终是住房问题的核心。而在任何一个社会,
《博物志》是西晋张华从当时大量传世文献和出土文献中辑录出来的一部小说。将今存士礼居覆连江叶氏本和明弘治贺志同刻本进行比较,可以推断连江叶氏本应该比明贺刻底本更早
诉讼费用是指在实施具体的诉讼过程中所耗费的所有必要的直接开支。其包括法院审判费用、当事人本人进行诉讼活动的必要合理的开支和必要的合理的律师费。诉讼费用负担是指在
负荷分类对电力系统的经济分析、运行和规划都具有重要意义,尤其是随着电力市场的不断发展,以及电力需求侧管理(DSM)技术的广泛应用,负荷分类已经成为电价制定、负荷预测、系
在《北京宪章》中曾这样指出:“技术与生产方式的全球化带来了人与传统地域空间的分离,地域文化的特色渐趋衰微;建筑环境趋同,文化的多样性逐步消失。”作为中国古建筑瑰宝之
商业银行对国计民生举足轻重。通过对中国商业银行的内外部环境和竞争形势分析表明,中国商业银行当前应积极实行顾客满意战略。第一、中国商业银行顾客满意度研究。从影响商
目的观察疏肝化瘀汤治疗脂肪肝的疗效。方法将我院于2017年2月至2019年2月收治的56例脂肪肝患者作为研究对象,均给予疏肝化瘀汤治疗。研究结束后,将患者治疗前后的肝功能指标