论文部分内容阅读
随着Internet技术的飞速发展,信息网络在人们的工作生活中具有越来越重要的地位。从网络上的海量信息中快速、高效地获取人们真正需要的信息资源,已成为信息社会中的一个关键问题。信息过滤和信息检索技术是解决这一问题的有效方法,具有重要的学术意义和应用价值。本文基于统计机器学习方法,重点研究了信息过滤和信息检索模型与求解算法。主要研究内容包括:首先,介绍了信息过滤和信息检索的概念和意义,总结了它们的起步和发展情况。概括介绍了几种基于统计的机器学习方法的概念和特点以及它们在信息过滤和信息检索中的应用,作为本文的理论基础。其次,介绍了协同过滤问题的几种常见方法,提出了应用于协同过滤的一种概率模型,称为真实偏好高斯混合模型。新模型引入了两个隐含变量,分别用于描述用户类和项目类,用户和项目依概率可以同时属于多个类中。模型中考虑了用户评分习惯以及项目的公众评价对用户-项目最终评价的综合影响。与传统协同过滤模型相比,新模型更符合用户评价的实际情况。第三,研究了有限混合模型在大规模文本数据聚类问题中的应用,提出了用有限混合模型进行无监督文本聚类的一种规范的广义方法。它将模型选择,特征选择以及混合模型的参数估计纳入一个统一的框架。定义了一种改进的“特征显著性”方法,将特征对各混合成员的相关性作为隐变量引入混合模型,在估计模型参数的同时完成特征选择。发展了一种带特征选择的多项式混合模型,作为广义方法的实例做了详细的说明。第四,采用基于图的方法研究半监督学习问题。主要思想是定义样本间基于密度距离的相似度,得到数据集的内在结构信息,并将其引入学习器加以利用。对半监督分类,定义了一种基于密度的距离来反映数据点间的相似度,在此基础上以一种Laplacian核方法来构造整个特征空间上的超分类面。对半监督聚类问题,提出了一种基于密度的约束扩展方法。根据样本点间基于密度的距离和相似度关系,对已知约束集进行扩展,扩展后的约束集包含了数据集的内在结构信息。最后,对论文的主要研究工作进行总结,展望了今后的研究前景。