半监督排序的若干关键问题研究

来源 :华中科技大学 | 被引量 : 1次 | 上传用户：luoyanxiang

【摘要】

：

排序是信息检索领域的核心问题，在众多应用问题如搜索引擎、协同过滤、药物发现与生物信息学中发挥着越来越重要的作用。排序旨在根据给定的训练样本，返回一个反映样本序关系的

【作者】

：

潘志斌

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2014年01期

【关键词】

：

信息检索半监督排序特征提取模型设计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

排序是信息检索领域的核心问题，在众多应用问题如搜索引擎、协同过滤、药物发现与生物信息学中发挥着越来越重要的作用。排序旨在根据给定的训练样本，返回一个反映样本序关系的列表。由于当前机器学习领域中支持向量机算法获得的巨大成功，学习已经成为解决排序问题的最重要的方法，排序学习成为了机器学习领域中继分类与回归之后涌现出来的学习问题与研究热点。　　然而，目前对排序学习的研究主要集中在监督情形。而在现实应用问题中，未标记样本的获取比标记样本更廉价也更容易，我们往往面对的是少量标记样本和大量未标记样本共存的情形――即半监督排序学习问题。因此本论文围绕半监督排序中的特征提取与模型设计分析两个环节展开研究，主要贡献如下：　　1.针对当前半监督排序模型没有考虑样本标记的值或样本标记的差分模度这一问题，提出了两个半监督排序模型：(a)基于图的直推排序模型。我们基于图相似性矩阵建立了半监督排序模型，导出了闭式解，用其可得到未标记样本的评分。(b)基于图的保留模度半监督排序模型。利用最小二乘排序损失，我们证明了表示定理并推导出了该模型的闭式解，给出了推广误差的上界，证明了其推广性能与图的相似性矩阵之间有密切的关系。在推荐任务与量化构效关系分析中的实验结果表明，该算法比许多主流的排序学习算法具有更好的性能。　　2.针对当前半监督排序中可使用的核函数类型较少并且没有考虑非线性特征的正交性这一问题，构建了两种不同的用于向量型输入的Legendre核函数：(a)基于正交Legendre多项式的正交Legendre核函数。(b)基于广义Legendre多项式的广义Legendre核函数。这些核函数确定的非线性映射的各个分量之间是彼此正交的，因此可以去除数据中的冗余。在一些公共数据集上的实验结果表明，与已有的Chebyshev正交多项式核函数相比，使用了广义Legendre核函数的支持向量机算法往往具有较少的支持向量、较高的稳定性与更好的推广性能。　　3.针对可应用于半监督排序的常用特征提取方法――线性判别分析在现实应用中碰到的小样本容量问题，提出了两种线性判别分析准则：(a)加权和判别分析准则。该准则中同时考虑了两种不同度量――类内散度与类间相似性，其优化模型的解最终归结为一个特征分解问题。因此加权和判别分析准则可以克服小样本容量问题、提取出任意数量的特征，并在一些标准人脸数据集上获得了较高的识别精度。(b)值域空间线性判别分析。它是一种两阶段判别准则，在第一阶段中将所有样本投影到类间散度矩阵的值域空间中，然后再实施传统的线性判别分析。与一些主流判别分析准则相比，该准则的识别精度具有可比性且计算效率较高。

其他文献

恒模算法及其在盲均衡中的应用

自适应盲均衡技术在带限的数字通信系统中起着关键性的作用。传统的均衡算法需要训练序列，而训练序列的传输又要占用宝贵的频谱资源。盲均衡技术不需要参考输入的训练序列来维

学位

盲均衡算法恒模算法相位自适应变步长多输入多输出

基于SAML和CPK的统一身份鉴别技术研究

随着因特网技术的迅速发展，基于因特网的应用模式也在不断演变。越来越多的企业和政府部门依赖因特网来发布信息与提供服务，并构建跨企业的虚拟组织或虚拟企业以实现大规模资源

学位

Web ServiceSAML统一身份鉴别CPK

无线传感器网络中的Gossip算法研究

随着以无线传感器网络为代表的下一代无线自组织网络的兴起，人们开始关注这些不追求高速率大容量的通信而是具有特定功能的新型网络。无线自组织网络不依赖于复杂昂贵的基础设

学位

无线传感器网络流言传播算法收敛速度精度分析

表面处理生产线吊车运动流程规划研究

表面处理技术在现代工业生产中的应用越来越普遍，包括电路板(PCB)生产、五金表面电镀、化学镀、阳极氧化、首饰电镀等多个领域。根据结构不同，可分为四种类型，应用最广泛的是垂

学位

半监督排序的若干关键问题研究

其他学术论文