针对QA问题的敏感代价排序学习算法的研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:wwwenda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎技术能帮助人们寻找到他们想要的信息,但随着目前的搜索引擎技术和互联网技术的飞速发展,网络信息呈明显的爆炸性增长的上升趋势,有时不能帮助人们快速、准确地获得他们需要的信息。问答系统是在传统的搜索引擎技术的基础上发展起来的新的精确的搜索技术。近年来,越来越多的QA问题(QuestionAnswer)频频出现在各种网站上面,如QA论坛或社区。把(QA,thread)作为一个重要的知识资源的挑战是如何能根据答案质量自动排序的问题。因为(QA,thread)中回答的质量良莠不齐,几乎所有的QA论坛和社区,对答案不做任何处理。明显,这将导致用户体验产生负面影响。在本文对这项的研究中,对于答案质量问题,在考虑代价的前提下,运用排序学习算法,主要工作和创新表现在以下几个方面。首先,以百度知道为数据源,抽象出问题答案对的特征向量,把产生出的数据集用于训练排序模型,并在现有的特征选择算法基础上提出改进的面向排序学习的锦标赛排序特征选择方法。其次,分析了排序支持向量机在问答系统排序中存在的一些问题,然后把敏感代价排序学习算法应用到排序支持向量机中,提出敏感代价和基于位置的敏感代价排序学习算法。该算法认为在答案对序列顶部比在答案对中间或结尾所犯错误要付出的代价更大,所以敏感代价考虑顺序学习算法分析了问答对的分类信息,比如答案和问题是相关的、部分相关的、完全不相关的等。基于位置的敏感代价排序学习算法不仅考虑了问答对元素的前部和后部的分类信息,而且要考虑其位置信息。然后,用公式证明敏感代价排序学习算法和基于位置的敏感代价排序学习算法的损失函数是凸性并具有一次可导性,可用梯度下降优化方法。最后,把以上提出的面向排序学习的锦标赛排序特征选择方法、敏感代价排序学习算法和基于位置的敏感代价顺序学习算法应用到百度知道的实验数据集中,从而训练出新的排序模型,并对实验结果进行了分析和讨论。实验结果表明,新提出的特征选择方法和排序学习算法的性能均高于比原来的排序学习方法。
其他文献
随着传感器技术的飞速发展,多传感器系统在各个领域都得到了越来越广泛的应用。不同的图像传感器有着不同的成像原理、不同的感应波长范围和不同的应用环境及硬件要求。然而,单
当前,计算机应用软件越来越复杂,或多或少的都会有一些漏洞,比如缓冲区溢出。黑客可以使用病毒和特洛伊木马利用这些安全漏洞侵入计算机系统和获得他们的权限,然后访问敏感信息或
近年来人们提出了一种新的以内容为中心的网络架构——Named DataNetworking(NDN)。NDN网络架构取消了现有网络架构中位置的概念,直接使用名字访问数据,这种以内容为中心的设计
过去25年的商业DBMS发展用一个短语来概括:一刀切,即传统的关系型数据库架构适用于大部分以数据为中心的应用。随着大规模Web2.0网站的飞速发展,关系型数据库在满足高并发读写,
Android手机系统由于其易用和开放性,迅速占领了智能手机操作系统市场的最大份额。而其开放性也导致系统本身安全问题尤为突出。自2010年起大量Android恶意软件爆发式地发展
软件缺陷是对软件产品预期属性的偏离现象。它是影响软件质量的重要和关键因素之一。发现与排除软件缺陷是软件生命周期中的重要工作之一。软件缺陷的描述是软件缺陷报告中测
图像分割是将图像中具有特殊意义的不同区域分离开来,并使这些区域互不相交,且每个区域应满足特定区域的一致性条件。医学图像分割是图像分割中不可或缺的一部分。颅内肿瘤(Int
随着计算机网络与信息存储技术的飞速发展,网络存储技术大规模应用,无论是企业、政府还是个人都逐渐习惯利用网络存储系统进行数据的存储、备份以及共享。现有的网络存储系统安
随着视频分辨率的上升,移动互联网与互联网在线视频业的兴起,对视频编码技术带来了以下新挑战:超高清视频实时编码、海量多格式的视频编转码等。对普通多核处理器而言,很难满足
随着无线传感器及网络技术的飞速发展,其应用也越来越广泛。在无线传感器网络(WSN)的很多应用中,无线传感器节点收集的数据必须与收集数据的位置信息绑定才具有意义。此外,网络