论文部分内容阅读
搜索引擎技术能帮助人们寻找到他们想要的信息,但随着目前的搜索引擎技术和互联网技术的飞速发展,网络信息呈明显的爆炸性增长的上升趋势,有时不能帮助人们快速、准确地获得他们需要的信息。问答系统是在传统的搜索引擎技术的基础上发展起来的新的精确的搜索技术。近年来,越来越多的QA问题(QuestionAnswer)频频出现在各种网站上面,如QA论坛或社区。把(QA,thread)作为一个重要的知识资源的挑战是如何能根据答案质量自动排序的问题。因为(QA,thread)中回答的质量良莠不齐,几乎所有的QA论坛和社区,对答案不做任何处理。明显,这将导致用户体验产生负面影响。在本文对这项的研究中,对于答案质量问题,在考虑代价的前提下,运用排序学习算法,主要工作和创新表现在以下几个方面。首先,以百度知道为数据源,抽象出问题答案对的特征向量,把产生出的数据集用于训练排序模型,并在现有的特征选择算法基础上提出改进的面向排序学习的锦标赛排序特征选择方法。其次,分析了排序支持向量机在问答系统排序中存在的一些问题,然后把敏感代价排序学习算法应用到排序支持向量机中,提出敏感代价和基于位置的敏感代价排序学习算法。该算法认为在答案对序列顶部比在答案对中间或结尾所犯错误要付出的代价更大,所以敏感代价考虑顺序学习算法分析了问答对的分类信息,比如答案和问题是相关的、部分相关的、完全不相关的等。基于位置的敏感代价排序学习算法不仅考虑了问答对元素的前部和后部的分类信息,而且要考虑其位置信息。然后,用公式证明敏感代价排序学习算法和基于位置的敏感代价排序学习算法的损失函数是凸性并具有一次可导性,可用梯度下降优化方法。最后,把以上提出的面向排序学习的锦标赛排序特征选择方法、敏感代价排序学习算法和基于位置的敏感代价顺序学习算法应用到百度知道的实验数据集中,从而训练出新的排序模型,并对实验结果进行了分析和讨论。实验结果表明,新提出的特征选择方法和排序学习算法的性能均高于比原来的排序学习方法。