论文部分内容阅读
本文的工作是在北京大学网络实验室、北京大学计算语言所与北京大学一IBM创新研究院联合研发的天网知名度系统(Fame)中开展的。针对原有系统名人网页相关度评价中存在的问题,提出了一种基于概率模型的名人网页相关度评价模型。
首先,针对Fame系统中名人网页相关度评价的特点,构建基本相关度评价模型。构建基础是OkapiBM25检索模型,在其基础上引入HTML标记权重系数,改进OkapiBM25公式,弥补其没有考虑HTML标记的不足。利用Fame系统数据集进行评测,实验结果表明HTML标记系数的引入提高了系统相关度评价质量,同时显示该基本模型优于原有系统中的相关度评价模型,提高了系统性能。其次,由于不同领域名人的属性信息对其相关度评价有不同的贡献,构建了区分领域的多层次实体模型,来更好地描述用户的信息需求。同时在基本模型基础上引入属性信息权重系数,使基本模型从不支持结构化查询需求改进为支持多层次实体模型。各领域的权重系数通过训练集训练的方式获得,避免了人工赋予方法的不确定因素。选取对系统相关度性能提高最大的一组权重系数作为模型中的领域参数,该套参数通过测试集的测试,证明有较好的适用性。再次,采用了伪反馈和用户反馈两种相关反馈方法,为实体属性信息进行权重的自动调整,以达到系统相关度评价的进一步优化。通过实验得出的结论:
1)初始检索的质量很大程度地影响伪反馈的效果。应该先对初始检索模型进行优化,再使用伪反馈,这个顺序很重要;同时初始检索的质量需要达到一定高度后,使用伪反馈才能提高系统检索质量,目前系统的初始检索质量仍不适宜直接进行伪反馈。
2)用户反馈在总体上自动优化了属性信息权重,提高了系统相关度评价质量。3)用户反馈的效果受名人实体属性信息词数的影响,属性信息越丰富,采用用户反馈后评价质量提高的概率越大。