基于概率模型的名人网页相关度评价

来源 :北京大学 | 被引量 : 0次 | 上传用户:zhoupeng4348
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的工作是在北京大学网络实验室、北京大学计算语言所与北京大学一IBM创新研究院联合研发的天网知名度系统(Fame)中开展的。针对原有系统名人网页相关度评价中存在的问题,提出了一种基于概率模型的名人网页相关度评价模型。 首先,针对Fame系统中名人网页相关度评价的特点,构建基本相关度评价模型。构建基础是OkapiBM25检索模型,在其基础上引入HTML标记权重系数,改进OkapiBM25公式,弥补其没有考虑HTML标记的不足。利用Fame系统数据集进行评测,实验结果表明HTML标记系数的引入提高了系统相关度评价质量,同时显示该基本模型优于原有系统中的相关度评价模型,提高了系统性能。其次,由于不同领域名人的属性信息对其相关度评价有不同的贡献,构建了区分领域的多层次实体模型,来更好地描述用户的信息需求。同时在基本模型基础上引入属性信息权重系数,使基本模型从不支持结构化查询需求改进为支持多层次实体模型。各领域的权重系数通过训练集训练的方式获得,避免了人工赋予方法的不确定因素。选取对系统相关度性能提高最大的一组权重系数作为模型中的领域参数,该套参数通过测试集的测试,证明有较好的适用性。再次,采用了伪反馈和用户反馈两种相关反馈方法,为实体属性信息进行权重的自动调整,以达到系统相关度评价的进一步优化。通过实验得出的结论: 1)初始检索的质量很大程度地影响伪反馈的效果。应该先对初始检索模型进行优化,再使用伪反馈,这个顺序很重要;同时初始检索的质量需要达到一定高度后,使用伪反馈才能提高系统检索质量,目前系统的初始检索质量仍不适宜直接进行伪反馈。 2)用户反馈在总体上自动优化了属性信息权重,提高了系统相关度评价质量。3)用户反馈的效果受名人实体属性信息词数的影响,属性信息越丰富,采用用户反馈后评价质量提高的概率越大。
其他文献
Web Service是近年来兴起的一种基于XML、SOAP等底层技术的新型计算模型,同时,P2P网络及各种应用程序也凭借其灵活的分散化结构、低费用高效率等特点慢慢走近我们的生活。本
随着计算机网络技术的不断普及和发展,越来越多的单位要求建立一个先进的网络信息系统。由于各个单位都有着自己行业的特点,因此所需要的网络系统千变万化。人们在面临网络技术
随着多媒体技术和网络技术的飞速发展,数字产品的应用越来越广泛。数字信息的安全问题逐渐成为了人们关心的问题,其中以数字作品的版权保护最为重要和紧迫。数字水印技术作为
本文首先讨论了嵌入式GIS系统国内外研发的历史和现状,介绍了嵌入式系统的一些背景知识,嵌入式系统下的移动资料的相关概念,移动计算环境、无线通讯的基本知识、嵌入式GIS技
近几十年来,科学技术取得了飞速的发展。由计算机技术所带来的信息革命使人类由工业化的社会进入到了信息化的社会。在众多信息中,图像信息是人类认识世界及人类自身的重要源
数字图像盲水印技术, 就是将水印信息秘密地隐藏于数字图像中, 隐密图像经网络传输后再从中提取或检测水印信息, 且无需参照原始载体图像。目前的盲水印技术存在很多问题, 例
网格是解决科学计算、工程计算和商业计算等大规模计算的平台。它是下一代互联网技术,把互联网合成一台巨大的超级计算机,从而实现资源的全面共享。在网格计算中,任务管理、
目前,Internet迅速普及,Web应用的复杂性和规模都在不断增加和扩大,呈现出高度灵活性、可靠性和个性化等特点,这就给Web应用开发带来了新的挑战。本文通过分析后认为,在现有的Web
空间数据挖掘(SDM)或空间知识发现,是从大量的空间数据库中抽取隐含的知识、空间关系或非显式存储在数据库中有意义的特征或模式。此技术在理解空间数据、获取空间与非空间数
随着计算机网络的普及,上网用户不断增多。一些热门网站的点击率每天超过一亿。用一台服务器为所有用户提供服务几乎是不可能的,所以,只有采用负载均衡技术在多个提供相同服务的