基于概率模型的名人网页相关度评价研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:zw198518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
个性化检索是当前信息检索的研究热点之一。它根据用户的个性化需求,实现信息的自动收集、分析和推送等服务。与一般的信息检索相比,服务的针对性更强,质量更高。相关网页排序结果的优劣是检索服务质量好坏的最根本体现,因此网页的相关度评价是个性化检索系统的关键环节。概率模型在用户兴趣建模上有独特的优势,它引入概率参数,可以更准确地刻画用户的需求,适合个性化检索的相关度评价。 本文以名人网页为基础,研究实体网页的个性化检索,旨在提高实体网页的相关度评价准确率。本文设计并实现了基于概率模型的名人网页相关度评价算法,探讨了概率模型的训练、模型的改进及查询扩展等三方面问题,总结了概率模型的规律,提出了多种提高网页相关度评价准确率的方法,并给出了翔实的实验结果。 本文研究工作的主要创新点有: (1)提出了一种实体网页的概率模型的训练集选择方法,提高训练效果的同时降低了算法开销。 (2)改进模型的概率计算公式,引入更细致的用户反馈信息,优化特征项的分布概率;改进相关度计算公式,引入词频、网页长度、HTML标记等网页信息,提出对实体分类定制相关度计算公式的思想。 (3)针对实体属性信息的特点,提出相关网页和用户查询相结合抽取相关特征项进行查询扩展的方法。 实验表明,与名人网页相关度评价的原有模型相比,本文模型在很大程度上提高了相关度评价的准确率,并且可以直接应用到其他类型实体网页的检索,文中的方法和结论为实体网页的个性化检索研究提供了参考。
其他文献
不确定性普遍存在于主观和客观世界中,模糊性是它最重要的形式之一。不确定性人工智能是人工智能的深化和发展,现已经成为人工智能研究的热点和重大的前沿课题。而模糊逻辑系
近年来,随着网络技术和Internet的迅速发展,基于Browser/Server结构的Web应用,因其具有易用性、通用性、良好的可扩展性等优点而发展迅速,正逐渐成为实现企业应用信息系统的主流技
随着互联网的不断发展,网络已经是我们生活不可分割的一部分。从而使得为了网络而生的技术——Java大行其道。而Java在嵌入式领域的版本——J2ME(Java2MicroEdition)也由于芯
随着信息技术的快速发展和业务需求的变化,数字医院提高自身业务水平的要求越来越迫切,以医院信息系统与应用为代表的医院信息化建设,已成为医院改善医疗环境、提高管理水平和医
子空间方法是一种根据应用需要对高维数据进行降维处理的方法。它寻找一种线性变换将高维的数据投影到低维的子空间中去以达到降维的目的。这种方法在对高维数据进行处理时表
在已知边带权的连通图中找一棵边权总和最小的生成树的问题很早就被提出和研究[15,14】,并且也得到了广泛的应用【15,14,23】。但是在日常生活中也会遇到这样一类类似的问题,抽象
6PE技术是实现IPV4向IPV6过渡的一种技术,目的是连接IPV6孤岛。它实现了纯IPV6信息跨越IPV4 MPLS骨干网。V6 CE传送IPV6数据至PE,PE支持双栈,可同时处理V4N6业务。然后,6PE路由器
随着XML日益普遍的应用,如何快速准确地访问XML文档中的数据已成为急需解决的关键问题,这涉及到对XML查询语言XQuery实现的优化研究。目前可以通过多种途径对XQuery进行优化,如:
近年来,短信及其增值业务发展迅速-特别国际短信业务具有巨大的发展潜力,已成为业务收入的新增长点。针对特定群体的需求,广州纬视软件有限公司与新加坡某公司合作开发了基于Inte
本研究课题以AT91RM9200处理器为平台,以嵌入式Linux操作系统为软件核心,针对“一卡通”校园网络的功能需求,设计并成功研制了嵌入式通讯服务器。 首先,本文介绍了嵌入式通讯