垂直搜索中的数据清洗和排序算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:g2gstock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“信息过载”问题随着web信息资源的迅速膨胀变得越来越严重,而搜索引擎是解决这一问题的基本工具。由于传统搜索引擎是面向大众用户的,检索结果往往面向各行各业,因此用户不容易找到自己所需要的信息。垂直搜索引擎的出现在一定程度上解决了通用搜索引擎对专业领域及特定主题信息覆盖率过低的问题。在国家科技支撑项目子课题---“基于本体的农业搜索引擎”(2006BAD10A1410)和国家自然科学基金---“农业复杂自适应搜索引擎”(60774096)的支持下,本文围绕农业垂直搜索引擎的关键问题开展研究。中国搜索引擎用户不满意因素的调查结果显示:用户对结果的排序不满意占了很大的比重。本文对搜索排序算法进行了认真分析,现有通用搜索引擎大都采用了输入---输出的响应模式,该模式没有考虑用户反馈。论文提出了一种基于lucene基础排序算法的改进算法,该改进算法考虑了多个排序因素:(1)为了体现网页链接的重要性,算法融合了pagerank算法;(2)网站等级得分;(3)用户反馈得分:将反映用户兴趣的点击行为和网页浏览时间转化为兴趣度并作为搜索结果排序的一个得分因子。该算法通过实验验证了其优越性。优秀的排序算法也需要一个高质量的数据来源,高质量的搜索结果必然依赖于高质量的数据,为了避免得到重复、相似或者信息不完整的搜索结果,数据的正确性是至关重要的,否则就会出现“一流的引擎,二流的数据库”的现象,所以,数据预处理工作相当重要,数据清洗工作也被提到显著位置。本文设计了基于MD5数字签名的数据消重算法,在查准率、查全率和响应时间上都满足实际需求,同时,在处理不完整信息方面提出了处理方法,即利用其它项属性值来推测缺失项属性值,以及使用最可能的值来填充缺失值,该方法已成功应用于农业垂直搜索引擎中。最后,本文设计一个农业垂直搜索引擎,从总体设计到核心模块设计进行了详细说明。该垂直搜索引擎的系统测试结果显示其在查准率、查全率、响应时间三个重要指标中均表现良好,满足了项目的实际需求。
其他文献
工作流技术作为现代企业实现业务过程管理与控制的一项关键技术,为企业的经营提供了一个从模型分析、建立、到运行的完整框架。随着工作流技术的发展,工作流管理系统的执行效
现代航空飞行器在一个国家军事国防中发挥着重要作用,是一个国家综合实力的重要体现。航空飞行器本身是一个非常复杂的体系结构,并且在飞行过程中,常常处于非常复杂多变的恶劣环
纸张影响着整个人类文明的发展。随着计算机及网络技术的高速发展,人们开始渴望自然地与计算机交互,于是,纸张开始被虚拟为数字纸张在计算机环境中出现。数字纸张既结合了纸
本文在分析风力发电机组工作原理的基础上,对整个系统建立仿真模型。针对变桨距部分设计了传统PID控制器、模糊控制器和模糊自适应整定PID控制器,并在不同的风况下进行仿真。模糊控制器和模糊自适应整定PID控制器都属于智能控制器范畴。仿真结果表明,尽管PID控制器具有结构简单、稳定性好、可靠性高的优点,但这种方法过分依赖于控制对象的模型参数,鲁棒性差;与传统PID控制器相比,模糊控制器和模糊自适应整定P
近年来,视频监控系统在安全领域和军事应用中获得了越来越多的重视。由于视频监控系统的广泛应用,需要监控与处理的数据量日益增加,纯粹靠人来对这些数据进行处理已不可能。
TTCAN(Time-Trigger Controller Area Network)是一种基于CAN总线的充分利用时间触发与事件触发两种机制优点的新型协议,其调度的消息具有传输可管理与可预测等特点,对于分布
移动机器人的发展对国防、社会、经济和科学技术具有重大的影响力,已成为各国高科技领域的战略性研究目标。视觉辅助导航是移动机器人导航的热点之一,其中道路检测是视觉导航
随着计算机和机器人技术的发展,人们对于机器人的性能要求也在不断提高。现代机器人已经不再像早期局限在工业制造自动化方面,而是广泛地应用在军事、民用、科学研究等各个领域
机动目标跟踪研究对目标机动不能准确描述的估计问题,是近年来科学界研究较多的课题。由于其有效而广阔的理论和应用前景,在军事和民用领域得到越来越广泛的应用。但随着跟踪
互联网技术的发展极大的便利了人们的生活,但图片这一信息载体并不能够满足人们日益增长的需求。近些年来,以三维模型为载体,以漫游的方式进行信息展示的模式不断时兴,具有更