大规模垂直搜索方法的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:niubisile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,Web中每天都会产生大量的网页,这些网页内容千差万别。面对海量的Web网页信息资源,搜索引擎作为信息获取的重要工具,越来越难以提供精确地查询服务。因此,提供与某特定领域主题相关、为用户提供更加及时、准确的查询服务的垂直搜索引擎应运而生。主题爬虫是垂直搜索引擎的核心模块,负责对Web网页进行垂直搜索,将主题相关的网页存储到本地,供垂直搜索引擎建立索引和为用户提供查询服务。在大规模垂直搜索时,如何准确地判断一个网页是否主题相关、以什么样的搜索策略搜索Web网页,是垂直搜索的两个关键问题。基于网页内容的搜索策略将整个网页内容作为主题判别的关键因素,容易受到网页中包含的广告、图片和Flash动画等“噪音”信息的干扰,导致判别的准确率很低。此外,如果主题爬虫只从主题相关的页面中提取链接,往往容易忽略一些有价值的导航型网页中包含的目标主题链接。本文针对这些问题进行研究,重点集中在主题爬虫的搜索策略和页面链接的价值评估上,提出基于网页特征加权的主题判别算法和基于块提取的链接价值评估方法。论文的主要工作和创新点如下:(1)提出一种网页特征加权的主题判别算法。通过对HTML网页标签特征的研究和分析,发现不同的HTML标签包含的文本对判别网页内容主题的贡献程度不同。本文利用TF-IDF算法提取网页特征词时引入HTML标签权重因子,并引入基于网页特征加权的朴素贝叶斯分类器对网页主题与目标主题之间的相关性进行判别。数值分析的结果表明,该方法显著降低了“噪音”对主题相关性判别的影响,判别准确率提高了 2.5%以上,召回率提高了 3.5%以上,同时还节省了网页的存储空间。(2)提出一种基于块提取的链接价值评估方法。通过对网页结构布局特征的研究和分析,发现当利用div标签和table标签对导航型页面和与主题相关页面进行网页分块处理后,可以引入改进的朴素贝叶斯分类器对网页块进行主题判别,并从主题相关的网页块中提取链接,利用链接锚文本与目标主题的主题相似度、父网页块与目标主题的主题相似度来对网页块中的链接进行价值评估。实验结果表明,本文算法与Best-First算法和PageRank算法相比,在搜索效率和搜索准确率上均得到了明显的提高。
其他文献
1 前言在焦化厂,如何保证配煤槽按给定的排料速度连续均匀地放煤,消灭死角除煤这个问题一直没有得到很好的解决。尤其是在煤水份大,煤泥多的情况下,问题就更突出了。我公司焦
维里多公司(Viridor)是英国一个搞废物回收、再生新能源和废弃物管理的,将对伊普斯威奇(Ipswich)附近梅森斯材料回收厂(Masons Materials Recycling Facility)投资15.4M英磅
电解槽电压平衡测算,对优化工艺参数和诊断槽况有十分重要的作用。通过电压平衡的测算和诊断,可以系统分析电解槽各部分电压存在的问题,并有针对性的制定措施,为科学制定电解
采用网络调查法与文献计量法,调查了1994—2010年间国家社科基金项目中有关"图书馆.情报与文献学"的资助立项情况,对这些项目的年度分布、立项者、立项单位、预期成果形式等
随着社会经济的不断发展,供配电技术在高层建筑中的运用已经成为电力领域的重点课题。本文通过分析高层建筑的基本特点,阐述高层建筑对当地供配电工作系统的具体需求,论述高层建
介绍了国内首台矿用蓄电池动力铲车交流变频调速系统的设计方案,满足铲车过载能力强、启动转矩大、轻载速度快的要求。利用加载中心试验平台对变频调速系统关键特性测试,结果
a.什么是臭氧层在地球表面以上20—40km之间,有一层由臭氧组成的薄层(简称臭氧层),其主要作用是挡住对地球有害的紫外辐射的通过。b.臭氧层破坏的后果人类患皮肤癌、白内障、
【正】 茶叶——服用人参等滋补药的人,应忌饮茶,尤其是浓茶。银耳——外感风寒症患者忌食,便秘腹胀者也不宜食用。黑木耳——孕妇不宜食用。黄花——皮肤瘙痒者忌食。