基于形式概念分析的主题搜索策略研究

被引量 : 0次 | 上传用户：coding_key

【摘要】

：

Internet的迅猛增长使得搜索引擎面临前所未有的挑战，搜索引擎如何适应这种规模的急剧膨胀，成为一个备受关注的问题。如何在浩瀚的网络资源中发现有用信息促使了搜索引擎的诞生

【作者】

：

董占兵

【发表日期】

：

2007年期

【关键词】

：

搜索引擎主题搜索形式概念分析概念格网络蜘蛛

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet的迅猛增长使得搜索引擎面临前所未有的挑战，搜索引擎如何适应这种规模的急剧膨胀，成为一个备受关注的问题。如何在浩瀚的网络资源中发现有用信息促使了搜索引擎的诞生，而作为搜索引擎中重要组成的网络蜘蛛(web spider)专门负责采集网络资源进行数据储备。传统的基于整个web的采集(scalable web crawling)在网络信息检索中发挥了重要的作用，成为各大门户网站的首选，然而随着网络资源的爆炸式增长，传统的基于整个Web的信息采集需要采集的页面数量十分浩大，这就需要消耗非常大的系统资源和网络资源，然而这些资源的消耗并没有换来所采集到的页面的较高利用率，事实上，它们中有相当大的一部分利用率很低。这是因为，用户往往只关心其中极少量的页面，并且这些页面往往集中在一个或几个主题内，而采集器采集的大部分页面对于他们来说是没有用的；另外刷新如此大量的页面需要很长的周期，这就不能实时反应网络资源的动态变化，造成了一定数量的过期信息；此外传统信息采集技术由于其采集的规模较大，采集页面内容的杂乱，不能根据用户的特定信息以及用户感兴趣的主题进行集中式爬行，容易造成主题淡化和许多相关信息的丢失，多数情况下只能返回一些广泛主题的结果，对明确的特定的主题信息则返回很少。面向主题的搜索引擎可以有选择性的抓取与主题相关的网络资源，识别的依据是一个或一组事先定义的主题，主题特征由样本网页或文本标识，而不仅仅是关键词。它有效减少了采集页面的数量，增加了采集页面的规整程度，并能深入剖析用户感兴趣的主题，返回大量高质量相关信息，这不仅能够大大减少系统对硬件和网络资源的需求，而且还有助于提高抓取的准确率和搜索结果的更新速度，因而以何种策略去访问Web，以期获得更多的相关资源，成为主题搜索的研究热点。本文通过研究现有的主题搜索策略的特点，提出了将形式概念分析这一数据分析工具应用到主题搜索中，将以往仅仅停留在关键词层面的机械式的、外在形式的匹配技术提高到概念匹配的层面，从概念的语义关系层次对文本进行主题相关性分析，通过概念相似度对页面内的URL进行主题相关性预测，因而提出了基于形式概念分析的主题搜索策略。纵观各种搜索策略，将形式概念分析应用于主题搜索，本文是一个新的尝试，主要的研究内容如下：1．概念格作为形式概念分析的核心，是一种有力的数据分析工具。本文通过研究格上概念之间隐含的各种关系以及格结构本身的特点，决定以概念格作为背景来表示用户查询主题，建立用户兴趣主题模型作为基础格。2．重点研究了格上概念之间的继承关系，定义了格上的核心概念和非核心概念，给出了格上概念距离的计算，并提出了三种通过概念距离计算概念相似度的方法。3．提出了基于属性的直接概念匹配方法，给出了虚拟概念的定义，通过在基础格上寻找虚拟概念位置来获取虚拟概念的相似度值，以此相似度值为依据，解决了待访问URL与主题的相关性判定问题，提出了本文的基于形式概念分析的主题搜索策略。4．构建主题搜索系统，获取网络数据，通过平均收成率和F-Measure两种评价指标来检验本文的搜索策略，通过和通用的宽度优先搜索策略进行比较，得出了本文提出的策略是可行的。

其他文献

互助保险:中国农业保险的道路选择——以日本农业保险为例

农业保险作为WTO"绿箱政策",已成为国际上非价格农业保护的主要工具。我国是世界上自然灾害最频繁的国家之一,农业保险是政府保护农业、稳定农村经济、确保国家粮食安全的重

期刊

日本农业保险种养殖业保险启示

应对公共突发事件加强应急反应制图研究

当今社会是一个风险社会,各种突发公共事件频繁发生,既有地震、海啸、火灾、水灾等自然灾害发生,又有传染病、恐怖事件、安全事故、战争等其他突发事件。所有这些突发公共事

期刊

应急反应突发事件制图表达灾害风险专题地图突发公共事件地图服务

薛居正守正不桡

薛居正（912－981），字子平，开封浚仪（今河南开封）人，五代至北宋初年大臣、史学家。后唐清泰二年（935年）进士，历仕后晋、后汉、后周、北宋四朝，先后任谏议大夫、刑部郎中、户部侍郎、兵部侍

报纸

我国失地农民社会保障模式的比较与反思

建立和完善失地农民社会保障体系不仅直接影响到城市化进程的推进,还关系到失地农民的生存发展与社会的稳定。本文在梳理建国以来我国失地农民安置主要模式的基础上,总结了当

期刊

失地农民社会保障模式约束条件制度创新

基于时频域变换的数字水印技术的设计与分析

论文研究了基于离散余弦变换域的数字水印技术，涉及图像和音频领域。随着网络技术和多媒体技术的飞速发展，多媒体数据成为人们获取信息的重要来源，并成为人们生活的重要组成部分

学位

数字水印m序列扩频码人类视觉系统HVSBCH纠错编码离散余弦变换离散小波变换音频数字水印混沌序列位错率

农业景观审美性浅析

探讨了农业景观的起源与发展过程,论述了农业景观审美体系是由审美主体、审美客体以及主体对客体产生的审美感受三部分构成,缺一不可;并进一步说明了农业景观的审美体验,介绍

期刊

农业景观审美体系审美方式

华北人民政府研究

1940年代末，内战的进程呈现出了对中国共产党有利的趋势。为了使这种趋势转化为胜势，中共中央工作委员会、中共中央先后来到西柏坡，使华北地区的政治战略地位越发重要。随着解放

学位

华北人民政府中国共产党中央人民政府董必武

城市无人机交通管理研究——以新加坡为例

文章首先概述了城市无人机的发展现状和存在的问题,从指导方针、管理框架、解决方法 3个方面充分阐述新加坡城市无人机空中交通管理模式,并对该模式进行评价,为我国城市无人

期刊

空中交通管理无人机城市交通

泥、砂岩交互地层综放开采覆岩破坏高度的确定

为了确定泥、砂岩交互地层综放开采覆岩破坏高度,以余吾煤业N1102综放面为例,运用多种方法研究该工作面回采过程中覆岩破坏情况。结果表明:运用关键层理论结合软、硬岩破断的

期刊

泥砂岩交互地层综放开采采动裂隙关键层覆岩破坏高度钻孔电视法

“局座召忠”公众号编辑特点分析

'局座召忠'公众号以一个在传统媒体时代的权威媒介形象作为标签,在迥异于传统媒体叙事逻辑的新媒体时代重新取得了成功。其取得成功的原因在于'局座召忠'公

期刊

张召忠局座召忠公众号编辑特点

基于形式概念分析的主题搜索策略研究

与本文相关的学术论文