基于结构分析的大规模WWW文本信息检索技术的研究

被引量 : 5次 | 上传用户:liu1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web是人类历史上承载数据最丰富的信息库,但在Web上查找所需要的信息却很困难。由于Web的海量规模、异构、动态等特性,使得Web IR比经典IR表现出更大的挑战性,广泛地引起了各方面的研究兴趣。本文研究了Web文本信息检索技术,将该领域当前林林总总的研究分为四大类:经典IR流派、Metadata流派、数据库流派和链接分析流派。经典IR流派继续研究IR领域理论,而其他三种流派则抓住Web与经典IR检索对象,即文献集合的重要区别:结构性特征,在各自原有理论背景下发展起来的。本论文的工作主要包括以下方面:提出面对极其海量、异构的检索对象,将Web看作无结构文档集合的常规的“万能”搜索引擎不是好的解决方式。我们提出将Web看作是有结构的数据对象,构造多个不同检索领域、覆盖范围和检索粒度、服务特色的搜索引擎,它们相互合作形成资源消耗最低、服务最优的Web IR服务框架。提出位于Web IR服务框架根节点处的搜索引擎,检索对象是整个Web,这类搜索引擎应该全局性地覆盖索引整个检索范围,有重点地把握Web上最重要最主流的数据和结构,提出以具有相同主题的页面组取代页面作为搜索引擎的基本功能单位,提供粗粒度的概念检索服务。提出用链接分析技术挖掘发现页面之间的关系,聚类形成一个个具有各自主题的页面组,同时,链接分析技术找出的页面组包含的也是Web中质量最好最重要的一部分页面。页面组与页面相比有主题突出、稳定、数量少的特点,同时也吻合用户的大多数信息需求和Web页面隐性自发组织情况。提出采用主题式取代全文方式进行页面组的标引,避免将大量无用信息、重复信息都存入索引库。标引时着从Web和页面的结构出发,挖掘利用已经存在的、他人作的标引性文本,以及重要文本作为标引文本。论文比较了采用这种标引方式和常规标引方式构造的系统各自的检索效果。提出在检索能力之外,用查准率、前趋度作为定量评价搜索引擎检索质量的参数。为了检验Web IR中的上述技术,我们构造了大规模综合型搜索引擎原型系统SAInSE,并给出了相同的查询在SAInSE和Google上的检索实例。从实例对比可见,当查询词涉及多个主题时,SAInSE能够将相关页面分类(页面组)提交;SAInSE的页面组超越了字面匹配,对
其他文献
招商引资一直被视为有利于地区与一国经济发展的有效方略。以外资主导的产业格局是否有利于地区制造业创新水平的发展?上海在面临"十二五"产业升级的关键期,以发展先进制造业
<正> 例1.更年期综合征(奔豚汤证) 郭某,女,49岁,职工。1983年10月23日诊。原患甲状腺肿瘤,曾行手术切除,性情较急躁。近年月经紊乱,更感情绪难以控制,易激动。常发心悸,胸闷
对江西赣北茶园自然蜘蛛群落结构、多样性及其数量消长进行研究的结果表明;1.赣北茶园蜘蛛群落已定名的有17科、54属、82种,主要是黑色蝇虎、日本管蛛、异角丘腹蛛、锥腹肖峭,其中以异角
2007年秋季、冬季和2008年春季、夏季,分四个季节对山东曲阜人工种植杨树林内蜘蛛种类、群落结构及种群动态进行了调查研究,四个季节调查采集到蜘蛛个体2,229头,共41种,隶属于2亚
DEA是80年代发展起来的测量医院技术效率的一种系统分析方法,在国外医院评价中已得到广泛应用,它可以客现准确地衡量医院的总体效率,还能够找出低效率运行的原因所在。本文利
骨质疏松症是以骨强度受损,骨折危险性增加为主要表现的骨骼疾病。是体内体外多种因素共同作用的结果,维生素D在其中起着重要的作用。日光中的紫外线能够预防维生素D的缺乏和
中国是世界上最早有艺术史的国家之一,中国艺术史学有着悠久的历史和丰富的文献史料。中国艺术史学的基本特点主要表现为:书法史意识萌动最早,由书法史带动绘画史;在中国艺术
以热电联供(Combined Heat and Power,CHP)为基础的多能源微电网包含多种形式的能源流。各类型能源流耦合运行,以提高能源利用效率。在此基础上,对多能源微电网进行科学的运
随着我国文化艺术的不断繁荣,对艺术文化传承和发展有着较高的要求。琵琶是我国的传统民族乐器,开展琵琶教学活动,有助于琵琶艺术文化的传承。长期以来,我国的琵琶教学中,注重向学
针刺伤是临床护理人员护理操作中常见的一种职业性损伤,其会造成皮肤深层损伤和出血,引起潜在的致病感染,为增加临床护士对针刺伤的危害以及防护状况的了解,本文就临床护士针