Web信息获取技术研究

被引量 : 0次 | 上传用户:haifeng_liu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起和信息时代的到来,Web信息获取技术成为当今世界上一大研究的热点。如何最准确的获得人们感兴趣的信息,成为Web信息获取技术研究的重中之重。然而由于互联网内部的多样性以及文档结构的复杂性,Web信息获取技术的研究具有一定的困难,很难涵盖所有范围,专业搜索引擎成为解决这一问题的主要方法。本文选取当今世界上公认最好的计算机专业科学文献搜索引擎Citeseer进行研究,试图提出一种方案,使科学工作者根据自己的兴趣能更加方便、准确的通过Citeseer网站获取计算机类文献。 本文的工作包括: 1.针对Citeseer网站的文献搜集和分析 在对互联网上的信息进行处理时,常常要将分布在互联网各处的Web页面下载到本地供进一步处理,因此本文设计网络爬虫,根据Citeseer网站中文献页面对应的链接具有的特定形式,将文献页面的Html源代码下载到本地数据库中;再根据文献页面显示样式所具有的特定规律进行分析,根据需要从中提取各类信息,分类存储到数据库各个表中,以供进一步研究使用。 2.基于内容和拓扑结构的文献质量评价 本文在Citeseer搜索的结果文献集的基础上,分别根据内容和拓扑结构对这些文献进行重新评价,根据评价结果对文献集进行重新排序,以找到感兴趣的文献。本文中基于内容的文献质量评价根据事先提供的好文献构造“语境图”找到各类样本,分类算法采用朴素贝叶斯理论;基于拓扑结构的文献质量评价采用PageRank算法进行。实验结果表明,这两种评价方法分别从主观和客观角度体现了文献的质量。 3.提出基于内容和拓扑结构相结合的知识决策系统框架 由于基于内容和拓扑结构的方法分别从主观和客观的角度评价文献质量,本文将这两种方法相结合提出一种应用于Citeseer文献搜索引擎的知识决策系统框架。具体表现为根据Citeseer搜索的结果文献集先用基于内容的方法提取出相关文献,再根据PageRank算法对这些文献从客观上进行排序。本文选取比较熟悉的两个领域进行实验,结果表明这种方法具有一定的效果。
其他文献
<正>颈心综合症是由于颈椎病引起的心脏症状,是颈椎退行性变直接压迫或间接反射性刺激颈椎旁的交感神经,使其受累而表现出类似冠心病心绞痛的一组症状。目前,颈心综合症已经
进入视觉传播时代,注意力成为重要的经济资源。学术界也将吸引受众眼球的视觉中心作为研究的热点,从艺术、符号学、文化等角度进行了大量研究。文化与广告是一个涉及广泛的研究
<正>教育定义很多,且是"仁者见仁,智者见智"。人们定义教育是为了能够完整地、准确地认识和把握教育的本质,更好地实现教育的价值。近年来,我们从未来社会需要、教育发展需求
一、选题的目的与意义纵观我国二十多年金融发展的历程,经济体制改革与金融结构调整密不可分,要建立与社会主义市场经济相适应的完善的经济体制就不能忽视对金融结构的调整。
目的总结3种麻醉在人工流产中的镇痛效果。方法A组应用异丙酚静脉麻醉;B组应用2%利多卡因分别于宫颈3点和9点注射各2mL,再用棉签蘸1mL插入宫颈管2cm,放置2min;C组甩棉签蘸1%丁卡因1
目的:分析我院原发性肝癌流行病学及病因的情况。方法:2000年9月~2008年5月住院的480例患者进行调查分析。结果:本组480例患者中,男427例(88.95%),女53例(11.04%);年龄16~84岁,
本文对唐代咏侠诗的内容主题、艺术表现、审美风格、渊源流变及其归向问题进行了讨论。在唐人意识里,侠概念的内涵外延比以往任何时候更为宽泛,咏侠诗题材之宏富,义蕴之深邃均远
目的:探讨左炔诺孕酮宫内缓释系统(LNG-IUS)治疗子宫内膜单纯性及复杂性增生的疗效。方法:选择2005年7月~2008年6月我院宫腔镜下诊刮病理报告为单纯性子宫内膜增生及复杂性子
本文共分为十章,按照其内在联系可以分为三大部分:即信用保险基础理论研究;信用保险合同具体研究;信用保险法律制度构建。 第一部分由第一章“信用保险的定义与本质属性”、第
本实验以1年生‘贝达’扦插苗为砧木,4年生‘红地球’新梢为接穗,进行嫁接实验,研究了嫁接体的愈合过程和同化物的积累与运输,结果表明: 葡萄嫁接愈合过程经过了隔离层的出现、