面向主题的信息检索

来源 :软件 | 被引量 : 0次 | 上传用户:woheni123abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着互联网业务的蓬勃发展,互联网上的信息也随之迅速膨胀。在这纷繁的数据海洋中,如何准确而有效地检索用户想要的有用的信息成为当今研究的热点。为解决通用搜索引擎存在的一些不足,设计了面向主题的信息检索系统。此系统能高效地检索并返回主题信息,帮助用户更精确、更快速地找到有用信息。
  关键词:信息检索;爬行器;主题
  中图分类号:TP393.094 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.046
  0 引言
  随着互联网的发展,网上的信息越来越丰富,互联网成为人们获取相关信息的主要途径之一。但是,随着应用的深入,一些问题也暴露出来,当前的搜索引擎都是通用的搜索引擎,就是说基本上都是面向所有用户的。无法满足用户的个性化需求,面向主题的搜索应运而生,逐渐成为信息检索的研究重点领域。
  主题爬行最早由De.Bra[1]提出的,研究者通过分类的方法来判断网页的相关性。M.Hersovici等人[2]在此方法的基础上进行了扩展,综合计算网页以及锚文本的相关度。同时,对页面中的URLs依据优先权进行排序,然后乘上一个系数以平衡上级页面的相关性。与De.Bra的研究相比,这个方面通过SVM模型实现,向量的分量的取值在0和1之间,同时,在计算相关度是考虑了锚文本和上下文的信息。J.Cho[3]等人在爬行策略宽度优先算法上进行了优化,虽然改进不大,但是这个研究在度量URLs的分值时引入了PageRank[4]方法。
  1 实验系统的结构
  实验系统主要功能是提供网页信息的采集、解析、检索功能。该系统对解析后的文本信息进行处理,建立文本信息的主题概念索引用于检索,实验系统的总体功能框架是建立在主题网络爬虫从网络上采集并进行初步分类的网页数据库基础上。
  2 验结果与分析
  本研究采用检索结果与百度的搜索结果来进行比较。把查询输入到百度中来检索,把百度的检索结果的前50个链接下载下来,以此作为系统的数据集。然后把本系统的检索结果与百度的前10个结果或前20个结果进行比较。由于这里是进行实验分析,在结果显示中url用网页的DocId表示。
  从图1的检索结果看,检索花费了16毫秒。在百度的检索结果中,排在第4和第6的结果与主题关联性不好。由于本研究引入了主题信息,因此在检索结果中与主题高度相关的链接都排在了前面。
  通过对实验结果的分析表明通过引入主题信息的爬行器与通用爬行器相比,相关网页的数量有了显著的提高,从而提高的检索的效果。
  3 结束语
  本章介绍了面向主题的信息检索系统的检索部分的设计和实现。在实验中以通用搜索引擎作为对比。通过实验结果可以看出,面向主题的检索系统能够得到更相关的检索结果。
  参考文献
  [1] P. D. Bra, G. Houben, Y. Kornatzky, et al. Information Retrieval in Distributed Hypertexts. In Procs. of the 4th RIAO Conference. New York, 1994:481-491
  [2] M. Hersovici, M. Jacovi, Y. S.Maarek, et al. The Shark-search Algorithm. an Application: Tailored Web Site Mapping. Proceedings of the 7th International World-wide Web Conference. 1998:317-326
  [3] J. Cho. Efficient Crawling Through URL Ordering. Computer Networks and ISDN Systems. 1998, 30(1-7):161-172
  [4] L. Page, S.Brin, R. Motwani, et al. The Pagerank Citation Ranking:bringing Order to the Web. Stanford digital library technologies project, 1998
其他文献
自从进入媒体融合时代以后,新闻信息无论是在传播速度还是渠道上都发生了巨大变化,再加上网络的发展将不同国家之间的关系变得愈发紧密。基于媒体融合时代,如何能够更好地做好新
当决定迁移一个应用从现场到云,有几个方面应用架构需要考虑的:应用管理、应用安全、应用兼容性和数据库兼容性。在把普通应用迁移到WindowsAzure上最需要关注的就是这四个方面
旅游景区公示语翻译是展示地区旅游国际化及城市形象的重要元素,本文主要分析了目前海南旅游景区公示语英译中存在的问题。解决公示语翻译中的乱译、误译问题,需要有效实施《
文书档案整理工作中,涉及了很多的工作内容,文件资料在收集过程中,文件资料的完整收集,就是一项细致性的工作,只有收集到齐全的资料,才可以保证档案的使用价值,分类归档工作,更需要工
通过引入单位要素成本指标,本文对佩特兰和勒文叟汉(Petrinand Levinsohn)的生产率分解模型进行了拓展,得到了一个更为准确的资源重置效应。利用200-2007年中国规模以上制造业企
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
桑德罗·波提切利是15世纪意大利佛罗伦萨画派的最后一位大师,“线性”是波提切利艺术作品中重要的创作要素,尤其在修长人体形态的塑造方面,这种独特的“线性”方式开创了文
社会工作与民政工作关系密切,社会工作介入社会救助与政府购买社会救助服务具有相通性。社会工作介入社会救助目标定位在提高定位准确率与政策执行公信力方面有优势,但由于基
一、生物有机肥概述生物有机肥对提高作物产量,减少化肥施用量,降低成本,增加土壤肥力和改善农产品品质等方面有明显的效果,尤其是有效改良土壤结构,改善由于使用化肥而引起
摘 要:随着科技的发展和社会的不断进步,我国计算机技术不断崛起,给人们的生活和生产带来了很多方便。伴随着经济和科技的迅速发展,社会已经逐渐向科技发展迈进,而计算机技术已经广泛应用到经济、军事和政治等领域,尤其是计算机软件技术的开发和利用。本文主要针对计算机软件开发的难点进行分析,研究当今计算机发展出现的现状和存在的不足,并针对存在的问题提出合理的措施。  关键词:计算机软件;开发设计;研究探讨;对