基于领域的主题信息采集技术的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:RyanDay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,互联网已成为全世界最大的信息载体。人们对网络信息的需求量越来越大,越来越个性化,如何从海量的网络数据源中找到用户关心的数据,已成为当前Web信息检索领域研究的热点问题。2011年1月19日,CNNIC发布了第27次中国互联网络发展状况统计报告,指出互联网上的信息量呈爆炸式的增长,2010年网页数量达到600亿个,年增长率达78.6%。   Web中包含的信息量如此巨大,通用搜索引擎正面临信息采集,存储,及时等方面的巨大挑战。而且,通用搜索引擎是面向所有的用户的,抓取尽可能多的网页来满足所有用户可能的查询请求;这样必然大大降低了网页抓取的效率和准确率。为了提高抓取效率和查询效率,主题爬虫就应运而生。   主题爬虫是限定爬虫在一定主题领域范围内下载网页的爬虫。它在爬行过程中会避开大量的与主题领域无关的信息,显然主题搜索引擎在查询的准确率和网页采集的效率上都有显著的提高。因此,以何种策略来选择网络爬虫的爬取路径,是决定能否采集到与领域相关信息的关键问题。目前,主流的主题爬虫的爬行策略主要分为两种:基于网页链接结构的搜索策略和基于内容评价的搜索策略。前者通过分析网页之间的相互链接关系,来确定网页的重要性,进而决定链接的访问顺序。该方法考虑链接结构和网页之间的链接关系,的确能够避免采集一些与主题无关的网页,但是,忽略了网页内容与主题的相关性,会出现搜索上的主题漂移问题。后者起源与文本检索中对文本相似度的评价,能够准确的评价网页内容与主题是否相关,然而却忽略了链接之间存在的结构信息的特点,因而在预测链接的网页价值方面还存在一些不足。   综合考虑以上两种策略的具体情况,本文结合以上两方面的优点,多粒度来对网页与主题的相关性做出评价。一方面预测分析链接的相关度,另一方面在链接无法确定的情况下,对网页的内容与主题相关性进行分析。在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题网络爬行模型。该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系。在此基础上,给出HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的PageRank算法来分析链接的相关度。只有当链接相关度小于给定的阀值时才会去下载链接对应的页面。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本和链接重要度信息。最后还对那些不确定是否与主题相关的网页进行内容相关度计算,进而最终确定是否应该采集此网页。  
其他文献
近年来,随着信息技术和数据仓库技术的发展,数据挖掘作为一个全新的信息处理技术迅速发展并逐步走向成熟。数据挖掘就是一种从大量的数据中提取新颖的,隐含的,有效的信息的高
近年来,随着互联网技术的不断发展,互联网上所承载的数据流量出现了爆炸式的增长。为了应对新业务、新应用对网络的要求,传统网络变得越来越复杂,越来越难以适应未来的发展。
随着人工智能技术的不断发展与完善,人脸表情识别逐渐成为人工智能和人机交互领域的一个重要研究方向,具有深远的理论意义和应用前景。实现计算机的人脸表情识别将更好地推动
无线Mesh网络(Wireless Mesh Networks, WMN)是一种多跳、具有自组织和自管理能力的宽带无线网络结构,已经广泛应用到企业、校园、医院及旅游等应用领域。随着网络信息论的引
水泥水化过程是一个极为复杂的过程,水泥水化计算机模拟作为水泥材料研究的一个方面,对于研究并预测水泥性能有重大意义和实用价值,是目前科学研究的重点。美国NIST的CEMHYD3
组合分类方法己被证明是非常普遍和有效地、能够改进学习精确度的监督方法。依据同样的原理,聚类融合的目的是融合来自多个划分的结果以得到更高质量和鲁棒性的聚类结果。目
随着移动机器人领域的研究不断深入,其应用领域也不断得到推广。大规模环境下的移动机器人自主完成作业成为当前研究的热门课题,并在行星探索、军事反恐、灾难搜救等领域拥有巨
现今,计算机系统日趋复杂,对其进行有效的管理变得越来越困难。随着人们需要的日益增加,系统中会同时存在更多的应用软件,服务器,存储器等。要想有效的管理这些要素,确保可靠
随着因特网的高速发展,互联网用户不断增加,电子邮件也成为了日常生活中最普遍、最经济的通讯方式之一。由于其快捷、经济的特点,很多大型企业也将其作为内部的主要交流形式
随着科技的发展,互联网已成为人们生活、工作、学习的重要途径,很多网站、应用、服务都是以Web形式提供给用户,但是互联网的安全形势日益严峻,Web安全漏洞中CSRF漏洞较为容易