基于Agent的专题搜索引擎爬虫的研究

来源 :江苏大学 | 被引量 : 4次 | 上传用户:viery
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW技术的广泛应用,传统的通用搜索引擎正面临巨大的挑战,存在着查全率不高、检索的精度不高、更新不及时、不能很好地表达用户需求,呈现给用户的搜索结果中包含大量与用户无关的信息,同时,对于越来越多的不同领域的客户群,他们急需的是能够提供高效检索其业内信息的专题搜索引擎。专题搜索引擎(Topic-specific Search Engine),通过定点采集、定题采集、网站结构挖据等的方法来提高检索的查全率和查准率,保证其较高的时效性、专业性并提供更好的个性化服务,从而可高效地发掘特定领域的信息,提供有特色的检索服务。因此网络爬虫的设计是专题搜索引擎的核心,本文阐述了基于agent的专题搜索引擎的爬虫的设计及相关关键技术,本文的主要工作有:1.在分析搜索引擎技术、agent自适应技术和机器学习研究现状基础上提出了一种基于agent专题搜索的爬虫框架CFATSS(Crawler Frame of Agent-basedTopic-Specific Search)。2.提出了一种基于词表和统计相结合的分词算法,利用改进的Salton的向量空间模型VSM(Vector Space Model),将web结构挖掘和内容挖掘结合起来,设计了一种基于支持向量机特定主题的自动分类算法。3.提出了一种基于Q学习的搜索策略算法,该算法结合网页评价技术及链接结构技术,并利用agent自适应性,通过减少一定程度上的搜索贪婪性从而比较有效地避免了传统的启发式搜索引擎的容易过早陷入Web空间中某些局部最优子空间的陷阱。4.使用面向对象的语言Java实现了CFATSS,并根据北京大学(简体版)语料对中文分词模块进行测试,并分别对网页分类模块和基于Q学习的搜索策略算法性能进行验证,实验结果表明CFATSS在分词的歧义切分、网页分类的正确率以及系统的查全率和查准率都有一定的提高。
其他文献
人脸表情在人们的交流中起着非常重要的作用,是人们进行非语言交流的一种重要方式。随着信息技术的高速发展和人类对计算机依赖性的不断增强,作为增进人类之间交流能力的人脸
随着数字网络的发展,对等( Peer-to-Peer简称为P2P)网技术在越来越多的系统中得到应用。然而,已有的应用和平台大都属于独立开发,系统各自执行着自己的标准,导致用户被分隔在
21世纪,计算机已经进入到我们生活的各个领域。随着网络和移动技术的发展,桌面计算模式已经不适应这种发展带来的变化。计算技术的进步引起计算模式的变革,从而带来了一种新
本文对语义Web的自动服务组合的关键技术,包括语义Web标记语言、描述模型OWL-S、自动服务组合的模型和方法进行了研究,工作内容主要包括以下几个方面: 首先,通过阅读文献和研
近年来,随着网络、无线移动通讯技术的飞速发展,PDA、手机等移动设备逐步深入到人们生活的方方面面,而基于这些移动设备的开发技术也一直是技术讨论的热点。   对于这些硬
医学影像传输标准DICOM(Digital Imaging and Communications in Medical)为数字医学图像在通信网络上的显示、传输和存储,提供了标准的格式。DICOM标准简化了医学影像信息间
随着嵌入式系统硬件和软件的不断发展,嵌入式系统之间的协同工作越来越多,各种嵌入式系统的异构性,使得多个系统之间的协同工作变得很困难。为了解决嵌入式系统和实时系统的异构
科学技术的飞速发展,为信息的传播和使用提供了极大的方便,同时,也使人类面临着信息安全问题的巨大挑战。随着计算机处理速度的提高,传统密码学的安全性问题同益显著,具有伪装特性
随着计算机网络规模的不断扩大,网络中接入的路由器、交换机等网络设备也日益增多,网络故障便不可避免得出现,给人们的生活和工作带来诸多不便。在某些军工武器系统等特殊环
电力企业是资产高度密集型的企业,资产管理是其日常管理中最重要的部分。在电力企业走向市场的大背景下,采用先进的管理思想和现代化计算机技术手段,降低生产成本、提高企业竞争