【摘 要】
:
企业竞争情报系统日益成为现代企业必不可少的工具,Internet成了企业获取情报信息的重要途径,但是Web信息分散地遍布于世界的每个角落,如何从Web资源中获得特定主题的信息,并及时
论文部分内容阅读
企业竞争情报系统日益成为现代企业必不可少的工具,Internet成了企业获取情报信息的重要途径,但是Web信息分散地遍布于世界的每个角落,如何从Web资源中获得特定主题的信息,并及时地向企业提供有价值的情报,已经成信息搜集领域一个新的问题。近年来,面向主题的网络蜘蛛应运而生,已经成为解决主题搜索的重要工具。本文在对国内外主题网络蜘蛛关键技术研究的基础上,在网页解析、文本特征向量提取、主题相关度计算和网络搜索算法方面做了相关工作。本文将网页解析为对应的文档树,并通过遍历树的方式获取网页文本和超链接。获取文本后对文本进行中文分词,根据Web文档的特点,改进了特征词权重的计算方法TF-IDF算法,提出了一种基于词频和标签的特征权重计算算法(FAT算法)。在文本特征向量的基础上,结合锚文本以及所超链接所处的网页环境,提出了一种链接主题相关度计算算法(LTC算法),保证了主题网络蜘蛛更多地下载与主题相关的页面。在网络搜索算法方面,引入非贪婪选择策略和遗传搜索策略,提出了一种非贪婪遗传搜索算法(NGGS算法),扩大了搜索空间,避免了搜索的局部最优问题。在以上研究内容的基础上,设计实现了一个主题网络蜘蛛系统(BlueSpider系统),通过大量的图片、设计类图、流程图及表格深入地描述了BlueSpider系统的设计实现细节。
其他文献
在当前互联网和电子信息技术迅猛发展的时代里,以嵌入式技术、人工智能技术和通信技术为依托的最具有代表性热门技术也在迅速发展。随着中国政府提出“互联网+”创新驱动模式
本文首先阐述了IPv4网络向IPv6网络过渡是一个必然趋势,同时过渡也将是一个长期的过程。解决IPv4与IPv6网络在相当长共存期间内互联互通问题的技术策略主要有双协议栈技术、隧
无线传感器网络(Wireless Sensor Network,WSN)涉及计算机技术、微机电系统技术、无线通信技术、自动控制技术和人工智能等多种学科,是一个高度交叉且较为前沿的研究热点,其
Web服务是一种基于网络的、分布式的、独立于平台的模块化组件,随着Web服务技术的发展,越来越多的Web服务提供者通过网络将简单灵活的Web服务进行共享。在现实应用中,为了满
随着图形处理器(Graphics Processing Unit,GPU)技术的发展,GPU强大的浮点运算能力和并行处理能力使得它在非图形领域得到了广泛的应用。基于GPU的通用计算(General Purpose GPU,GP
近年来,众商业网站相继使用验证码技术。验证码技术作为提高网站安全的一个重要手段,可以成功解决如垃圾邮件的攻击、批量注册分发被盗资源、在线投票系统上的虚假投票,暴力
目标检测是从获取的图像中提取感兴趣的区域,作为图像处理的一个基础而重要的问题深受国内外学者的重视,在视觉导航、目标侦查、空间遥感等方面具有广泛应用。由于目标本身外
聚类分析是数据挖掘的一个重要分支,模糊理论的引入给聚类分析注入了新的活力。目前,模糊聚类已广泛应用于统计学、市场学、生物学等领域。现有聚类算法大多不适用于强噪声数据
随着计算机技术与互联网技术的快速发展,软件系统已经应用到人们生活的各行各业,越来越多的软件系统部署在Internet平台上,使得软件系统的信息交换与共享速度越来越快,同时,
随着自然语言处理技术的发展和大规模语料库的出现,语言模型的大规模训练成为现实。本文所研究N元文法模型是信息检索、机器翻译、语言识别等很多自然语言处理的重要工具。使