主题搜索与Web挖掘的研究及系统实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:rogerfederersxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展,海量的Web数据资源已经成为人们获取信息的重要来源。Web信息的日益增长使得人们很难快速准确的找到自己所需的信息,搜索引擎随之成为人们最普遍使用的信息检索的工具。但是,目前大多数的搜索引擎提供的服务还不能令用户满意。由于Web资源具有半结构性、离散性、实时性和异构性等特点,如何对Web资源进行挖掘分析,获取真正有价值的信息,并向用户提供便利的可定制的信息服务,已经成为一项重要的研究课题。本论文的研究内容是主题搜索与Web挖掘。在设计实现主题搜索系统BlueSpider的基础上,重点讨论了主题搜索以及Web挖掘的核心技术。本文的主要工作研究如下:主题网络爬虫:分析了现有的主题爬虫搜索算法,改进了以往的搜索策略,提出了一种基于非贪婪策略的搜索算法。网页内容提取:采用遍历HTML文档树获取相应网页内容的方法,从而能够快速、灵活、有效的获取网页中的信息。Web文档分析:根据Web文档所特有的半结构化及编码不统一等特点,提出了相应的分析方法,包括编码转换、分词、建立特征向量等,并根据Web文档的特点改进了特征权重的计算方法。另外,针对主题搜索所需的网页及URL主题相关度判定,给出了相应的方法,并提出了一种新的Web文档聚类算法以便对Web文档进行挖掘分析。在以上研究成果的基础上,本文描述了BlueSpider系统的设计实现细节。
其他文献
在计算机技术飞速发展的今天,信息已成为社会稳定和发展的重要战略资源,尤其在军队、企业和政府机构内部信息系统中,存有的敏感信息越来越多,信息安全显得至关重要。而移动介
回转窑是水泥制造工业中重要的生产设备,为了确保生产质量,对回转窑运行过程进行控制十分重要,其中窑内温度是非常关键的被控变量。出于其控制过程具有非线性、不稳定、时滞
本文在分析遗传算法(GA)在结构优化与参数优化方面的基础之上,提出基于遗传编程(GP)的结构参数混合优化方法,利用遗传编程的树形结构编码方式,分析了结构和参数协同优化对结
无线传感器网络(WSN)是随着微机电系统、传感器技术、无线通信和计算机网络技术的飞速发展而产生的,并以其低功耗、低成本、分布式和自组织的特点带来了信息感知界的一场变革
步态识别主要是通过人们走路的方式鉴别人的身份。步态识别具有远距离识别、非侵犯性和难以隐藏等优点,因而备受计算机视觉研究者的关注。首先,本文使用改进单高斯模型法重建
手势是一种自然而直观的交流手段,随着人机交互逐渐向以人为中心转移,基于视觉的手势识别研究也逐渐成为人们研究的热点。本文以智能教室的研究为背景,设计并实现了基于手势
天地通信监控中心是载人航天工程测控通信系统的重要组成部分,是在轨飞船及空间实验室中航天员与地面指挥系统间进行话音和图像通信的枢纽,负责整个通信过程中天地话音和图像的
本文研究了基于模糊逻辑的核电站检修机器人运动控制的方法。首先,简单介绍了核电站检修机器人的应用背景、现实意义,分析了核电站检修机器人的运动学问题,包括履带式移动平
20世纪90年代以来,生命科学研究取得了突破性的进展,随着人类基因组计划的开展与现代生物技术的发展,人类积累的大量生物信息数据为揭开生命奥秘提供了数据基础。序列分析成
语音识别是一种让计算机能听懂人说话,将人说的话转换成相应文字内容的技术,它提供了更加方便的人机交互方式,可以大大提高人们的效率,有着巨大的理论意义和实用价值。  随着近