面向主题的WWW信息挖掘及实验系统TWIMS

来源 :中国科学院软件研究所 | 被引量 : 11次 | 上传用户:wang840911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先对World Wide Web的产生、发展及其工作原理作了概述,引出了网络检索问题,分析了当前搜索引擎的工作原理。目前大多数搜索引擎都属于机器人搜索引擎,它们尽可能的收集WWW上的网页,建立索引数据库,回答用户的查询。由于WWW规模的飞速发展,而且WWW没有良好的结构和Web服务器的自治性,这些都对机器人搜索引擎覆盖一切的目标提出了挑战。近年来聚焦于单一主题的WWW检索逐渐受到重视,提出了聚焦爬行(Focused Crawling)的概念。本文在此基础上结合数据挖掘技术提出一种面向主题的WWW信息挖掘框架,不仅能够在有限的软硬件和网络资源条件下,实时高效地完成主题相关的网页的收集,更重要的是能够对检索到的主题相关网页进行链接结构分析和相关主题分析,最大限度的对主题进行挖掘,这是普通搜索引擎所不具备的。全文共分为以下五章:第一章介绍了WWW和WWW上搜索技术发展的现状。第二章分析了普通搜索引擎技术。第三章阐述了面向主题的WWW信息挖掘框架。第四章描述了系统原型TWIMS的设计与实现,对在各个模块开发中所涉及到的关键技术进行了讨论,包括数据结构、核心算法和流程分析、多线程控制的技术实现等等。第五章总结全文并提出了进一步的工作展望。
其他文献
"软件工程"一词也在1968年北大西洋公约组织的学术会议上第一次使用.软件工程是指导计算机软件开发和维护的工程学科.该文中从软件测试入手,详细分析了单先测试,同时介绍了面
地理信息系统(GIS)是一种将空间位置信息与属性数据结合在一起的系统,地理信息系统技术在中国已经广泛应用,并且逐步形成为一门新兴的信息产业.该文基于关系数据库模型和开放
在销售行业中,化妆品业是竞争最激烈的一个行业,化妆品业的主要获利来源就是客户,面对竞争激烈的市场,获得新客户是非常困难,但流失客户却非常容易.故此保留客户是企业要保持
BPR是企业成功运用ERP的一个重要因素,而能够很好地对过程进行描述和分析的工具是BPR正确实施的基础.工作流技术作为一项新兴技术,是BPR中实现企业业务过程建模、优化、管理
中文文本校对是将文本中出现的错字标识出来并进行修改。作为自然语言处理的一项基础工作,中文文本自动校对具有十分重要的意义。经过前人二十多年的研究,中文文本自动校对逐步
随着软件开发技术的飞速发展以及软件项目规模的急剧增大,过去十年对软件开发过程的改进与提高受到明显的重视,其中最显著的标志是CMM(软件能力成熟度模型)在全球软件企业中的
作为一种可频繁通断的开关器件,交流接触器普遍应用于各类电力系统中。传统交流接触器在AC-4条件下,即在额定电压下通断6倍额定电流时,其电寿命远小于其他使用类别。产生该现象的主要原因在于,接触器分断时产生的强烈电弧对触头烧蚀,这也成为影响接触器电气寿命的主要原因。接触器触头的磨损程度与分断时电弧的能量有很大的关系,而接触器分断时的电流相位又直接影响到了电弧的能量大小。因此,本文以CJX8-65为例,
数据仓库技术是信息领域中近年来出现并发展迅速的一种计算机技术,它可以对原始的操作数据进行各种处理,转换成有用信息,充分利用这些信息,分析并做出策略性的决策。数据挖掘技术
该文在实时立体视觉系统的基础上,研究了人体运动检测和跟踪算法以及多目标的检测与跟踪方法.首先,该文基于模板匹配的方法,针对实时性的要求对检测算法进行了优化.该算法的
随着信息化程度不断提高,计算机已广泛应用到各个领域。与此同时,计算机设备数量的激增和部署范围的扩大对设备管理和维护带来了巨大的挑战。远程管理系统使设备管理员能够通过