分布式Web挖掘与搜索的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yangclio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,庞大的Web资源日益演变为人们获得知识与信息的来源。与此同时,由于Web资源的迅速膨胀以及Web信息的分散性与异构性,用户很难通过易用的方式快速准确地从Web上获取所需的信息。因此,如何快速有效地对Web信息进行分类和索引以提供面向用户的快速检索访问成为一项重要的研究课题。本文研究的内容基于Web数据挖掘以及文本聚类索引的研究,通过具体实现整合的分布式Web挖掘、索引和搜索的SmartFILTER-3系统,重点讨论了当前流行的Web挖掘以及搜索引擎的核心技术,包括:分布式网络节点的体系结构:用于网络环境中服务节点的分布式部署和连接,本文讨论并提出了基于多种接口的“分布式自治域”设计。语言过滤分词、中文字词切分算法:考虑到拉丁语言与中文语言的差异,本文讨论了各自的语言分词算法,特别针对中文语言的特殊性,提出了基于字典的“词元”分词算法。海量索引的存储:面向Web的快速索引与搜索的服务中,海量数据索引快速存储的能力是关键性的,本文讨论并实现了基于BerkeleyDB的快速存储模型。分布式Web信息挖掘:对于Web的信息获取分析,本文讨论并设计实现了基于动态脚本控制的Web信息挖掘系统。基于全文索引的快速查询:依据已经索引的文档信息,全文索引查询提供使用者快速搜索文档中任何信息片段的能力,本文讨论并设计实现了具体的原型系统。
其他文献
随着电子商务的快速发展,网络服务提供商为用户提供不同服务器上运行的各种服务。因此,人们开始广泛使用移动客户端——服务器环境和多服务器环境。另一方面,越来越多的人开始通
随着计算机技术和通信技术的发展,网络拥塞问题和带宽的急剧消耗越发突出。多播通信以其低带宽占用率,高数据传输率得到越来越广泛的应用。与传统的单播相比,多播能够实现单
随着人们认识和管理水平的提高,对客观世界的描述越来越全面,存储的数据量也越来越大。然而,现有数据库系统的开发应用无法适应人们对信息系统的高要求,无法从现有数据资源中
谱聚类算法能对任意形状的样本空间聚类出较好的结果,近年来在数据挖掘、机器学习等领域得到了广泛关注。选择性集成能降低存储需求,提高预测速度,改善集成学习机的预测效果,由此
近年来,随着计算机技术的不断发展,不仅Web教育资源的存储量呈指数级增长,而且其受污染程度也日益加剧。如何从海量的资源中发现用户所需要的Web教育资源成为当前教育界的一
随着民航运输市场竞争越来越激烈,如何合理、有效地制定航班计划就成为航空公司对未来发展进行决策的重要内容。航段运量预测是制定航班计划的重要步骤,其预测结果是制定航班
支持向量机是基于统计学习理论和结构风险最小化的数据挖掘技术,具有非线性、推广能力强以及全局最优等特点,具有诸多优势。但目前依然存在许多问题尚未得到解决。本文对支持向
嵌入式软件的应用与开发是当今计算机软件发展领域的一个热点,保证嵌入式软件的质量是非常重要的。嵌入式软件的可测试性作为一个软件度量指标,是指软件在任意给定输入集合下
在网络技术迅猛发展的时代,网络应用、电子商务的发展使我们越来越多地依赖智能卡、身份证、密码、数字证书等安全措施进行身份识别和安全认证。但各种措施都或多或少地伴随
人工神经网络(Artificial Neutral Networks,缩写为 ANN)作为一种人工智能的研究方法,目前已广泛应用于自然科学的各个领域。白酒勾兑是我国酿酒行业生产中的一项重要传统工