基于分布式架构的半结构化Web论坛信息抽取系统的研究

来源 :太原理工大学 | 被引量 : 2次 | 上传用户:bjbdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的大规模应用与互联网技术的高速发展,计算机已将我们带入了信息化时代。人们对信息获取并对信息进行处理的需求正走向多元化、综合化。分布在互联网中的Web网页数据中,存在着大量的半结构化数据。随着对半结构化数据研究与应用的深入,从半结构化数据中自动抽取出有价值信息的需求正在日益增加。Web论坛现已成为网络上重要的数据源,它为人们提供了大量的有价值的知识和信息。由于大量的网友在Web论坛上交流看法、讨论问题,日积月累使得Web论坛中保存了海量的信息资源。Web论坛风格多样性、内容复杂性、结构多变性等特点,使得从半结构化Web论坛中有效地获取到有价值的信息成为当前信息抽取技术中一个重要的研究方向。通常信息抽取算法所抽取的Web论坛数据集非常庞大,单机难以完成抽取任务,而分布式网络中又有着充足的计算机资源,却不能被利用。所以如何有效地将网络中空闲的机器组织起来,使其相互协作共同完成大规模数据集的抽取任务,是现今半结构化信息抽取技术亟待解决的技术难题。本文针对Web半结构化论坛数据的结构特点造成的现有单机论坛信息抽取算法自动化程度低,通用性差,无法对大规模数据集进行抽取等缺点,经过对数据挖掘中的频繁子树挖掘算法与分布式系统结构的详细分析,提出了二者相结合的方法解决现有单机论坛信息抽取方法中的不足。本文设计并实现了以频繁子树挖掘技术为基础,以主从分布式结构为系统架构的半结构化Web论坛信息抽取系统。根据系统的需求分析,本系统的体系结构采用分层结构,分别是表示层、控制层和数据处理层。其中表示层负责显示抽取结果,控制层负责抽取任务的分发,数据处理层负责信息的抽取。同时本文深入探讨了系统中各功能模块的基本原理,包括采用ACE中间件技术的分布式节点通信模块,采用一致性哈希算法的任务分发模块,采用频繁子树挖掘算法对待抽取信息定位的频繁模式提取模块,采用最大公共子树匹配算法抽取数据的信息抽取模块。系统目前正处于试运行阶段,本文选取了当前中文网站中最具有代表性的10个论坛总共660篇内容帖子页作为实验数据源,同时对系统的抽取性能进行了比较与分析,实验结果表明该系统运行情况稳定、安全实用、操作简单,改善了单机Web论坛信息抽取系统的不足,具有良好的开发和应用前景。
其他文献
随着时代的发展以及人民生活水平的提升,传统的生活方式已经很难满足人们对高品质生活的追求。进入21世纪以来,特别是近年现代高科技和信息技术走向智能住宅小区和家庭,人们
无线Ad hoc网络是一种无固定设施的无线网络,是无线通信领域的研究热点之一。无线Ad hoc网络具有信道分配复杂、网络移动强及网络容量动态变化等特征,这就对网络QoS提出了很
多媒体和网络技术的发展使得视频资源变得越来越丰富,伴随而来的问题则是视频数据量的快速增长。因此如何对这些海量视频数据进行有效的处理,从而提高浏览和检索效率就成为了
随着模型驱动开发技术在软件开发过程中越来越受到重视,基于扩展有限状态机模型的测试技术近年来也得到了深入的研究。以生成测试数据为目地的测试技术研究开始受到关注,形成了
面向城市道路网络的时空数据的管理近年来已经成为时空数据库研究领域的一个重要研究方向,这主要得益于该问题的研究与人们的日常生活联系紧密,因此应用广泛。在城市的交通管
在现实生活中,运动目标的检测与跟踪在智能人机交互、医疗诊断、智能机器人、视频监控和军事等领域得到了广泛的应用。但该技术在实际应用中仍存在许多难点问题:应用场景的复
人脸识别技术作为一种新兴学科日益得到重视研究,因此作为人脸识别技术中的定位环节--人脸检测也越来越受到人们的重视。今天,人脸检测不仅仅用于解决计算机视觉问题,而且还应用
近年来,随着计算机网络技术的不断完善和多媒体信息处理技术的迅速发展,我们能够及时方便的对数字多媒体信息进行任意创作、存储、编辑和传播。然而,与此同时也带来了一系列问题
描述逻辑是语义Web的逻辑基础,它为本体的知识表达、逻辑推理等提供必要的理论依据。随着Web中本体数量与规模的增加,如何对这些本体进行更新和维护成为一个亟待解决的问题。
故障树分析(Fault Tree Analysis, FTA)方法[2]是当今安全系统工程的主要分析方法之一,广泛应用于航天运载、武器装备、工业生产、交通控制、医疗器械等领域。在现有的FTA方