【摘 要】
:
Web信息的急剧增长,给信息的有效使用提出了巨大挑战,如何快速、准确地从Web中获取所需信息己经成为亟待解决的问题。为了更加充分有效地利用Web这个巨大的信息源,本论文展开
论文部分内容阅读
Web信息的急剧增长,给信息的有效使用提出了巨大挑战,如何快速、准确地从Web中获取所需信息己经成为亟待解决的问题。为了更加充分有效地利用Web这个巨大的信息源,本论文展开了Web信息采集和信息抽取技术的研究。本论文首先介绍了Web信息采集的基本原理。在此基础上,针对Web信息采集系统中的关键技术作了详细分析,包括页面的抓取、URL的提取和正规化处理、原始网页的存储以及如何避免网页的重复访问。接着从分布式系统设计的要点出发,对分布式Web信息采集的并行性、负载平衡、体系结构和可扩展性这四个方面作了详细分析,并设计和实现了一个基于局域网的分布式Web信息采集系统。最后采用了两个实验对该系统的性能进行论证。实验结果表明该分布式Web信息采集系统能够实现负载均衡,并具有良好的可扩展性。其次本论文在Web信息采集技术的研究基础上,展开Web信息抽取技术的研究。考虑到实际的应用需求,设计和实现了一个基于XPath的Web信息抽取系统,该系统采用XPath表达式来定位数据项,并将各表达式组织成树模型作为总的信息抽取规则,同时为了增加系统的通用性,在实现时将抽取规则和抽取系统进行解藕。经验证,该系统所抽取的数据具有很高的精确度,适合用于中小规模的信息抽取。另外,本论文对结构化信息抽取过程中所遇到的电话号码识别(数字识别)问题做了分析,并采用Matlab和C++混合编程的方式加以解决。实际的应用表明,本论文所研究的内容有助于更加充分有效地利用Web上的信息资源,能够满足中小企业对Web信息采集和抽取的需求,具有实际的应用价值。
其他文献
有关海上货运代理的法律调整,我国《民法通则》仅规定了直接代理,而商事立法并无大陆法中的"运送承揽人"概念;但海事司法理论与实践,又多采英美法中的"货运代理人"概念。立法
北魏前期实行五等爵制度。在五等爵中,王爵为最高等级的爵位。当时国家封授诸王,实行虚封制,即受封诸王并不领有食邑。可是,北魏国家对一些诸王的虚封地,仍可能实行改封。这
介绍了白炭黑的表面改性方法、常用改性剂及其改性机理以及改性白炭黑的应用 ,对几种常见的表面改性方法进行了比较 ,指出了我国白炭黑表面改性产品的差距和发展对策 .
随着中国改革开放步伐的层层推进,中国经济日益增长。从90年代初期开始,婚纱摄影在人们的思想观念中逐渐兴起,婚纱摄影行业就此应运而生。前后二十年间,各地大小影楼层出不穷
综述了爬行动物血细胞──红细胞、有粒白细胞(包括嗜酸性粒细胞、嗜碱性粒细胞、嗜天青粒细胞和中性粒细胞)、淋巴细胞、单核细胞、浆细胞和血栓细胞的组织化学特性、血细胞数
随着工业现代化发展与汽车交通对城市交通环境的影响,智能交通系统(ITS)逐渐成为城市现代化建设的国内外研究重要领域。基于图像处理的车辆识别系统,包括车型识别、车牌识别
自1990年代以来,中国的网络媒体得到了飞速发展,不仅传统意义上的报纸杂志开始办自己的网络版,而且许多新型网络新闻网站和各种商业行业网站也开通资讯频道。由此,网络新闻逐
党的十一届三中全会以来,我国理论界对马克思主义关于人的全面发展学说进行了 深入系统的研究,内容涉及到马克思主义人的全面发展学说的界定、内涵、本质,以及马克思主义 人的全
目的:了解重庆市荣昌县农村妇女产时及产后保健现状,分析农村妇女产时及产后保健服务利用的影响因素,比较干预组和对照组之间孕产期保健服务利用的差异,评价干预措施的效果并
专科护士是为适应社会民众对健康服务的需求而发展起来的一种特殊护理人才,在我国经济快速发展、人民生活水平不断提高的今天,发展专科化护理和专科护理人才培养两个相关联的