汽车票务Deep Web数据采集关键技术研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:luckcarrier
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术已广泛应用于民航、铁路以及道路旅客运输联网售票领域,尤其是互联网汽车票联网售票迎来飞速发展阶段。汽车票联网售票系统建设的前提是在互联网上获取该类主题数据。传统搜索引擎网络爬虫只能获取表层网页资源,无法访问存储在Web数据库中的Deep Web网络资源。针对上述问题,本文在深入分析汽车票务网Deep Web结构与特征的基础上设计了汽车票务Deep Web数据采集系统,研究并实现了数据抽采集统中的关键技术。提出了汽车票务网查询页面识别算法寻找汽车票查询页面;在此基础上对识别出的网页进行分类处理,获取纯净的含有汽车票务网查询接口的页面;详细介绍了数据采集原型系统的框架、系统工作流程以及核心功能模块。此外,本文对关键技术的研究做了大量实验论证。论文主要研究工作如下:(1)提出了汽车票务网查询页面识别算法。随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致在度量网页结构相似性时需要匹配Html标签名称信息的现有网页结构相似性算法无法准确度量该类主题网页。提出一种网页标签树邻接矩阵主题网页识别算法,通过构造网页标签树邻接矩阵,利用邻接矩阵的结构特征计算网页之间的结构相似度实现识别同类主题。实验结果表明,该算法最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。(2)采用决策树分类模型对汽车票务网查询页面识别算法获得的数据进行分类,并改进了算法中最佳决策属性的选择。由于识别算法获取的数据集合中可能含有其它主题接口,错误的查询接口不仅会影响数据采集系统的性能,还会造成大量存储资源和网络带宽资源的浪费。因此,需要对查询页面识别算法得到的数据集合进行分类处理。实际应用中训练数据的分布不能完全代表测试数据的分布,导致无法得到有效的分类模型。本文结合信息增益与本征向量法确定最佳决策属性的权重。实验结果表明,在保证相同精确度的前提下,随着测试数据数量的增加改进后的算法效率得到了明显的提升。(3)汽车票务Deep Web数据采集原型系统设计。详细阐述了原型系统的框架结构和系统工作流程,具体介绍了主题爬虫模块、查询接口分类模块、Deep Web数据抓取模块、Deep Web数据采集模块等核心功能模块。
其他文献
测试数据生成是动态软件测试中的关键环节,它对于提高软件测试的能力有着至关重要的作用。测试数据生成问题吸引了许多学者对其进行研究,人们提出了多种测试数据生成方法(如随机
介词短语形式多样,位置灵活,是汉语中十分重要的短语类型之一。介词短语识别问题一直都是自然语言处理的研究热点,准确识别介词短语可以简化其所在句子的内部结构,缩小中心词
跨入21世纪以来,随着信息技术、计算机技术、网络技术等高科技的不断发展,企业的信息化的步伐也逐渐加快,从通常的手工操作到办公自动化套件的广泛应用,再到各式各样企业管理
随着网络时代的发展,人们对信息资源掌握的增多,导致需要存储的数据量以几何级数在增长,网络带宽的不足、存储资源的紧缺以及等等诸多问题随之而来。解决这些问题的有效手段
随着计算机网络及相关技术的发展与普及,网络购物、网上支付、手机支付等等网络经济操作渐渐走近了大众的生活,网络安全问题已经直接影响到社会经济生活。在网络安全领域,网
随着计算机与信息技术的发展以及相关应用领域的需求,人脸检测与跟踪及其相关技术吸引了众多的研究者,国内外关于人脸检测和人脸跟踪的方法多种多样,并且不断有新的研究成果
计算机与互联网技术的快速发展,带来了一场计算机软件领域的技术革命。从PC时代的单机软件,到互联网时代的分布式软件,再到如今云计算时代倡导的软件服务,计算机软件的应用得到了
目前对等网络面临的重要问题就是如何高效的定位网络中的资源,基于DHT的结构化路由算法的提出使这一问题得到了相对优化的解决方案。本文针对典型结构化P2P路由协议Chord展开
当在数据库设计过程当中引进了一项新技术,必须在不同操作系统环境下测试新数据库系统的性能。通常,数据库测试会选择一套复杂的数据集和SQL查询集,并分别在引进新技术前后的数
随着社会的不断发展和工作压力的不断增加,旅游成为了人们释放压力和享受生活的一种方式。人们的文化程度越来越高,在观光旅游时不仅寻求美丽的自然景观,还期待着丰富的文化