论文部分内容阅读
互联网技术已广泛应用于民航、铁路以及道路旅客运输联网售票领域,尤其是互联网汽车票联网售票迎来飞速发展阶段。汽车票联网售票系统建设的前提是在互联网上获取该类主题数据。传统搜索引擎网络爬虫只能获取表层网页资源,无法访问存储在Web数据库中的Deep Web网络资源。针对上述问题,本文在深入分析汽车票务网Deep Web结构与特征的基础上设计了汽车票务Deep Web数据采集系统,研究并实现了数据抽采集统中的关键技术。提出了汽车票务网查询页面识别算法寻找汽车票查询页面;在此基础上对识别出的网页进行分类处理,获取纯净的含有汽车票务网查询接口的页面;详细介绍了数据采集原型系统的框架、系统工作流程以及核心功能模块。此外,本文对关键技术的研究做了大量实验论证。论文主要研究工作如下:(1)提出了汽车票务网查询页面识别算法。随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致在度量网页结构相似性时需要匹配Html标签名称信息的现有网页结构相似性算法无法准确度量该类主题网页。提出一种网页标签树邻接矩阵主题网页识别算法,通过构造网页标签树邻接矩阵,利用邻接矩阵的结构特征计算网页之间的结构相似度实现识别同类主题。实验结果表明,该算法最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。(2)采用决策树分类模型对汽车票务网查询页面识别算法获得的数据进行分类,并改进了算法中最佳决策属性的选择。由于识别算法获取的数据集合中可能含有其它主题接口,错误的查询接口不仅会影响数据采集系统的性能,还会造成大量存储资源和网络带宽资源的浪费。因此,需要对查询页面识别算法得到的数据集合进行分类处理。实际应用中训练数据的分布不能完全代表测试数据的分布,导致无法得到有效的分类模型。本文结合信息增益与本征向量法确定最佳决策属性的权重。实验结果表明,在保证相同精确度的前提下,随着测试数据数量的增加改进后的算法效率得到了明显的提升。(3)汽车票务Deep Web数据采集原型系统设计。详细阐述了原型系统的框架结构和系统工作流程,具体介绍了主题爬虫模块、查询接口分类模块、Deep Web数据抓取模块、Deep Web数据采集模块等核心功能模块。