论文部分内容阅读
随着我们国家国民经济一直快速的向前进步,老百姓对于汽车产品的需求量也大大增加起来,购车群体的数量每年都在持续不断的增多。在各个汽车交易网站中,每款车型下面都有大量的车友对于该款车型的使用评价,这些评价信息包含了该款车型各方面使用体验,比如外观、加速、噪音和油耗等。这些有关车辆的评价信息对购车人群做出购车决策有极大的帮助。但是,目前人们获取车辆评价信息的方式仍然是逐个浏览汽车交易网站,缺乏有效的方案来提取、整合某一款车型在所有汽车交易网站的车友评价信息。例如奥迪Q7汽车,在汽车之家、毛豆新车、人人车等汽车交易网站均有车友对该车的使用评价。不过这些车辆的车友评价信息并不集中存储。针对这一现状,我们设计并实现了面向汽车产品缺陷信息的的数据采集与检索系统,采用传统技术的基础上,进行采集技术和搜索引擎技术的创新,完成高质量的汽车产品缺陷信息采集和检索任务,提取有效的车辆评价信息,帮助购车人群进行购车决策。在研究和开发系统的过程中我们看到,爬虫作为数据采集领域的传统技术,在数据存储、数据挖掘、数据分析等多个领域都取得了非常好的效果,在软件系统开发中受到广泛应用。因此,我们选择利用传统的网络爬虫技术来完成车辆评价信息采集任务,并且利用主机连接VPN代理服务器来隐藏本地IP地址,克服本地IP地址被封的难题。而且,考虑到Lucene在全文检索处理中的强大功能,在信息检索环节采用Java语言编程,开发基于Lucene工具库的信息检索模块,进一步加快车辆评论信息的检索速度。基于爬虫和Lucene的汽车产品缺陷信息采集与检索系统,采用软件系统开发中常用的模块化设计手段。采用网络爬虫作为车辆评价信息采集技术,并利用VPN隐藏本地主机IP地址的能力进一步加快爬虫程序访问汽车网页过程,主要采用C/C++进行程序开发,在该模块会引入RAS函数库保证VPN连接的稳定,解决主机IP地址被封的问题。信息检索采用开源的Lucene技术,采用倒排索引方式进行汽车缺陷信息的索引建立,进一步加快检索速度。和其他系统进行数据传输使用了网络通信的手段,能够作为后台系统支持前台查询界面系统的信息查询工作。本论文面向汽车缺陷信息检索的使用目的,利用VPN、爬虫和Lucene设计了相关的采集与检索功能,解决了汽车交易市场上在汽车缺陷信息获取方面的难题,让购车人群可以更加有效的利用网络上汽车产品评价信息,提升了购车人群对汽车优劣的判断能力,对于维护购车人群的利益具有实用价值。