论文部分内容阅读
由于奥运期间按单双号限行以及现在按尾号限行政策的执行,拼车已经成为一些上班族解决无法每天开车上下班问题的首选方案。这造成了人们对拼车信息的大量需求,然而目前缺乏一个提供全面、准确、时效性高的拼车信息渠道。“拼车信息检索系统”的研发就是为了解决这一问题,该系统从互联网上获取与拼车有关的信息以供用户查询,使用户在浩瀚如海的网络世界里更快、更好的找到自己所需要的拼车信息。本文从描述系统背景入手,按照软件开发的一般流程,依次给出了系统的需求分析、概要设计、详细设计与实现,并在最后对系统的运行效果进行了分析说明。本系统主要有两个重要模块,一是基于主题的网络爬虫,它负责从互联网上抓取与拼车信息相关的网页,在页面解析方面,本文提出了基于插件技术和三点定位法解析与基于编辑距离解析的两种解决方法,简单高效的解决该爬虫所面临的难点——寻找与拼车信息相关的链接;另一个是信息抽取,它负责从抓取回来的网页中抽取出地名,并识别出出发地,本文提出了基于正向最大匹配分词的地名抽取,同时利用多模式匹配算法按规则对出发地进行识别,取得了良好的效果。针对其它相关模块,如网页去重、网页分类,本文也都根据系统需求特点,给出了具体的解决方案。