论文部分内容阅读
团购是一种多赢的市场行为,既能满足企业的销售需求,又可以满足社会市场的共性需求。对于消费者,可以通过团购以较少的投入购买到较为合意的服务或者商品,而对于企业或者普通商家,团购活动能够在短时间内带来较大规模的商品或者服务需求,这一服务形式能够很大程度地减少企业的成本,加速企业的资金流通。市场上有各种各样团购网站,这些网站带来了海量的团购信息,一个能够分门别类搜集各种团购信息的网站将在很大程度上降低用户的搜索成本,并且节约消费者获取信息的时间。本文研究团购信息整合播放系统。首先,分析了几种操作系统的特点,根据智能手机成为接入网络的主流的现状,选取了Android操作系统作为团购信息播放系统的开发平台。其次,介绍了基于模板化网络爬虫技术的web网页信息抽取流程,对引用网站的网页进行分析,引入正则表达式的概念及用法,总结出了相应网站的网页模板。再次,针对不同的网站以及网站内不同的频道,团购网站内容日益增长以及网页内容不断更新的特点,开发基于模板的数据抓取技术,设计了一套独特的基于模板的爬虫系统架构,该爬虫系统在运行时通过一些自定义的特征在模板集合里进行查找,通过自动匹配最合适的模板来保证程序运行时的高效性和准确性,继而简化系统编程和用户的操作。最后,结合爬虫系统提供的海量数据,对团购信息系统进行了测试,结果表明系统服务端实时稳定、客户端界面简洁高效,系统具有良好的可用性、健壮性和交互性。