论文部分内容阅读
应用IoC和策略模式设计Spider,将Spider的功能模块抽象为解析器、匹配器和写入器等5个接口:抽象解析器负责接收由IHtmlGetter传递来的网页,并使用IMatcher解析。抽象写入器将解析结果进行保存,形成数据库或文件。类似ResultSet的行列式数据集,在IParser与IParser间、IParser与IWriter间传递。抽象匹配器可由正则表达式实现。由此减少各部分间的耦合,增强可扩展性。