论文部分内容阅读
随着互联网的发展,网络购物逐渐的被人们所接受,电子商务也快速的发展起来。然而面临网络中丰富的商品,如何从中找到满意的商品信息,成为目前网络用户所面临的问题之一。网页信息搜索与抽取技术是解决该问题的重要途径之一,可细分为网页搜索和信息抽取。网页搜索是指从互联网中搜索网页,目前主要的网页搜索技术有目录搜索、全文搜索以及元搜索。信息抽取是指对网页中的信息进行结构化处理,输出结构化信息,可以分为基于自然语言、包装器、本体、HTML结构和Web查询五种信息抽取技术。现有的网络商品信息搜索工具如比价网、爱购物、比价助手等采用人工进行规则抽取,自动化差。本文对网络商品信息搜索和抽取技术进行了深入的研究和探讨,设计了一种“双层”元搜索引擎,并针对元搜索技术的特点对FindDR信息抽取算法进行了改进。主要工作如下:1)提出了一种“双层”元搜索引擎。该方法通过百度搜索引擎搜索购物网站,提取其中包含的购物网站站内引擎信息,并以这些搜索引擎为子引擎实现对网络商品搜索。通过“双层”元搜索引擎可以实现对子搜索引擎的自动维护。2)对FindDR算法进行改进。FindDR算法是一种适用于对具有重复结构网页进行信息抽取的信息抽取算法,本文通过元搜索引擎搜索结构网页与搜索词的对应关系对FindDR算法进行改进,提高了算法的运行效率。3)将以上设计用JAVA语言实现并运用在一款网络比价软件的开发中,通过实际的大量网络商品搜索实验,验证了系统可以自动添加和维护子引擎并对商品信息进行高效抽取。