论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎将面临信息采集、检索等方面更大的挑战。随着电子商务的蓬勃发展,网上商品的交易越来越频繁,更多的消费者通过搜索引擎来寻找和购买在线产品,但是用户常常难以快速、准确地从海量信息中找到自己所需的且可比较的信息。为解决这些问题,比较购物垂直搜索应运而生。
本文旨在通过WEB信息抽取、中文分词、信息融合等相关垂直搜索技术对网页信息进行处理,使计算机能够自动完成商品信息抽取和融合,最后呈现给用户一个完整的商品信息视图,提供一个初步的比较购物垂直搜索系统模型。它有助于提高信息抽取自动化程度,监控竞争对手的市场策略,以及衍生新的商业模式。
本文针对网页噪音和网页非结构化信息抽取模板生成复杂度高的问题,提出一种基于模板的快速网页文本自动抽取算法。该算法对网页噪音预处理,将其DOM树结构进行标签HASH映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。然后使用网页文本主题分析和正则模板匹配等技术,实现一套针对商品信息的在线抽取方法。
为了增加商品垂直搜索的准确性,维护日益更新的商品名词,本文提出了基于主题的自适应的分词方法,使用候选词典和专业词库来指导分词和歧义消除,能有效地提高专业领域中分词的准确率。
本文进行了系统的总体设计、数据库表结构设计;对关键模块的设计引入(Plug-in)机制;并结合一些开源框架对部分系统模块和底层时序调度进行实现。文中介绍了主要模块的实现细节,并根据抽取的商品信息属性,提出相应的数据融合策略。最后以图书商品为例进行了系统运行实验。实验运行结果表明:本文相关算法和设计是可行的,系统能够完成初步的设计目的,为进一步的扩展打下基础。