论文部分内容阅读
电子商务的普及使得利用电子商务进行购物的用户飞速增长,但随着网络上的商品信息越来越多,如何快速有效地从海量的商品信息中选择出用户需要的商品成为用户关心的重要问题。现有的互联网上商品信息大都是半结构化的数据,同时不同的网站数据的网站结构和提供给用户的检索接口都不一样,因而无法直接给用户提供的统一的查询接口,用户在不同网站检索相关的信息需要调用不同的网站的检索接口。为了能高速的检索出需要的信息,需要给用户提供一个统一的检索接口。为了以统一的结构化数据提供给用户,需要将网络上的半结构化的数据转化为统一结构的结构化数据,然后将结构化的数据进行索引,提供统一的检索接口给用户。由于网页中商品信息大多是以列表的形式展示出来,列表信息所在的区域就商品信息所在的区域,列表作为信息载体具有结构一致性的特点,论文针对列表结构一致性提出了一个基于网页列表结构的全自动信息提取算法和基于机器学习的文本自动归类算。在信息抽取算法中,首先利用网站的同构性去除网页中与商品信息无关的部分,无关信息去除主要是通过将网页转化为标签树的结构,通过树比较算法,找出不同网页中相同的信息,剪去无关的信息;然后提出一种频繁序列挖掘算法找出网页中结构相同的数据记录,挖掘出商品信息所在的区域,商品信息的抽取主要是基于PAT树,通过将网页的标签转化为二进制流挖掘出重复出现的信息区域,生成信息抽取模板,然后抽取出商品信息,最后提供一个可视化的工具给用户,让用户方便的标记自己感兴趣的商品信息,然后将信息提取出并安装统一的结构存储数据库中。为了更方便的查找相关信息,利用提取出来的商品的文本信息,有效的挖掘出其中的关联规则,通过将文本信息分成一个个的关键字,挖掘出关键字和类别之间的关联规则,构造出有效的决策树,决策树的构造通过已经生成的关联规则来构造,最后利用决策树对提取出的商品信息进行自动归类,为用户提供更加清晰的展现方式。随着中国步入老年化,与老年人生活息息相关的商品越来越多,如何直接有效地从海量的商品中选择出老年人需要的商品并以友好的方式展现给老年人具有很大的现实意义。