基于网页列表的商品信息自动提取关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cznay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务的普及使得利用电子商务进行购物的用户飞速增长,但随着网络上的商品信息越来越多,如何快速有效地从海量的商品信息中选择出用户需要的商品成为用户关心的重要问题。现有的互联网上商品信息大都是半结构化的数据,同时不同的网站数据的网站结构和提供给用户的检索接口都不一样,因而无法直接给用户提供的统一的查询接口,用户在不同网站检索相关的信息需要调用不同的网站的检索接口。为了能高速的检索出需要的信息,需要给用户提供一个统一的检索接口。为了以统一的结构化数据提供给用户,需要将网络上的半结构化的数据转化为统一结构的结构化数据,然后将结构化的数据进行索引,提供统一的检索接口给用户。由于网页中商品信息大多是以列表的形式展示出来,列表信息所在的区域就商品信息所在的区域,列表作为信息载体具有结构一致性的特点,论文针对列表结构一致性提出了一个基于网页列表结构的全自动信息提取算法和基于机器学习的文本自动归类算。在信息抽取算法中,首先利用网站的同构性去除网页中与商品信息无关的部分,无关信息去除主要是通过将网页转化为标签树的结构,通过树比较算法,找出不同网页中相同的信息,剪去无关的信息;然后提出一种频繁序列挖掘算法找出网页中结构相同的数据记录,挖掘出商品信息所在的区域,商品信息的抽取主要是基于PAT树,通过将网页的标签转化为二进制流挖掘出重复出现的信息区域,生成信息抽取模板,然后抽取出商品信息,最后提供一个可视化的工具给用户,让用户方便的标记自己感兴趣的商品信息,然后将信息提取出并安装统一的结构存储数据库中。为了更方便的查找相关信息,利用提取出来的商品的文本信息,有效的挖掘出其中的关联规则,通过将文本信息分成一个个的关键字,挖掘出关键字和类别之间的关联规则,构造出有效的决策树,决策树的构造通过已经生成的关联规则来构造,最后利用决策树对提取出的商品信息进行自动归类,为用户提供更加清晰的展现方式。随着中国步入老年化,与老年人生活息息相关的商品越来越多,如何直接有效地从海量的商品中选择出老年人需要的商品并以友好的方式展现给老年人具有很大的现实意义。
其他文献
本文主要研究了在Chwa&Hakimi模型下的大型多机系统的高效遗传算法和人工免疫算法。结合Deng等人和Yan等人在PMC模型下的研究方法,首次运用高效遗传算法和人工免疫算法求解Chw
JPEG2000静止图像压缩标准以其高压缩率,较强的抗误码能力和具有码率渐进传输等特性得到了越来越多的应用。近些年基于JPEG2000对其做的一些应用和拓展也逐渐增多,基于JPEG2000
面向服务架构是目前广泛使用的网络资源发布与访问的重要支撑手段,对于解决大规模分布式资源的访问提供了有效的方案,同时也为认证系统带来了挑战,为应对新环境的要求,研究适用于
随着计算机技术的发展,政府和企业管理的信息化越来越普及,在不同时期根据不同需求建立了各种各样的应用系统。然而这些系统之间往往是互不相通的,数据缺乏共享,这样容易造成
随着SOA大量应用于国内外企业和政府机构的系统开发中,其存在的安全问题也越来越被重视。授权操作是SOA下安全问题的一个重要组成部分,由于SOA环境下资源和访问主体的增多,授权
在计算机辅助设计(CAD)和计算机辅助工程(CAE)的无缝集成过程中,需要首先对CAD模型进行几何预处理,进行含各种特征抑制的几何简化,以提高后续网格生成的速度与质量,满足高端
基于IMS(IPMultiMedia Subsystem,IP多媒体子系统)的下一代融合网络,由于链路的开放性,和提供业务的个性化和多样化,以及涉及信息的敏感性,用户的接入安全和访问控制也变得日益重要
在充分了解JSON序列化机制与数据传输效率研究现状的基础上,为使应用程序的开发能够选择更合适、数据传输效率更高的数据传输格式,也为数据格式的选择提供更有力的参考依据,
由于电子商务网站的成功发展,在线购物已经成为一种方便、快捷、廉价的购物方式,随之而来的是图像数据呈现几何级数增长,如何对如此超大规模的购物图像进行有效搜索成为近年
旅行商问题(Traveling Salesman Problem,简称TSP)是组合优化问题中的经典问题,也是一个NP完全问题。同时,它也是众多优化问题的简化形式,如基因组制图、行星探索、电路板钻