半结构化网页中商品属性抽取方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zy3201869
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的高速发展使得在线购物得到极大普及,国内以淘宝、京东为代表的各类电子商务网站发展尤为迅猛。在线商品交易需要在网页中对商品属性信息进行尽可能详细的展示,这使得从互联网中获取大量商品属性信息成为可能。如果能有效组织与管理互联网中大量组织样式复杂的商品属性信息,将在商品评论的观点挖掘、情感分析、个性化产品推荐等领域发挥更积极的作用。目前网页信息抽取方法有很多,但是其中大部分都需要人工标记抽取结构,一旦减少人工参与,抽取的准确率就会随之下降。而且很多方法不能很好适应网页的变化,一旦网页样式改变,就需要重新构建网页信息抽取的包装器。为了解决上述问题,本文首先尝试了基于网页中商品信息描述网页块定位的商品属性信息抽取方法。该方法在利用VIPS算法将网页内容分块的基础上,训练分类器实现用于商品信息描述的网页块的判定。然后提出基于单位词表的商品属性记录对齐方法抽取属性信息描述网页块中的商品属性“名-值”对。在对第一个方法进行分析的基础上,本文又提出了基于商品详情页标题,构建自适应模板的商品属性信息提取方法。该方法利用大量属于同一领域的商品详情页标题构建领域属性词包,然后利用属性词包从网页定位优质的种子属性“名-值”对,最后基于种子属性“名-值”对学习出符合当前网页的属性布局模板并用于网页中其它属性信息的抽取。这一方法具有自动化程度高,适应性强等优点,并且在实验中取得了很好的效果。
其他文献
自我复制是自然界中生物最基本的特点之一,是人工生命研究的重要内容。对自我复制的研究,不仅有助于探索生命的规律,促进生物学的发展,而且对新一代纳米计算机的实现起到推动作用
主题爬虫有选择性地采集互联网中网页资源,这些网页资源都必须是用户所给定主题相关的,即网页内容是用户所感兴趣的。在经典主题爬虫中,如果文档词项集与主题词项集没有相同词项
无线传感器网络(Wireless Sensor Networks, WSNs)是一种飞速发展的新兴网络,是将传感器节点随机部署在指定区域并自组织成的无线多跳通信网络。WSNs综合了传感、信息处理和嵌
随着计算机设备的不断更新换代和网络全球化的快速发展,数据库技术得到了越来越广泛的应用,数据库共享已经变成了一种普遍现象,越来越多的个人信息记录被不同的部门和机构大量收
近年来,无线传感器网络已经广泛应用于各种领域,且应用类型多种多样。无线传感器网络没有固定的基础设施,由一定数量的无线传感器组成。这些传感器节点是可移动的,带有RF收发器等
随着多媒体技术和计算机网络的发展,在数据库技术与计算机视觉的共同作用下,图像检索已经成数字图像处理的一个重要领域和研究热点。基于内容的图像检索技术优于传统的检索方法
近年来,由于互联网资源的逐渐多样化与分布式存储,基于P2P技术的分布式FTP搜索引擎已成为FTP资源搜索的研究热点,其中,索引技术一直是提高FTP检索效率的关键。针对FTP资源检
近年来,数字图像真实性的检测和判定已经逐渐成为图像自动化处理领域的一个重要分支。它非常广泛地应用于现代社会生活的各个方面,如司法取证,商标防伪,医学图像检测等。数字图像
随着计算机科学的迅速发展,笔迹鉴别技术在信息安全、刑事侦查和经济安全等相关领域发挥了至关重要的作用。我国是一个多民族国家,维吾尔族是人口较多的少数民族之一,其主要分布
随着Web服务技术的迅速发展,越来越多Web服务被发布到Internet上,但是单个Web服务因为其功能局限性,难以满足用户复杂的需求,将多个Web服务进行组合成为一条解决该问题的有效途径