论文部分内容阅读
互联网技术的高速发展使得在线购物得到极大普及,国内以淘宝、京东为代表的各类电子商务网站发展尤为迅猛。在线商品交易需要在网页中对商品属性信息进行尽可能详细的展示,这使得从互联网中获取大量商品属性信息成为可能。如果能有效组织与管理互联网中大量组织样式复杂的商品属性信息,将在商品评论的观点挖掘、情感分析、个性化产品推荐等领域发挥更积极的作用。目前网页信息抽取方法有很多,但是其中大部分都需要人工标记抽取结构,一旦减少人工参与,抽取的准确率就会随之下降。而且很多方法不能很好适应网页的变化,一旦网页样式改变,就需要重新构建网页信息抽取的包装器。为了解决上述问题,本文首先尝试了基于网页中商品信息描述网页块定位的商品属性信息抽取方法。该方法在利用VIPS算法将网页内容分块的基础上,训练分类器实现用于商品信息描述的网页块的判定。然后提出基于单位词表的商品属性记录对齐方法抽取属性信息描述网页块中的商品属性“名-值”对。在对第一个方法进行分析的基础上,本文又提出了基于商品详情页标题,构建自适应模板的商品属性信息提取方法。该方法利用大量属于同一领域的商品详情页标题构建领域属性词包,然后利用属性词包从网页定位优质的种子属性“名-值”对,最后基于种子属性“名-值”对学习出符合当前网页的属性布局模板并用于网页中其它属性信息的抽取。这一方法具有自动化程度高,适应性强等优点,并且在实验中取得了很好的效果。