基于Bootstrapping的产品属性抽取技术研究

被引量 : 4次 | 上传用户:ymz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及以及web2.0的发展,越来越多的消费者习惯于在网上发表评论信息,网上的评论信息也呈现出爆炸式增长的趋势,此外不同的消费者对同一款产品的关注点一般也并不相同,消费者感兴趣的方面的信息很可能被淹没于评论信息的海洋之中,消费者想要查找自己感兴趣的方面,也变得越来越困难。因此,面对这些对于消费者和商家来说都有很大的价值的评价信息,如何发掘这些价值,利用这些评价信息,为消费者快速的查阅其所感兴趣的方面提供便利,提供更细粒度的服务,也变得越来越重要。为此进行基于情感抽取的产品评论信息分析很有必要,并且意义重大,其中产品属性词的抽取又是十分重要的一环。基于此,本文的研究重点集中在产品属性词的抽取,并且通过属性词间的聚类形成方面属性词簇。所谓方面属性词是指表示产品某个方面的属性的所有抽取出来的特征词。本文针对英文产品方面属性词抽取,提出了一种基于bootstrapping的抽取方法,该方法利用少数几个种子依存关系模板,通过增量迭代的过程发现新的属性词,在每一轮迭代中通过统计技术,结合情感词典的情感词分析,利用属性词与模板的亲密度关系得到属性词被抽取出的概率得分,对候选属性词进行排序过滤。对于抽取后的特征词集利用基于web的属性词相似性计算属性词间的相似度,根据相似性得分采用改进的针对属性词的K-Link层次聚类算法进行聚类得到产品不同方面的属性词类簇,同时过滤掉得分较低的类簇,进一步去掉噪声。该方法利用种子依存关系模板代替种子属性词以提高系统的可移植性,种子依存关系模板的选取是根据一种基于关联规则分析的初始种子依存关系模板的识别方法来获得。本文的主要工作及结论体现在以下几个方面,(1)提出了一种基于关联规则分析的初始种子依存关系模板的识别方法(2)提出了一种基于bootstrapping的改进的元自扩展的抽取框架(3)提出了一种属性词与依存关系间的亲密度计算方法(4)提出了一种基于web的属性词相似性计算方法(5)提出了一种改进的针对属性词的K-Link层次聚类算法(6)实现了基于bootstrapping的产品属性词抽取系统SSPA(7)围绕产品属性词的抽取问题设计了六组对比试验。总之,针对bootstrapping框架,通过对上述几个方面的研究与改进,即提高系统的可移植性,也使产品属性词抽取的准确率,召回率有所提高。实验结果表明,利用该方法进行产品方面属性词抽取的准确率为0.819,召回率为0.799,调和平均值为0.809,优于现有方法,具有较好的抽取性能。
其他文献
本文利用2001-2008年中国深沪两市508家制造业上市公司的微观就业数据和企业动态劳动需求方程重新估计了中国经济增长的就业弹性。实证结果表明,中国制造业上市公司的总资产
本文通过我国内部审计准则体系的新旧比较及新准则与国际内部审计准则的比较,得出如下结论:从内部审计定义和基本框架结构上看,新准则的国际协同化程度是相当高的;从准则具体
2013年4月10日,国务院常务会议做出扩大营业税改增值税试点的决定。具体来看,不仅前期试点范围自2013年8月扩大到全国,而且把广播影视行业也纳入扩容范围,铁路运输和邮电通信
LabVIEW作为著名的虚拟仪器开发平台,数据采集、信号处理与分析是其强项与优势,本文以混合了白噪声的信号的处理与分析为例,构建了一个基于LabVIEW的信号处理与分析系统。
中级财务会计课程的理论性和实践性都较强,采用案例教学可以提高学生学习兴趣,增强其发现问题、分析问题的能力,也有利于提升教学质量。本文就中级财务会计的案例选择问题进
近年来,我国电力工程建设规模不断扩大,工程建设要求持续提高。在工程质量管理和控制方面,监理单位发挥了重要的作用。本文就电力工程监理质量控制方面出现的问题进行了分析,
<正>昆明市博物馆古幢厅中的大理国时期地藏寺经幢,是1919年在瓦砾废墟中发现的。1982年,地藏寺经幢被国务院公布为第二批全国重点文物保护单位。地藏寺经幢高6.7米,七级八面
目的:探讨肌电触发神经肌肉刺激在改善脑卒中早期患者的腕背伸功能中的作用。方法:将60例脑卒中早期患者随机分为早期肌电触发神经肌肉刺激训练组(治疗组)和对照组各30例,对
<正>专业版权代理机构在图书贸易中起到了渠道和桥梁的作用,促进了版权贸易的形成。尤其我国目前正处于经济、文化高速发展时期,对版权的引进和输出都存在巨大的需求,因此专
本文在回顾目前江苏省中小企业融资现状的基础上,介绍了供应链融资模式及其运作机理,并以贝叶斯分类法建立关于中小企业供应链融资信用风险的评价模型,随后运用该模型对案例