论文部分内容阅读
近年来我国的电子商务行业蓬勃发展,其中以天猫、京东、苏宁易购、易迅等为代表的电子商务网站在在线家电零售上的表现尤其突出。它们深刻改变了我国家电销售方式以及用户的消费习惯,同时也极大地增加了家电生产商的竞争压力。家电产品用户对所购买产品的认知与评价、对产品属性的情感倾向以及家电产品之间的差异化程度都成为家电产品生产厂商重要的竞争信息。 如何挖掘竞争家电产品信息,如何挖掘用户对于产品的意见和建议,成为了家电生产企业深入了解用户的真实需求、提升产品竞争力的关键所在。本文旨在研究挖掘电子商务网站海量的销售记录以及用户评价,为家电产品生产商提供一个清晰的竞争产品对比、用户对产品某属性的情感倾向以及用户对产品客观评价的自动文摘,并提出构建家电产品竞争信息挖掘系统的方法。 首先,文本提出了如何在互联网上获取、存储大量产品信息以及用户评价信息。结合电子商务网站的特点,采用了自建爬虫获取大量的产品信息以及其对应的用户评论信息。并使用分词工具FudanNLP等,分别对数据进行抽取、清洗、转换、装载和分词。 其次,本文在产品抽取的属性基础上构建了动态的家电产品信息库,并在Jena本体映射的基础上构建了基于本体的家电产品查询方式,并且提出了基于家电产品的本体相似度算法。通过该算法可以对不同的家电产品进行属性对比,获取家电产品本体的属性演变以及竞争产品之间的差异化情况。 再次,本文根据得到的用户评论信息做基于用户评价的产品属性倾向性研究。在前面本体建模的基础上,本文主要研究基于用户评论的短文本情况下用户对产品属性的倾向性意见。 然后,本文提出了基于用户评价的产品摘要算法与实现。该算法是在完全稀疏主题模型(Fully Sparse Topic Model,FSTM)的基础上进行的,该算法主要目的在于研究根据用户对产品的评价自动获得用户群体对于特定家电产品客观真实的评价。 最后,本文对家电产品竞争信息挖掘系统的构建提出了解决办法和具体的实施方案,并构建出了家电产品竞争信息挖掘系统的原型。