论文部分内容阅读
随着网络的蓬勃发展,以用户为中心反映了用户使用体验、包含了用户对产品的特征、功能和性能等看法的产品评论越来越多。通过参考产品使用者所发表的产品评论,用户可以挑选最适合自己的产品,厂家也可据此对产品进行改进,从而增强企业竞争力,因此产品评论挖掘技术的研究也就变得越来越重要。本文应用机器学习方法对产品评论挖掘的相关技术如短文本分类技术、特征观点对的挖掘方法、特征观点对的优化算法及产品特征的层次关系提取技术进行了研究。取得的主要成果和创新工作概括如下:提出基于语义特征的产品评论分类方法。产品评论的自动分类可以获取更好的研究素材,降低评论挖掘算法的复杂性,从而提高挖掘效率。基于产品评论普遍较短,本文从短文本的角度处理产品评论的分类问题。首先对从网上获取的产品评论进行人工标注,获得训练集;然后提取出产品评论中位于前列的χ2统计量和语义内容(产品特征、观点词、程度词)作为分类特征,把语义内容的数量、未挑选的语义内容和评论文本长度也加入分类特征;再使用二分类具有优势的支持向量机分类方法对所获取的分类特征进行学习,获得分类器;最后对网上时时更新的产品评论进行分类,挖掘出优秀的评论,建立评论语料库。实验表明,语义内容的加入对产品评论分类效果的改善是很明显的,准确率提升了9%,达到了80%,对属于短文本类型的产品评论来说分类效果是很不错的。采用半监督学习思想,提出在产品评论挖掘过程中把特征挖掘和观点挖掘相结合以获取特征观点对的方法。针对产品特征和观点词具有对应的修饰关系,本文使用半监督学习方法,把用户发表的产品部件、功能、性能等特征和表达了情感的观点词结合在一起进行挖掘,从而保留特征和观点的对应关系。半监督学习方法既可以利用少量标注样本获得专家的标注知识,又可以利用大量未标注数据来改善学习性能,增强学习算法的泛化能力。因此本文把人工定义的少量特征观点对作为种子,结合评论语句中的词、词性和修饰关系等组成的模式特征集对评论库进行挖掘,获取用户真正感兴趣的产品特征和评价。然后使用获得的产品特征词和观点词对多特征的评论进行了处理,实验表明这种处理使准确率和召回率都提升了2%左右。虽然把特征与观点结合在一起进行挖掘的准确率不是很高,但较高的召回率可使半监督学习算法能够挖掘到新的信息。为了改善挖掘结果的性能,提出基于最大化调和平均数(Maximize Harmonic-Mean,MHM)的原则,对观点序列进行优化的方法。针对半监督学习方法具有准确率随着迭代次数的增加而急剧下降的缺点,本文在准确率不高、获取的特征观点对中有很多错误的情况下,利用调和平均数易受极端值的影响,尤其受极小值的影响比受极大值的影响更大的特点,对标准差大的观点序列进行调整,删除序列中的低频元素时,通过最大化调和平均数在确保召回率的同时提高准确率。实验结果显示在准确率上升17%的情况下,召回率只降低了5%,此时准确率达到77.3%。提出从产品说明书和编辑评测中获取产品特征层次关系的方法,该方法采用结构化挖掘方法对产品说明书挖掘得到规格特征及其层次关系,使用半监督学习方法对编辑评测挖掘获得描述特征及其层次关系。现有的评论挖掘系统在获得特征及对应的观点词后没有对上下位的特征、同一特征的不同词语表达进一步处理,这样就会把同一个特征的不同词语表示作为不同的特征、上下位的特征作为平行特征展现给用户。本文首先使用结构化数据挖掘方法对厂家的产品说明书进行挖掘,获取规格特征之间的层次关系,再利用半监督学习方法对网站所提供的编辑评测进行挖掘,获取描述特征及其层次关系。然后把一段中获取的描述特征与规格特征进行相似度比较,从而获得规格特征和描述特征之间的层次关系。本文最后把获取的特征观点对与特征之间的层次关系相连接,合并相同特征的不同表示,对上下位的特征进行归类,统计出各个特征所获得的观点,并以树状的形式从上至下展现整个产品不同层次特征所获得的评价。