论文部分内容阅读
在电子商务平台,用户评论为用户提供了丰富的意见乃至购物导向,影响着用户的购物决策。而随着电子商务的发展和越来越多的用户参与其中,在线评论的数量急剧增长,用户难以从海量的评论中摄取有用的信息借以对产品的各方面有所了解,更难以从庞杂的信息流中对可靠和有用的评论加以识别。近年来针对评论的研究主要涉及垃圾评论、评论质量和评论摘要三个方面。垃圾评论通过发掘特征基于机器学习方法都能较好识别,评论摘要和评论质量是多年来研究领域一直讨论的问题,是在线网络平台对评论的不同组织方式。本文针对评论摘要和评论质量研究中存在的问题,主要完成了以下工作:(1)针对传统基于句法分析在不规范评论文本中的缺陷和主题模型应用于产品特征提取中的问题,提出了基于句法分析和主题模型结合的改进LDA模型SA-LDA进行产品特征抽取。(2)对于特征词的聚类,结合语义相似度和观点相似度的方法对特征词之间的距离进行度量。(3)利用句法分析得到的特征集和观点集对观点句进行识别,作为主题模型的输入,并结合must-link和cannot-link两种约束条件进行主题学习,保证了模型的准确率。(4)探索评论摘要与评论有用性之间的联系,基于相同观点具有一致有用性的思想,提出一个无监督模型OSUD通过观点支持度对评论的有用性进行预测。(5)挖掘评论回复信息对观点支持度以及评论有用性的影响,评论回复表征了用户针对产品某方面特征的意见表述,比评论有用投票更具参考价值。本文的实验数据从中关村网站获取,通过人工标记数据的方式构造数据集,实验证明本文的特征提取方法在保证较好召回率的同时对准确率也有所提升,且对于部分隐式特征也能较好抽取。基于观点支持度的评论有用性模型在保证有效性的同时能够对实验结果提供很好的解释。