论文部分内容阅读
随着近些年,互联网向着网站与用户之间双向互动的Web2.0时代高速发展,在线评论这种非结构化文本数据迎来了爆发性的增长。这些数据中包含了大量的有用信息,是影响用户决策的重要影响因素之一,也是厂商家制定产品的研发和改进策略的主要依据。然而,由于在线评论数据量巨大,并且消费者往往具有不同的关注点与喜好,如何筛选出质量较高的在线评,并从在线评论中提取关于产品各方面属性的相关评价信息,就显得格外重要。为了可以从在线评论中找到用户关注的产品信息,本文提出了一种基于互自扩展模式的产品属性提取算法。算法的核心思想是通过计算机自我学习,增量迭代达到理想效果。同时结合FP-Growth算法对该模式进行改进,使其不但可以无需人工标注种子库,从而避免算法结果的不确定性,而且可以提高自扩展模式中增量迭代的速度,获得更好的扩展效果。为了降低自扩展模式下主题偏移的情况发生,又给出了一种提取词、提取模式置信度的求解方法。为了克服中文分词、词性标注中出现错误,提出了相似提取模式和复合提取词的概念并给出了其挖掘方法,该方法能够在牺牲较少准确率的情况下,较好的提高召回率。最后实验显示算法对中文在线评论中产品属性的提取效果,平均准确率为78.50%,平均召回率为79.81%,平均F-score为78.97%,取得了较好的提取效果。对英文评论中的产品属性提取效果,准确率为80.22%,召回率为72.28%,F-score为76.04%,相比较于文献中其它同类研究,在准确率上获得了较大的提升。基于上文所提到的产品属性提取算法而建立的产品属性数据库,考虑到通常用户在阅读在线评论时,都对评论内容所包含的属性存在一个心理预期,不同产品、甚至相同产品不同品牌之间,这些预期都是不同的。如果评论可以满足用户预期,将会对用户认为评论是否有用产生重要影响。基于以上考虑,通过将在线评论有用性判别问题转化为文本分类问题,采用SVM支持向量机方法,利用开元的LibSVM软件实现文本分类器,结合其他学者的研究成果,提出九种特征值,实现了对评论有用性的机器识别。实验表明,对评论有用性的识别准确率平均在90.67%,验证了算法的有效性,同时也证明了用户心理预期的产品属性描述对用户评判在线评论有用性存在着较大的影响。本文研究成果可以为用户在线购物提供决策支持,为厂商家改善产品及服务提供理论依据,还能够促进电子商务平台完善在线评论系统,极具理论与实践意义。