论文部分内容阅读
随着网络技术的快速发展与普及,越来越多用户喜欢在网络上通过评论的方式表达自己的观点。这些评论数据由于包含丰富的用户观点,使其在网络环境中的重要性也日益凸显,特别对很多新型的Web应用而言,它们的价值更为重要,例如电子商务/政务智能系统、网络舆情分析、个性化的推荐服务等。这类应用的成功与否和能否正确识别用户的观点具有密切的关系。因此,在海量用户共同评论的环境下,自动对用户的观点进行分析成为亟需解决的问题,从而受到越来越多研究人员关注。相对于传统的文本分析,用户观点表达的多样性和复杂性使得观点分析更加困难,特别是在公共开放的网络环境中,用户评论书写的随意性和数据量巨大的特点又带来了更多新的挑战。另一方面,观点分析包括了更多的研究内容,它涉及了观点文本的质量控制、观点信息的抽取、观点识别、观点总结和检索多方面的内容,这些内容贯穿了从数据收集整理到向用户或下级应用提供分析结果的整个过程。在此过程中,观点文本的质量控制为后续的应用和研究提供可靠的数据来源,而观点识别为观点总结和检索提供关键的处理数据。因此,本文针对网络评论围绕这两部分重要的研究内容展开探讨,主要贡献包括以下几个方面:1.提出一个整合了词项情感信息和词项贡献的特征函数,形成了一种新的特征表示方法,打破了传统文本分类方法中由于特征函数并未考虑特征情感信息而导致在观点分类问题中效果不佳的局限。该方法首先通过词项与情感标签的互信息(mutual information)捕获词项的情感倾向;然后将词项的情感信息结合它对文档的贡献度确定词项的特征值。多个评论领域上进行的实验结果表明,在该方法的基础上进行观点分类比使用现有的特征函数具有更高的分类准确度。2.设计了一个面向观点分析的三阶段多分类器集成学习框架,在该框架中系统自动选择一组最优的分类器,通过集成学习的方法将多个分类器的预测结果进行整合,从而提高了观点识别的准确度。在此框架中,首先提出了一种综合考虑了分类器准确度和多样性的分类器组合质量评估策略,然后利用该策略选择一组质量最高的分类器进行训练,最后提出了一种基于stacking技术的多分类器集成学习算法以实现多分类器预测结果的整合,从而使最终的观点识别准确度比传统单分类器方法的效果有较大的提升。3.设计了一个分类器组合选择的的贪心算法,解决了分类器组合选择时面临的组合爆炸问题。首先,本文将分类器组合选择问题转化为最优化问题;然后在此基础上设计了一个分类器组合选择的贪心算法,并证明该算法是2-近似的,保证了选择得到的分类器组合具有高的质量;最后分析了该贪心算法的时间复杂度为O(n),其中n为备选分类器的数量,因此大大提高了三阶段多分类器集成学习框架的可用性。4.提出了六种基于评论内容和评论人行为建模的垃圾评论识别特征,并设计了有监督的和无监督的两种垃圾评论在线检测算法,解决了现有的垃圾评论检测技术不能及时发现垃圾评论的缺点。文中提出的两种在线检测算法对垃圾评论的识别都具有较高的准确度和查全率,特别是无监督的方法在不需要标注样本的情况下也能达到较好的识别效果。综上所述,本文重点研究了针对观点分析的特征表示方法、面向观点分析的多分类器集成学习、分类器组合的优化选择和垃圾观点在线检测四个问题。这四个问题的研究具有连贯性和可持续性,形成一个相对完整的整体。本文的工作建立在对已有理论、技术和方法进行详尽分析和大量实验的基础上。理论分析和真实数据集上进行的大量实验都表明,本文中针对以上四个问题提出的解决方法都具有好的效果。