论文部分内容阅读
潜在客户指能为企业在未来发展阶段带来盈利的一类群体,准确识别潜在客户可为企业精准营销,扩大产品市场占有率,提高核心竞争力等带来多方面帮助,是一项重要的研究内容。社交媒体环境下的用户生成内容,蕴含着丰富的情感信息,其中包括对于产品需求、品牌感知、购买意愿等内容的情感态度,研究表明用户的情感与购买意愿具有相关性,情感信息有助于企业发现潜在客户。但是,目前情感分析的主要工具情感词典无法很好的适应领域依赖性,无法及时覆盖社交媒体中的网络新词和准确识别未登录候选词的情感倾向,因此需要研究领域情感词典的构建方法。同时在识别潜在客户的过程中,由于用户生成内容文本不规范、情感随主题不断变化,且存在目标潜在客户群体所占比例偏低等数据不平衡问题,这些为潜在客户的识别带来困难。论文聚焦社交媒体下的汽车领域,构建了汽车领域的情感词典用于文本情感分析,同时将情感词典应用于不平衡数据集下的潜在客户识别任务中,设计联合领域情感主题的潜在客户识别方法,以发现具有潜在购车意向的用户。本文首先梳理了文本情感分析和潜在客户识别的研究现状,对情感词典的构建流程和文本分析中的特征选择、特征筛选和常用分类算法进行了介绍。其次,围绕情感分析最常用的工具情感词典,研究了情感词的情感极性判别规则。针对目前在构建情感词典的过程中使用单一识别算法存在的缺点,设计了一种改进的集成规则,提出了一种社交媒体环境下领域情感词典自动构建方法。接着,本文分析了用户生成内容中存在的情感主题信息,并将领域情感词典加入到联合情感主题模型中作为后验信息提取出情感主题特征,在此基础上进行潜在客户识别的特征工程研究并构造特征集合。另外,针对实际数据中存在的类别不平衡情况,设计了一种样本重抽样方法和一种针对不平衡数据的多样集成框架共同作用于数据倾斜下的潜在客户识别任务。最后,使用真实的社交媒体文本语料进行实验研究,验证本文所提方法。对比实验表明,本文提出的领域情感词典构建方法和联合领域情感主题的潜在客户识别方法在不同的对照组实验中均显示出良好的表现。本文在理论上对领域情感词典的构建、不平衡分类等内容进行了深入的研究,在实践中对企业发现潜在客户提供了解决方法,具有一定的理论意义和实践价值。