论文部分内容阅读
卷烟产品主要是通过点燃、吸食,从而给吸烟者带来生理、心理的强烈满足感和舒适愉悦的心情的一类产品。烟叶原料、叶组配方、香精香料、辅料搭配、工艺改进等都会对卷烟内在品质产生较大影响,进而影响卷烟的吸味和质量,最终直接影响购买者青睐的程度[1]。感官评吸能客观、直接地检验并监控卷烟内在品质的变化,评价员通过视觉、嗅觉、感官对卷烟品类、地方吸食喜好符合性和真伪烟的初步鉴别都可以有一个现场及时的总体把握。由此可见,卷烟的感官评吸数据有助于确定新产品的开发方面,其作用不容小觑。为此,卷烟企业会定期组织、收集、整理、分析一个时间段内某一卷烟产品的感官评价数据,便于卷烟企业及时掌握购买者的喜恶,以便明确产品的研发方向。然而,由于传统的感官评价数据众多且分散,语句表达也不规范,因此在获取客户知识的时候有一定的难度。本文在深入学习了前人的理论成果之后,对客户知识的获取做了进一步的研究,并通过实验验证了方法的有效性。具体内容可以大致概括为以下几个方面:(1)基于卷烟感官评吸数据的特点,本文详细阐述了如何对大量的卷烟客户的评吸文本进行处理,进而从中获取客户知识。本文对完成这一目标所需的每一步骤,以及每一步骤所需要的技术方法等做了详细阐述。(2)卷烟消费者对某种卷烟的评价数据带有一定的情感倾向性。情感倾向性的体现方式有很多,这里的主要方式是评吸数据中的评价词语。为了计算文本的情感倾向性和情感强度,本文构建了词典,包括情感词典、否定词词典和程度副词词典[2]。(3)卷烟消费者对某种卷烟的评价,是具体到香气、烟气等特征的评价[1]。为了能够更好的分析卷烟客户评价数据,我们首先需要提取出这些客户关注的卷烟特征,为以后的进一步处理打好基础。特征词的抽取结果的好坏将直接影响后续的研究,因此我们必须高度重视这一环节的精确度。本文使用的是基于关联规则算法的特征抽取。(4)在卷烟评价文本中,消费者会对自身关注的卷烟特征进行评价,也即每一个卷烟特征都有与之配对的评价词。为了确定卷烟消费者对卷烟产品的情感倾向,我们需要对这两种词语进行关系匹配,进而获得卷烟消费者对某一卷烟产品的某一特征的准确态度观点。在进行词语之间的关系搭配时,本文使用的是基于最大熵模型的匹配关系抽取方法[3]。