论文部分内容阅读
[摘 要]为了维护卷烟产品质量和把握消费者关注热点,通过在线问卷调查获取消费者抽吸感知评价数据,并从消费者满意度、评论热度和文本特征提取等方面开展竞品对比分析,实现了新的竞品筛选及其特征提取方式。研究表明:①通过客观评分得出卷烟A在外观整体、吸味整体和产品综合上的满意度远高于其他竞品;②文本挖掘得出消费者关注的竞品与专家筛选的竞品存在差异,且其产品优势集中表现为“口感”“价格”“吸味”等。该分析方法可有效动态监测消费者偏好和市场消费趋势,为卷烟工业企业改进产品质量提供支持。
[关键词]在线问卷调查;竞品评价;文本挖掘;TF-IDF算法;词云图
[DOI]10.13939/j.cnki.zgsc.2021.25.133
1 前言
卷烟产品质量与卷烟企业的信誉、消费者的体验、企业的生存发展息息相关。当前,以市场为导向,在满足不同消费者需求的前提下培育高质量的卷烟品牌已经成为行业企业发展的共识。因此,获取消费者的消费评价和需求信息对卷烟工业企业维护产品质量而言显得尤为重要。随着互联网的迅速发展,各种网络平台为企业提供与消费者沟通的便利渠道。利用网络平台形成的在线问卷调查成了获取卷烟消费评价的有效途径,同时弥补了由评吸员评价的传统方式中存在的样本少、成本高、主观性不强等不足。在所收集的问卷数据中,通常会存在消费者对产品的主观评价,以文本数据的形式呈现,反映了消费者的真实体验和使用心得,蕴含了极其丰富的信息。采用文本分析方法挖掘文本数据的隐含信息,可以帮助企业了解消费者的真实需求,具有重要的现实意义[1]。
文本挖掘分析,又称为意见挖掘,是利用自然语言处理技术、数据挖掘算法等对带有情感色彩的主观性文本进行预处理、归纳和推理的过程[2]。近些年来,运用文本挖掘技术将难以量化的文本数据进行清洗、整合、转换为结构化数据,并提取有价值的信息已广泛应用于商业[3]、旅游[4]和金融[5]等领域。然而,对于问卷调查中消费者主观评价文本的研究却鲜见报道。因此,文章基于在线问卷调查采集而来的竞品评价文本,利用文本挖掘技术探索消费者对卷烟产品的关注热点,剖析国内市场卷烟的热销品及其产品优势,捕捉消费者对产品质量的需求,为卷烟工业企业改进卷烟产品质量提供参考。
2 研究方法
2.1 在线问卷调查
为了深入了解消费者评价卷烟抽吸感知的关键要素,通过营销渠道邀请全国31个省市消费者参与卷烟A及竞品的评吸、评价活动,并进行在线问卷调查。问卷由结构化客观题和非结构化主观题组成,分为人口学特征、抽吸评价和竞品对比及质量改进三部分。人口学特征包括性别、年龄、烟龄、消费水平4个问题,抽吸评价包括香气浓度、香气类型、一致性、抽吸感受等8个问题,竞品对比及质量改进的指标评价、主观评价等3个问题。其中,第三部分除了客观评分以外,还设置主观评价的问题。例如“您认为在15~20元/包的常规支产品中,还有哪款产品抽吸体验更好或在当地更畅销,该产品主要好在哪些方面?”该部分构成了问卷调查中竞品评价的文本数据。
2.2 文本挖掘方法
2.2.1 中文分词
在进行文本数据分析前,需要对文本进行分词处理。中文分词就是将一段话切割成有字和词或短语的小片段,是文本挖掘、特征提取的基础[6]。在自然语言分类中,中文原本起步就比国外晚了很多年,在分词的技术上更是借鉴国外的方法。目前,常用的中文分词算法有:基于词典的分词方法、基于语义的分词方法及基于统计的分词方法等。其中,基于词典的分词方法是选定的字或词构成字符串,与字典里的字符串进行匹配[6]。假设需识别文本中的字符串Z,若词典中存在字符串Z,则可匹配成功。该方法效率高但是对新词的识别能力不足,需经常更新词典[7];基于语义的分词方法是根据中文的句法以及语义来划分句子,从而达到分词的目的。这种方法需要前期做大量的准备工作,需要对几乎所有的语料、语义、语法进行标注,甚至还需要考虑中文语义里的反讽、反语以及正词反义等一系列的特殊语义;基于统计的分词方法是根据同时出现的相邻两个字的频率来进行分词,可以不受待处理文本领域的限制自动排除歧义并识别相应的词语[7]。
以上3种中文分词方法各有优缺点,文章采用基于词典的分词方法对文本进行分词,并调用R软件的jiebaR安装包来实现。jiebaR包拥有自己的系统词典,且词汇量相当丰富,结合自建的烟草专有名词词典,共同形成本文文本分析的分词词典。
2.2.2 文本数据清洗
首先,原始文本数据会包含大量重复性、无语义的评论,例如数字、字母以及特殊字符,或者包含例如“没有”“好”字符很小的极短评论,此类评论内容蕴含的信息量很少,会增加文本分析的复杂度,需将其清除过滤。
其次,对文本分词处理后会出大量的停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之后会自动过滤掉某些字或词,这些字或词即被称为Stop-Words。对于停用词的去除,即可采用现有的停用词词典,也可以根据需要自建停用词典。
最后,文本中使用频率不高的非停用词往往对文本特征的提取也没有价值,故对这类词也需要进行清除,即可根据词语的长度或出现的频数进行过滤处理。
2.2.3 文本特征提取
特征提取本质上是一种降维的技术,目的是从样本所有的特征中筛选出具有区分性和代表性的特征,从而提高模型或方法的分类性能[8]。特征提取一般先构建特征选取函数,计算所有特征的权重,然后筛选出权重大的特征作为关键特征。文本特征提取时常用的方法有文档频数[9](Document Frequency,DF)、信息增益[10-11](Information Gain,IG)、互信息[10,12-13](Mutual Information,MI)、x2统计法[10,12](CHI)等。通过比较,文章采用的方法是TF-IDF算法[14],TF-IDF實际上是TF与IDF的乘积。TF代表词频(Term Frequency),指词或短语在一篇文档中出现的频数;IDF代表逆向文件频率(Inverse Document Frequency),指含有词或短语的文档数在总文档中所占比例取逆后的对数值,表征该词项区分文档的能力。当某个词或短语在一篇文档中出现的频率越高并且在其他文档中出现的次数越少,说明该词或短语的区分能力越强,其TF-IDF值越大。计算公式如下: wij=TF×IDF(i, j)=tfij×idfj=tfij×logNdfj+1(1)
其中,tfij表示特征词tj在文档di中出现的频数;dfj表示出现特征词tj的文档数;N为总文档数。
3 结果与分析
3.1 问卷基本分析
本次调查回收问卷2968份,其中有效问卷2962份。调查对象的人口学特征见表1。从表1中可看出,性别、年龄、烟龄、消费水平的分组均具有较好的代表性。
3.2 竞品对比分析
3.2.1 消费者满意度比较
组织相关专家筛选出与卷烟A同价位的卷烟B、卷烟C、卷烟D作为竞品,分别从外观整体、吸味整体和产品综合三个方面的消费者满意度评分进行比较。
采用核密度估计方法[15]分别拟合卷烟A、卷烟B、卷烟C和卷烟D的满意度评分的样本分布,见图1。并推断出卷烟A、卷烟B、卷烟C和卷烟D的满意度评分的样本均值,见图2。无论是从分布还是中心值比较,在产品综合上的满意度排序是:卷烟A>卷烟B>卷烟C>卷烟D,在外观整体、吸味整体上的满意度排序是卷烟A>卷烟B >卷烟D>卷烟C。产品卷烟A在外观整体、吸味整体和产品综合上的满意度评分远高于其他竞品,带有一定的主观偏向。
3.2.2 竞品评价文本挖掘
为了进一步了解竞争对手产品的优势特点,文章采用文本分析方法挖掘消费者竞品评价文本的热点及关键特征。
(1)文本数据清洗。先过滤原始文本数据中诸如“未填写评论”自动填充文本,然后逐条进行分词,共得到12704个词语,包括副词、介词、语气助词等无意义的词汇,比如“是、于是、还有、都、的、得”等。为了避免在后续文本挖掘时增加干扰噪声,需要将这些词语过滤掉。本研究采用的停用词词典是《中文停用词词库》,分词及去停用词后部分竞品评论见表2。
(2)竞品评论热度分析。卷烟的包装、口感、性价比等因素构成了卷烟产品的特性,直接或间接影响消费者的消费体验。消费者的购买偏好会存在差异,同时对同一产品的特性关注度也存在差异。因此,基于文本挖掘的热度分析可有效挖掘出消费者关注的主要竞品。对竞品评价文本进行数据清洗后,统计词频并使用R生产词云图(见图3)。词云图能直观将高频词汇通过颜色和大小展示出来,前3位高频竞品词汇是卷烟B(495)、卷烟E(431)、卷烟K(148)。
(3)竞品特征提取。特征提取是文本挖掘的重要环节,对竞品评论的关键词进行有效提取,可为总结竞品的产品优势提供思路。针对筛选出的卷烟B、卷烟E、卷烟K,分别匹配并形成特征提取数据文档(文档D1,文档D2,文档D3)。然后,采用公式(1)计算文档分词后的TF-IDF值,部分结果见表3。
一个词语对文档的重要性与该词语的TF-IDF值大小成正比。因此,只需选取TF-IDF值排在前列的词语,即为文档的特征词。文章分别提取竞品评价的5个特征词,并以词云图进行可视化展示,见表4和图4、图5、图6。可见,卷烟B的评论中“畅销”“口感”“不错”“价格”“产品”的词语权重较高,说明该产品的口感、价格给消费者带来很好的体验;卷烟E的评论中“口感”“畅销”“不错”“口味”“适中”的词语权重较高,说明消费者认为该产品的竞争优势是适中口味、口感;卷烟K的评论中“畅销”“口感”“吸味”“价格”“不错”的词语权重较高,说明消费者对该产品的抽吸感受和价格更满意。
4 结论与讨论
问卷调查可根据调查目的设计问卷,内容具有针对性,且结果便于量化和统计。结合网络信息平台可进行大规模、多类别人群的问卷调查和数据收集,有效弥补了样本少的不足。针对2962条问卷调查数据,文章采用统计分析和文本挖掘方法进行竞品满意度比较及文本特征挖掘分析,结果如下:①通过客观评分得出产品卷烟A在外观整体、吸味整体和产品综合上的满意度远高于其他竞品;②文本挖掘得出消费者关注的主要竞品是卷烟B、卷烟E、卷烟K,与专家筛选的競品存在差异;③特征提取卷烟B的产品优势是口感和价格,卷烟E的产品优势是适中的口味,卷烟K的产品优势是抽吸感受和价格;④基于大数据、文本挖掘的产品质量评价分析,能建立新的竞品筛选及其特征提取方式,并动态监测消费者偏好和市场消费趋势,为卷烟工业企业精准维护产品质量提供支持。
参考文献:
[1]杨春晓,张鹤馨,黄家雯,等.卷烟在线评论的文本情感分析[J].中国烟草学报,2020,26(2):92-100.
[2]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.
[3]李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.
[4]朱峰,吕镇.国内游客对饭店服务质量评论的文本分析——以e龙网的网友评论为例[J].旅游学刊,2006,21(5):86-90.
[5]PREIS T,MOAT H S,STANLEY H E.Quantifying trading behavior in financial markets using Google trends[J].Scientific Reports,2013(3):1684.
[6]刘丹.酒店评论的情感分析[D].昆明:云南财经大学,2017.
[7]莫建文,郑阳,首照宇,等.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807.
[8]陈俊宇,郑列.基于R语言的商品评论情感可视化分析[J].湖北工业大学学报,2020,35(1):110-113.
[9]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004(1):26-32.
[10]黄萱菁,吴立德,石崎洋之,等.独立于语种的文本分类方法[J].中文信息学报,2000(6):1-7.
[11]李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13.
[12]马慧敏.中文文本自动分类方法的研究和实现[D].北京:华北电力大学,2004.
[13]章兰.一种基于VSM模型的动态文本分类器的设计[D].苏州:苏州大学,2004.
[14]余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报(自然科学版),2004(5):118-120.
[15]吴喜之.复杂数据统计方法:基于R的应用[M].北京:中国人民大学出版社,2012.
[基金项目]提升产品感官区域适应性的关键技术研究(项目编号:HYHH2018GY06)。
[作者简介]汪显国(1983—),男,汉族,安徽人,副研究员,博士,研究方向:产品市场分析及维护;通讯作者:许磊(1986—),男,汉族,湖北人,统计师,硕士,研究方向:工业大数据挖掘。
[关键词]在线问卷调查;竞品评价;文本挖掘;TF-IDF算法;词云图
[DOI]10.13939/j.cnki.zgsc.2021.25.133
1 前言
卷烟产品质量与卷烟企业的信誉、消费者的体验、企业的生存发展息息相关。当前,以市场为导向,在满足不同消费者需求的前提下培育高质量的卷烟品牌已经成为行业企业发展的共识。因此,获取消费者的消费评价和需求信息对卷烟工业企业维护产品质量而言显得尤为重要。随着互联网的迅速发展,各种网络平台为企业提供与消费者沟通的便利渠道。利用网络平台形成的在线问卷调查成了获取卷烟消费评价的有效途径,同时弥补了由评吸员评价的传统方式中存在的样本少、成本高、主观性不强等不足。在所收集的问卷数据中,通常会存在消费者对产品的主观评价,以文本数据的形式呈现,反映了消费者的真实体验和使用心得,蕴含了极其丰富的信息。采用文本分析方法挖掘文本数据的隐含信息,可以帮助企业了解消费者的真实需求,具有重要的现实意义[1]。
文本挖掘分析,又称为意见挖掘,是利用自然语言处理技术、数据挖掘算法等对带有情感色彩的主观性文本进行预处理、归纳和推理的过程[2]。近些年来,运用文本挖掘技术将难以量化的文本数据进行清洗、整合、转换为结构化数据,并提取有价值的信息已广泛应用于商业[3]、旅游[4]和金融[5]等领域。然而,对于问卷调查中消费者主观评价文本的研究却鲜见报道。因此,文章基于在线问卷调查采集而来的竞品评价文本,利用文本挖掘技术探索消费者对卷烟产品的关注热点,剖析国内市场卷烟的热销品及其产品优势,捕捉消费者对产品质量的需求,为卷烟工业企业改进卷烟产品质量提供参考。
2 研究方法
2.1 在线问卷调查
为了深入了解消费者评价卷烟抽吸感知的关键要素,通过营销渠道邀请全国31个省市消费者参与卷烟A及竞品的评吸、评价活动,并进行在线问卷调查。问卷由结构化客观题和非结构化主观题组成,分为人口学特征、抽吸评价和竞品对比及质量改进三部分。人口学特征包括性别、年龄、烟龄、消费水平4个问题,抽吸评价包括香气浓度、香气类型、一致性、抽吸感受等8个问题,竞品对比及质量改进的指标评价、主观评价等3个问题。其中,第三部分除了客观评分以外,还设置主观评价的问题。例如“您认为在15~20元/包的常规支产品中,还有哪款产品抽吸体验更好或在当地更畅销,该产品主要好在哪些方面?”该部分构成了问卷调查中竞品评价的文本数据。
2.2 文本挖掘方法
2.2.1 中文分词
在进行文本数据分析前,需要对文本进行分词处理。中文分词就是将一段话切割成有字和词或短语的小片段,是文本挖掘、特征提取的基础[6]。在自然语言分类中,中文原本起步就比国外晚了很多年,在分词的技术上更是借鉴国外的方法。目前,常用的中文分词算法有:基于词典的分词方法、基于语义的分词方法及基于统计的分词方法等。其中,基于词典的分词方法是选定的字或词构成字符串,与字典里的字符串进行匹配[6]。假设需识别文本中的字符串Z,若词典中存在字符串Z,则可匹配成功。该方法效率高但是对新词的识别能力不足,需经常更新词典[7];基于语义的分词方法是根据中文的句法以及语义来划分句子,从而达到分词的目的。这种方法需要前期做大量的准备工作,需要对几乎所有的语料、语义、语法进行标注,甚至还需要考虑中文语义里的反讽、反语以及正词反义等一系列的特殊语义;基于统计的分词方法是根据同时出现的相邻两个字的频率来进行分词,可以不受待处理文本领域的限制自动排除歧义并识别相应的词语[7]。
以上3种中文分词方法各有优缺点,文章采用基于词典的分词方法对文本进行分词,并调用R软件的jiebaR安装包来实现。jiebaR包拥有自己的系统词典,且词汇量相当丰富,结合自建的烟草专有名词词典,共同形成本文文本分析的分词词典。
2.2.2 文本数据清洗
首先,原始文本数据会包含大量重复性、无语义的评论,例如数字、字母以及特殊字符,或者包含例如“没有”“好”字符很小的极短评论,此类评论内容蕴含的信息量很少,会增加文本分析的复杂度,需将其清除过滤。
其次,对文本分词处理后会出大量的停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之后会自动过滤掉某些字或词,这些字或词即被称为Stop-Words。对于停用词的去除,即可采用现有的停用词词典,也可以根据需要自建停用词典。
最后,文本中使用频率不高的非停用词往往对文本特征的提取也没有价值,故对这类词也需要进行清除,即可根据词语的长度或出现的频数进行过滤处理。
2.2.3 文本特征提取
特征提取本质上是一种降维的技术,目的是从样本所有的特征中筛选出具有区分性和代表性的特征,从而提高模型或方法的分类性能[8]。特征提取一般先构建特征选取函数,计算所有特征的权重,然后筛选出权重大的特征作为关键特征。文本特征提取时常用的方法有文档频数[9](Document Frequency,DF)、信息增益[10-11](Information Gain,IG)、互信息[10,12-13](Mutual Information,MI)、x2统计法[10,12](CHI)等。通过比较,文章采用的方法是TF-IDF算法[14],TF-IDF實际上是TF与IDF的乘积。TF代表词频(Term Frequency),指词或短语在一篇文档中出现的频数;IDF代表逆向文件频率(Inverse Document Frequency),指含有词或短语的文档数在总文档中所占比例取逆后的对数值,表征该词项区分文档的能力。当某个词或短语在一篇文档中出现的频率越高并且在其他文档中出现的次数越少,说明该词或短语的区分能力越强,其TF-IDF值越大。计算公式如下: wij=TF×IDF(i, j)=tfij×idfj=tfij×logNdfj+1(1)
其中,tfij表示特征词tj在文档di中出现的频数;dfj表示出现特征词tj的文档数;N为总文档数。
3 结果与分析
3.1 问卷基本分析
本次调查回收问卷2968份,其中有效问卷2962份。调查对象的人口学特征见表1。从表1中可看出,性别、年龄、烟龄、消费水平的分组均具有较好的代表性。
3.2 竞品对比分析
3.2.1 消费者满意度比较
组织相关专家筛选出与卷烟A同价位的卷烟B、卷烟C、卷烟D作为竞品,分别从外观整体、吸味整体和产品综合三个方面的消费者满意度评分进行比较。
采用核密度估计方法[15]分别拟合卷烟A、卷烟B、卷烟C和卷烟D的满意度评分的样本分布,见图1。并推断出卷烟A、卷烟B、卷烟C和卷烟D的满意度评分的样本均值,见图2。无论是从分布还是中心值比较,在产品综合上的满意度排序是:卷烟A>卷烟B>卷烟C>卷烟D,在外观整体、吸味整体上的满意度排序是卷烟A>卷烟B >卷烟D>卷烟C。产品卷烟A在外观整体、吸味整体和产品综合上的满意度评分远高于其他竞品,带有一定的主观偏向。
3.2.2 竞品评价文本挖掘
为了进一步了解竞争对手产品的优势特点,文章采用文本分析方法挖掘消费者竞品评价文本的热点及关键特征。
(1)文本数据清洗。先过滤原始文本数据中诸如“未填写评论”自动填充文本,然后逐条进行分词,共得到12704个词语,包括副词、介词、语气助词等无意义的词汇,比如“是、于是、还有、都、的、得”等。为了避免在后续文本挖掘时增加干扰噪声,需要将这些词语过滤掉。本研究采用的停用词词典是《中文停用词词库》,分词及去停用词后部分竞品评论见表2。
(2)竞品评论热度分析。卷烟的包装、口感、性价比等因素构成了卷烟产品的特性,直接或间接影响消费者的消费体验。消费者的购买偏好会存在差异,同时对同一产品的特性关注度也存在差异。因此,基于文本挖掘的热度分析可有效挖掘出消费者关注的主要竞品。对竞品评价文本进行数据清洗后,统计词频并使用R生产词云图(见图3)。词云图能直观将高频词汇通过颜色和大小展示出来,前3位高频竞品词汇是卷烟B(495)、卷烟E(431)、卷烟K(148)。
(3)竞品特征提取。特征提取是文本挖掘的重要环节,对竞品评论的关键词进行有效提取,可为总结竞品的产品优势提供思路。针对筛选出的卷烟B、卷烟E、卷烟K,分别匹配并形成特征提取数据文档(文档D1,文档D2,文档D3)。然后,采用公式(1)计算文档分词后的TF-IDF值,部分结果见表3。
一个词语对文档的重要性与该词语的TF-IDF值大小成正比。因此,只需选取TF-IDF值排在前列的词语,即为文档的特征词。文章分别提取竞品评价的5个特征词,并以词云图进行可视化展示,见表4和图4、图5、图6。可见,卷烟B的评论中“畅销”“口感”“不错”“价格”“产品”的词语权重较高,说明该产品的口感、价格给消费者带来很好的体验;卷烟E的评论中“口感”“畅销”“不错”“口味”“适中”的词语权重较高,说明消费者认为该产品的竞争优势是适中口味、口感;卷烟K的评论中“畅销”“口感”“吸味”“价格”“不错”的词语权重较高,说明消费者对该产品的抽吸感受和价格更满意。
4 结论与讨论
问卷调查可根据调查目的设计问卷,内容具有针对性,且结果便于量化和统计。结合网络信息平台可进行大规模、多类别人群的问卷调查和数据收集,有效弥补了样本少的不足。针对2962条问卷调查数据,文章采用统计分析和文本挖掘方法进行竞品满意度比较及文本特征挖掘分析,结果如下:①通过客观评分得出产品卷烟A在外观整体、吸味整体和产品综合上的满意度远高于其他竞品;②文本挖掘得出消费者关注的主要竞品是卷烟B、卷烟E、卷烟K,与专家筛选的競品存在差异;③特征提取卷烟B的产品优势是口感和价格,卷烟E的产品优势是适中的口味,卷烟K的产品优势是抽吸感受和价格;④基于大数据、文本挖掘的产品质量评价分析,能建立新的竞品筛选及其特征提取方式,并动态监测消费者偏好和市场消费趋势,为卷烟工业企业精准维护产品质量提供支持。
参考文献:
[1]杨春晓,张鹤馨,黄家雯,等.卷烟在线评论的文本情感分析[J].中国烟草学报,2020,26(2):92-100.
[2]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.
[3]李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.
[4]朱峰,吕镇.国内游客对饭店服务质量评论的文本分析——以e龙网的网友评论为例[J].旅游学刊,2006,21(5):86-90.
[5]PREIS T,MOAT H S,STANLEY H E.Quantifying trading behavior in financial markets using Google trends[J].Scientific Reports,2013(3):1684.
[6]刘丹.酒店评论的情感分析[D].昆明:云南财经大学,2017.
[7]莫建文,郑阳,首照宇,等.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807.
[8]陈俊宇,郑列.基于R语言的商品评论情感可视化分析[J].湖北工业大学学报,2020,35(1):110-113.
[9]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004(1):26-32.
[10]黄萱菁,吴立德,石崎洋之,等.独立于语种的文本分类方法[J].中文信息学报,2000(6):1-7.
[11]李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13.
[12]马慧敏.中文文本自动分类方法的研究和实现[D].北京:华北电力大学,2004.
[13]章兰.一种基于VSM模型的动态文本分类器的设计[D].苏州:苏州大学,2004.
[14]余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报(自然科学版),2004(5):118-120.
[15]吴喜之.复杂数据统计方法:基于R的应用[M].北京:中国人民大学出版社,2012.
[基金项目]提升产品感官区域适应性的关键技术研究(项目编号:HYHH2018GY06)。
[作者简介]汪显国(1983—),男,汉族,安徽人,副研究员,博士,研究方向:产品市场分析及维护;通讯作者:许磊(1986—),男,汉族,湖北人,统计师,硕士,研究方向:工业大数据挖掘。