论文部分内容阅读
摘 要:随着科技的进步,由华为自主研发的首个国产手机操作系统成功问世,引起社会强烈反响。该文以网络爬虫抓取的用户评论为例,基于评论数据建立评估模型,主要使用文本描述性分析、SnowNlp情感分析和LDA潜在主题挖掘这3种方法,从不同角度对用户评论进行文本挖掘分析,找出评论大数据背后隐含的情感倾向、用户观点等深层信息,有助于企业了解用户的使用体验与口碑动态。该文分析模型的评估效果可信度较高,所采用的研究方法也适用于电商评论分析、社会舆情分析等方面。
关键词:网络爬虫 情感分析 LDA 文本挖掘
中圖分类号:TP391.1 文献标识码:A文章编号:1672-3791(2021)06(a)-0026-04
Sentiment Analysis and Research of User Comments on Hongmeng System Based on Text Mining
CHEN Nuoyi SHAN Jing* WANG Jiaying SHI Lulu
(School of Information and Control Engineering, Shenyang Jianzhu University, Shenyang, Liaoning Province, 110168 China)
Abstract: With the progress of science and technology, the first domestic mobile phone operating system developed by Huawei has been successfully launched, which has aroused strong social response. Based on web crawler fetching user comments as an example, the evaluation model is established based on the review data. Three methods are mainly used: text descriptive analysis, SnowNlp sentiment analysis and LDA potential topic mining method, conducting text mining analysis on user comments from different perspectives to find out the emotional tendency, user opinions and other deep information hidden behind thebig data of comments. It is helpful for enterprises to understand the user experience and word of mouth dynamic. The evaluation effect of the analysis model in this paper has a high credibility, and the research method adopted is also applicable to e-commerce comment analysis, social public opinion analysis and other aspects.
Key Words: Web crawler; Sentiment analysis; LDA; Text mining
鸿蒙OS是一款“面向未来”的操作系统,一款基于微内核的面向全场景的分布式操作系统,是由华为开发人员打造的国产手机系统。对于鸿蒙系统的正式发布,国内用户纷纷通过网络平台发布对该系统的评论看法,用户的评论信息包括了客观评论与主观评论,而主观评论占比极高,该文通过采集B站(某自媒体视频网站)关于鸿蒙系统视频底部的用户评论信息,建立相关的文本挖掘模型对评论信息进行深度挖掘。
1 研究方法
该文对选取的关于鸿蒙系统在线评论利用八爪鱼采集工具,设定采集规则。主要抓取的内容为用户评论信息。对于抓取的数据进行数据清洗,包括文本去重、去空值、剔除广告信息与无意义评论、中文文本分词等操作。通过将自主构建的关于手机系统的语料库导入到snownlp情感分析模型中进行无监督训练,以提高模型预测准确率,并利用TF-IDF算法的思想,提取评论中的关键词以及词频;利用LDA潜在主题挖掘模型深入分析好评集和差评集。最后通过上述分析结果,剖析鸿蒙系统产品问题。图1为研究主要路线图。
2 在线评论获取
挖掘用户关于华为鸿蒙系统在线评论中隐含的信息,首先需要利用网络爬虫获取大量的在线评论。获取在线评论数据主要通过编写数据采集程序(称为网络爬虫),网络爬虫可以自动爬取网页,获取网页的内容[1]。该文通过一款完全自主研发的分布式云平台——八爪鱼采集器,自动获取B站用户在线评论数据,爬取的评论数据见表1。
3 数据预处理
利用网络爬虫工具从网站采集的用户评论数据存在较多的无用数据,会对实验结果产生较大的影响。数据预处理主要去除不完整的、不一致的数据并排除低质量的数据,预处理过后的数据可以提高实验结果的准确率,下面将主要阐述对原始数据集进行预处理的过程。 3.1 数据清洗
爬取到的评论文本中存在较多重复行、特殊字符及英文字符,并且用户可以自由发表对评论主体的主观意见,评论内容具有极强的随意性,评论质量得不到保证。在研究过程中,主要使用Python语言编写相关程序对文本长度大于20的重复评论以及特殊字符、英文字符进行剔除。对于满足基本格式,但是无法进行情感分析的无意义语句进行手动剔除[2]。
3.2 中文文本分词
在中文文本中,词与词之间的界限往往比较模糊,而在模型分析过程中,尤其是关键词提取、潜在主题词挖掘等,合理地进行中文文本分词尤为重要。该文采用Python中优秀的中文分词第三方库jieba,jieba分词主要利用中文词库,确定汉字之间的关联概率,汉字间关联概率大的组成词组,从而形成分词结果,其分词准确率较高[3]。另外,对于一些分词不太理想的词汇可以通过jieba库中的load_userdict函数导入用户自定义词典的方法解决,对于一些无意义的停用词,如“的”“我们”“@”“!”等,可以利用set_stop_words函数导入停用词词典,并通过extract_tags函数去除文本中的停用词,部分文本的分词结果如图2所示。
4 评论文本描述性分析
4.1 基于TF-IDF算法提取关键词
TF-IDF是一种统计方法,用于评估一字词对于一个文档集或者一个语料库中某个文件的重要程度,字词的重要性随着其在文件中出现的次数呈正比增加,但同时随着其在语料库中出现的频率呈反比下降。利用TF-IDF对鸿蒙系统在线评论分词进行统计,得到top50关键词及其权重,部分内容见表2。
其中,TF为一篇文档中字词的词频;IDF为逆文档频率,用于衡量字词在所有文档中出现的普遍程度;TF-IDF则为两者乘积。上述公式中,Ni,j为字词在文档D中出现的频次;为文档D中词条的总数,D为语料库中总文档数量;为包含词條T的总文档数[4]。
4.2 可视化评论描述
基于wordart在线词云图生成工具实现鸿蒙系统评论的描述性可视化,通过词云图(见图3)可以直观地突出评论文本中出现频率较高的关键词,从而形成“关键词渲染”。
5 在线评论情感倾向分析
关于在线评论文本的描述性分析能够在一定程度上对鸿蒙系统的评价进行描述,但不能挖掘出这些评论信息所蕴含的情感倾向,为了更加深入地挖掘评论文本中的信息,需要对在线评论进行情感分析,利用Python类库SnowNlp预测评论文本的情感倾向,并分别对正面评论与负面评论进行分类,分析其各自蕴含的主题[5]。
5.1 情感分析结果
该文使用手机系统在线评论的自定义语料库训练情感分析模型,以提高情感预测准确率,SnowNLP 情感分析将短文本的情感程度表示为[0,1]区间的情感分值,得分在0~0.5之间为负面评价,在0.5~1.0之间为正面评价,得分为0.5则视作中性评价[6]。通过统计实际数据,得到分类效果的评价,笔者把从网络上搜集的2 185条评价进行人工情感极性标注,作为情感分析测试集,测试结果表示,经过训练的SnowNlp情感分析模型的预测准确率达到87.3%,准确率较高。该文使用训练好的模型对鸿蒙系统评论进行情感分类,得到正面评论和负面评论两个文档。其中正面评论共有38 897条,负面评论10 084条,中性评论856,分别占总评论数的比重为78.05%、20.23%、1.72%。
5.2 基于LDA模型的主题挖掘分析
LDA主题模型是文本挖掘领域的典型模型,可以在语料文本中抽取潜在主题,为研究者提供了量化分析主题的方法[7],该文从好评集和差评集这两个文档分别进行主题划分,从而进行评论数据的情感分析研究。以上两个文档的主题挖掘结果见表3和表4。结果显示,该手机系统正面评论较多,用户对鸿蒙系统总体满意,由好评集主题词推测得出4个主题,从主题1得出国内用户普遍看鸿蒙,认为鸿蒙是一款让国人引以为豪的自主研发的国产手机操作系统,并且绝大部分用户希望鸿蒙系统通过不断优化以提升系统的稳定性和用户体验。从主题2中的高频特征词可以看出,随着HarmonyOS 2.0内测版的推出,广大用户对申请获得内测版系统的体验资格满怀期待。主题3通过“流畅”“丝滑”“操作”“厉害”等特征词可以得出鸿蒙操作系统在流畅度方面深受用户赞扬。主题4中的“兼容”“安卓”“适配”“软件”等词反应鸿蒙系统对安卓应用有很好的兼容性,减小了更换操作系统的成本,受到用户的普遍好评。而差评集主要存在两个潜在主题,通过主题1中的“抄袭”“安卓”“iOS”“怀疑”等特征词可以得出,有部分用户因鸿蒙系统与安卓应用的兼容性高,操作界面与iOS及安卓系统存在相似部分而怀疑鸿蒙系统是基于原生安卓开发的一款套壳系统,但经过查阅相关资料发现,其观点是不成立的,属于对国产操作系统的恶意诋毁。主题2中的“苹果”“生态”“软件”“掉帧”等词说明部分用户认为鸿蒙系统目前的软件生态圈不及iOS,并且在细节以及优化方面逊色于iOS,偶尔会出现掉帧的情况。
6 结语
该文结合描述性分析与情感倾向分析两个角度挖掘评论中隐藏的信息。在描述性分析方面,主要使用TF-IDF算法提取关键词,并结合词频生成词云图进行可视化分析。在情感倾向分析方面,该文通过训练自定义语料库的方法,基于SnowNlp情感分析模型判断鸿蒙系统在线评论情感倾向,并使用LDA主题模型分别挖掘好评集与差评集的潜在主题,对用户评论进行深度分析。有利于对鸿蒙系统用户评论进行客观整体的分析,反映用户群体的真实感受,并对其他手机系统用户是否使用鸿蒙系统具有参考和实践意义。
参考文献
[1] 吴薛凯,刘天波,胡文馨.基于网络爬虫的Java行业的就业分析[J].科技资讯,2021,19(2):13-16.
[2] 杨春晓,张鹤馨,黄家雯,等.卷烟在线评论的文本情感分析[J].中国烟草学报,2020,26(2):92-100.
[3] 周欢,秦天琦.基于在线评论情感分析与LDA的物流服务质量影响因素研究[J/OL].重庆工商大学学报:社会科学版:1-17[2021-08-17].https://www.kns.cnki.net/kcms/detail/50.1154.C.20210528.0837.002.html.
[4] 辛雨璇,王晓东.基于文本挖掘的电影评论情感分析研究[J].牡丹江师范学院学报:自然科学版,2021(1):25-28.
[5] 刘敏,王向前,李慧宗,等.基于文本挖掘的网络商品评论情感分析[J].辽宁工业大学学报:自然科学版,2018,38(5):330-335.
[6] 吴瑞媛.线上用户评价信息的文本挖掘分析[D].天津:天津财经大学,2019.
[7] 陈亮,王刚,王震.并行LDA主题模型在电力客服工单文本挖掘中的应用[J].科技创新导报,2017,14(12):245-248,250.
关键词:网络爬虫 情感分析 LDA 文本挖掘
中圖分类号:TP391.1 文献标识码:A文章编号:1672-3791(2021)06(a)-0026-04
Sentiment Analysis and Research of User Comments on Hongmeng System Based on Text Mining
CHEN Nuoyi SHAN Jing* WANG Jiaying SHI Lulu
(School of Information and Control Engineering, Shenyang Jianzhu University, Shenyang, Liaoning Province, 110168 China)
Abstract: With the progress of science and technology, the first domestic mobile phone operating system developed by Huawei has been successfully launched, which has aroused strong social response. Based on web crawler fetching user comments as an example, the evaluation model is established based on the review data. Three methods are mainly used: text descriptive analysis, SnowNlp sentiment analysis and LDA potential topic mining method, conducting text mining analysis on user comments from different perspectives to find out the emotional tendency, user opinions and other deep information hidden behind thebig data of comments. It is helpful for enterprises to understand the user experience and word of mouth dynamic. The evaluation effect of the analysis model in this paper has a high credibility, and the research method adopted is also applicable to e-commerce comment analysis, social public opinion analysis and other aspects.
Key Words: Web crawler; Sentiment analysis; LDA; Text mining
鸿蒙OS是一款“面向未来”的操作系统,一款基于微内核的面向全场景的分布式操作系统,是由华为开发人员打造的国产手机系统。对于鸿蒙系统的正式发布,国内用户纷纷通过网络平台发布对该系统的评论看法,用户的评论信息包括了客观评论与主观评论,而主观评论占比极高,该文通过采集B站(某自媒体视频网站)关于鸿蒙系统视频底部的用户评论信息,建立相关的文本挖掘模型对评论信息进行深度挖掘。
1 研究方法
该文对选取的关于鸿蒙系统在线评论利用八爪鱼采集工具,设定采集规则。主要抓取的内容为用户评论信息。对于抓取的数据进行数据清洗,包括文本去重、去空值、剔除广告信息与无意义评论、中文文本分词等操作。通过将自主构建的关于手机系统的语料库导入到snownlp情感分析模型中进行无监督训练,以提高模型预测准确率,并利用TF-IDF算法的思想,提取评论中的关键词以及词频;利用LDA潜在主题挖掘模型深入分析好评集和差评集。最后通过上述分析结果,剖析鸿蒙系统产品问题。图1为研究主要路线图。
2 在线评论获取
挖掘用户关于华为鸿蒙系统在线评论中隐含的信息,首先需要利用网络爬虫获取大量的在线评论。获取在线评论数据主要通过编写数据采集程序(称为网络爬虫),网络爬虫可以自动爬取网页,获取网页的内容[1]。该文通过一款完全自主研发的分布式云平台——八爪鱼采集器,自动获取B站用户在线评论数据,爬取的评论数据见表1。
3 数据预处理
利用网络爬虫工具从网站采集的用户评论数据存在较多的无用数据,会对实验结果产生较大的影响。数据预处理主要去除不完整的、不一致的数据并排除低质量的数据,预处理过后的数据可以提高实验结果的准确率,下面将主要阐述对原始数据集进行预处理的过程。 3.1 数据清洗
爬取到的评论文本中存在较多重复行、特殊字符及英文字符,并且用户可以自由发表对评论主体的主观意见,评论内容具有极强的随意性,评论质量得不到保证。在研究过程中,主要使用Python语言编写相关程序对文本长度大于20的重复评论以及特殊字符、英文字符进行剔除。对于满足基本格式,但是无法进行情感分析的无意义语句进行手动剔除[2]。
3.2 中文文本分词
在中文文本中,词与词之间的界限往往比较模糊,而在模型分析过程中,尤其是关键词提取、潜在主题词挖掘等,合理地进行中文文本分词尤为重要。该文采用Python中优秀的中文分词第三方库jieba,jieba分词主要利用中文词库,确定汉字之间的关联概率,汉字间关联概率大的组成词组,从而形成分词结果,其分词准确率较高[3]。另外,对于一些分词不太理想的词汇可以通过jieba库中的load_userdict函数导入用户自定义词典的方法解决,对于一些无意义的停用词,如“的”“我们”“@”“!”等,可以利用set_stop_words函数导入停用词词典,并通过extract_tags函数去除文本中的停用词,部分文本的分词结果如图2所示。
4 评论文本描述性分析
4.1 基于TF-IDF算法提取关键词
TF-IDF是一种统计方法,用于评估一字词对于一个文档集或者一个语料库中某个文件的重要程度,字词的重要性随着其在文件中出现的次数呈正比增加,但同时随着其在语料库中出现的频率呈反比下降。利用TF-IDF对鸿蒙系统在线评论分词进行统计,得到top50关键词及其权重,部分内容见表2。
其中,TF为一篇文档中字词的词频;IDF为逆文档频率,用于衡量字词在所有文档中出现的普遍程度;TF-IDF则为两者乘积。上述公式中,Ni,j为字词在文档D中出现的频次;为文档D中词条的总数,D为语料库中总文档数量;为包含词條T的总文档数[4]。
4.2 可视化评论描述
基于wordart在线词云图生成工具实现鸿蒙系统评论的描述性可视化,通过词云图(见图3)可以直观地突出评论文本中出现频率较高的关键词,从而形成“关键词渲染”。
5 在线评论情感倾向分析
关于在线评论文本的描述性分析能够在一定程度上对鸿蒙系统的评价进行描述,但不能挖掘出这些评论信息所蕴含的情感倾向,为了更加深入地挖掘评论文本中的信息,需要对在线评论进行情感分析,利用Python类库SnowNlp预测评论文本的情感倾向,并分别对正面评论与负面评论进行分类,分析其各自蕴含的主题[5]。
5.1 情感分析结果
该文使用手机系统在线评论的自定义语料库训练情感分析模型,以提高情感预测准确率,SnowNLP 情感分析将短文本的情感程度表示为[0,1]区间的情感分值,得分在0~0.5之间为负面评价,在0.5~1.0之间为正面评价,得分为0.5则视作中性评价[6]。通过统计实际数据,得到分类效果的评价,笔者把从网络上搜集的2 185条评价进行人工情感极性标注,作为情感分析测试集,测试结果表示,经过训练的SnowNlp情感分析模型的预测准确率达到87.3%,准确率较高。该文使用训练好的模型对鸿蒙系统评论进行情感分类,得到正面评论和负面评论两个文档。其中正面评论共有38 897条,负面评论10 084条,中性评论856,分别占总评论数的比重为78.05%、20.23%、1.72%。
5.2 基于LDA模型的主题挖掘分析
LDA主题模型是文本挖掘领域的典型模型,可以在语料文本中抽取潜在主题,为研究者提供了量化分析主题的方法[7],该文从好评集和差评集这两个文档分别进行主题划分,从而进行评论数据的情感分析研究。以上两个文档的主题挖掘结果见表3和表4。结果显示,该手机系统正面评论较多,用户对鸿蒙系统总体满意,由好评集主题词推测得出4个主题,从主题1得出国内用户普遍看鸿蒙,认为鸿蒙是一款让国人引以为豪的自主研发的国产手机操作系统,并且绝大部分用户希望鸿蒙系统通过不断优化以提升系统的稳定性和用户体验。从主题2中的高频特征词可以看出,随着HarmonyOS 2.0内测版的推出,广大用户对申请获得内测版系统的体验资格满怀期待。主题3通过“流畅”“丝滑”“操作”“厉害”等特征词可以得出鸿蒙操作系统在流畅度方面深受用户赞扬。主题4中的“兼容”“安卓”“适配”“软件”等词反应鸿蒙系统对安卓应用有很好的兼容性,减小了更换操作系统的成本,受到用户的普遍好评。而差评集主要存在两个潜在主题,通过主题1中的“抄袭”“安卓”“iOS”“怀疑”等特征词可以得出,有部分用户因鸿蒙系统与安卓应用的兼容性高,操作界面与iOS及安卓系统存在相似部分而怀疑鸿蒙系统是基于原生安卓开发的一款套壳系统,但经过查阅相关资料发现,其观点是不成立的,属于对国产操作系统的恶意诋毁。主题2中的“苹果”“生态”“软件”“掉帧”等词说明部分用户认为鸿蒙系统目前的软件生态圈不及iOS,并且在细节以及优化方面逊色于iOS,偶尔会出现掉帧的情况。
6 结语
该文结合描述性分析与情感倾向分析两个角度挖掘评论中隐藏的信息。在描述性分析方面,主要使用TF-IDF算法提取关键词,并结合词频生成词云图进行可视化分析。在情感倾向分析方面,该文通过训练自定义语料库的方法,基于SnowNlp情感分析模型判断鸿蒙系统在线评论情感倾向,并使用LDA主题模型分别挖掘好评集与差评集的潜在主题,对用户评论进行深度分析。有利于对鸿蒙系统用户评论进行客观整体的分析,反映用户群体的真实感受,并对其他手机系统用户是否使用鸿蒙系统具有参考和实践意义。
参考文献
[1] 吴薛凯,刘天波,胡文馨.基于网络爬虫的Java行业的就业分析[J].科技资讯,2021,19(2):13-16.
[2] 杨春晓,张鹤馨,黄家雯,等.卷烟在线评论的文本情感分析[J].中国烟草学报,2020,26(2):92-100.
[3] 周欢,秦天琦.基于在线评论情感分析与LDA的物流服务质量影响因素研究[J/OL].重庆工商大学学报:社会科学版:1-17[2021-08-17].https://www.kns.cnki.net/kcms/detail/50.1154.C.20210528.0837.002.html.
[4] 辛雨璇,王晓东.基于文本挖掘的电影评论情感分析研究[J].牡丹江师范学院学报:自然科学版,2021(1):25-28.
[5] 刘敏,王向前,李慧宗,等.基于文本挖掘的网络商品评论情感分析[J].辽宁工业大学学报:自然科学版,2018,38(5):330-335.
[6] 吴瑞媛.线上用户评价信息的文本挖掘分析[D].天津:天津财经大学,2019.
[7] 陈亮,王刚,王震.并行LDA主题模型在电力客服工单文本挖掘中的应用[J].科技创新导报,2017,14(12):245-248,250.