基于文本挖掘的鸿蒙系统用户评论情感分析与研究

来源 :科技资讯 | 被引量 : 0次 | 上传用户：a139471569

【摘要】

：

【作者】

：

陈诺祎单菁王佳英石璐璐

【出处】

：

科技资讯

【发表日期】

：

2021年16期

【关键词】

：

网络爬虫情感分析 LDA 文本挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：随着科技的进步，由华为自主研发的首个国产手机操作系统成功问世，引起社会强烈反响。该文以网络爬虫抓取的用户评论为例，基于评论数据建立评估模型，主要使用文本描述性分析、SnowNlp情感分析和LDA潜在主题挖掘这3种方法，从不同角度对用户评论进行文本挖掘分析，找出评论大数据背后隐含的情感倾向、用户观点等深层信息，有助于企业了解用户的使用体验与口碑动态。该文分析模型的评估效果可信度较高，所采用的研究方法也适用于电商评论分析、社会舆情分析等方面。
　　关键词：网络爬虫情感分析 LDA 文本挖掘
　　中圖分类号：TP391.1 文献标识码：A文章编号：1672-3791（2021）06（a）-0026-04
　　Sentiment Analysis and Research of User Comments on Hongmeng System Based on Text Mining
　　CHEN Nuoyi SHAN Jing* WANG Jiaying SHI Lulu
　　（School of Information and Control Engineering， Shenyang Jianzhu University， Shenyang， Liaoning Province， 110168 China）
　　Abstract： With the progress of science and technology， the first domestic mobile phone operating system developed by Huawei has been successfully launched， which has aroused strong social response. Based on web crawler fetching user comments as an example， the evaluation model is established based on the review data. Three methods are mainly used： text descriptive analysis， SnowNlp sentiment analysis and LDA potential topic mining method， conducting text mining analysis on user comments from different perspectives to find out the emotional tendency， user opinions and other deep information hidden behind thebig data of comments. It is helpful for enterprises to understand the user experience and word of mouth dynamic. The evaluation effect of the analysis model in this paper has a high credibility， and the research method adopted is also applicable to e-commerce comment analysis， social public opinion analysis and other aspects.
　　Key Words： Web crawler; Sentiment analysis; LDA; Text mining
　　鸿蒙OS是一款“面向未来”的操作系统，一款基于微内核的面向全场景的分布式操作系统，是由华为开发人员打造的国产手机系统。对于鸿蒙系统的正式发布，国内用户纷纷通过网络平台发布对该系统的评论看法，用户的评论信息包括了客观评论与主观评论，而主观评论占比极高，该文通过采集B站（某自媒体视频网站）关于鸿蒙系统视频底部的用户评论信息，建立相关的文本挖掘模型对评论信息进行深度挖掘。
　　1 研究方法
　　该文对选取的关于鸿蒙系统在线评论利用八爪鱼采集工具，设定采集规则。主要抓取的内容为用户评论信息。对于抓取的数据进行数据清洗，包括文本去重、去空值、剔除广告信息与无意义评论、中文文本分词等操作。通过将自主构建的关于手机系统的语料库导入到snownlp情感分析模型中进行无监督训练，以提高模型预测准确率，并利用TF-IDF算法的思想，提取评论中的关键词以及词频;利用LDA潜在主题挖掘模型深入分析好评集和差评集。最后通过上述分析结果，剖析鸿蒙系统产品问题。图1为研究主要路线图。
　　2 在线评论获取
　　挖掘用户关于华为鸿蒙系统在线评论中隐含的信息，首先需要利用网络爬虫获取大量的在线评论。获取在线评论数据主要通过编写数据采集程序（称为网络爬虫），网络爬虫可以自动爬取网页，获取网页的内容[1]。该文通过一款完全自主研发的分布式云平台——八爪鱼采集器，自动获取B站用户在线评论数据，爬取的评论数据见表1。
　　3 数据预处理
　　利用网络爬虫工具从网站采集的用户评论数据存在较多的无用数据，会对实验结果产生较大的影响。数据预处理主要去除不完整的、不一致的数据并排除低质量的数据，预处理过后的数据可以提高实验结果的准确率，下面将主要阐述对原始数据集进行预处理的过程。　　3.1 数据清洗
　　爬取到的评论文本中存在较多重复行、特殊字符及英文字符，并且用户可以自由发表对评论主体的主观意见，评论内容具有极强的随意性，评论质量得不到保证。在研究过程中，主要使用Python语言编写相关程序对文本长度大于20的重复评论以及特殊字符、英文字符进行剔除。对于满足基本格式，但是无法进行情感分析的无意义语句进行手动剔除[2]。
　　3.2 中文文本分词
　　在中文文本中，词与词之间的界限往往比较模糊，而在模型分析过程中，尤其是关键词提取、潜在主题词挖掘等，合理地进行中文文本分词尤为重要。该文采用Python中优秀的中文分词第三方库jieba，jieba分词主要利用中文词库，确定汉字之间的关联概率，汉字间关联概率大的组成词组，从而形成分词结果，其分词准确率较高[3]。另外，对于一些分词不太理想的词汇可以通过jieba库中的load_userdict函数导入用户自定义词典的方法解决，对于一些无意义的停用词，如“的”“我们”“@”“！”等，可以利用set_stop_words函数导入停用词词典，并通过extract_tags函数去除文本中的停用词，部分文本的分词结果如图2所示。
　　4 评论文本描述性分析
　　4.1 基于TF-IDF算法提取关键词
　　TF-IDF是一种统计方法，用于评估一字词对于一个文档集或者一个语料库中某个文件的重要程度，字词的重要性随着其在文件中出现的次数呈正比增加，但同时随着其在语料库中出现的频率呈反比下降。利用TF-IDF对鸿蒙系统在线评论分词进行统计，得到top50关键词及其权重，部分内容见表2。
　　其中，TF为一篇文档中字词的词频;IDF为逆文档频率，用于衡量字词在所有文档中出现的普遍程度;TF-IDF则为两者乘积。上述公式中，Ni，j为字词在文档D中出现的频次;为文档D中词条的总数，D为语料库中总文档数量;为包含词條T的总文档数[4]。
　　4.2 可视化评论描述
　　基于wordart在线词云图生成工具实现鸿蒙系统评论的描述性可视化，通过词云图（见图3）可以直观地突出评论文本中出现频率较高的关键词，从而形成“关键词渲染”。
　　5 在线评论情感倾向分析
　　关于在线评论文本的描述性分析能够在一定程度上对鸿蒙系统的评价进行描述，但不能挖掘出这些评论信息所蕴含的情感倾向，为了更加深入地挖掘评论文本中的信息，需要对在线评论进行情感分析，利用Python类库SnowNlp预测评论文本的情感倾向，并分别对正面评论与负面评论进行分类，分析其各自蕴含的主题[5]。
　　5.1 情感分析结果
　　该文使用手机系统在线评论的自定义语料库训练情感分析模型，以提高情感预测准确率，SnowNLP 情感分析将短文本的情感程度表示为[0，1]区间的情感分值，得分在0～0.5之间为负面评价，在0.5～1.0之间为正面评价，得分为0.5则视作中性评价[6]。通过统计实际数据，得到分类效果的评价，笔者把从网络上搜集的2 185条评价进行人工情感极性标注，作为情感分析测试集，测试结果表示，经过训练的SnowNlp情感分析模型的预测准确率达到87.3%，准确率较高。该文使用训练好的模型对鸿蒙系统评论进行情感分类，得到正面评论和负面评论两个文档。其中正面评论共有38 897条，负面评论10 084条，中性评论856，分别占总评论数的比重为78.05%、20.23%、1.72%。
　　5.2 基于LDA模型的主题挖掘分析
　　LDA主题模型是文本挖掘领域的典型模型，可以在语料文本中抽取潜在主题，为研究者提供了量化分析主题的方法[7]，该文从好评集和差评集这两个文档分别进行主题划分，从而进行评论数据的情感分析研究。以上两个文档的主题挖掘结果见表3和表4。结果显示，该手机系统正面评论较多，用户对鸿蒙系统总体满意，由好评集主题词推测得出4个主题，从主题1得出国内用户普遍看鸿蒙，认为鸿蒙是一款让国人引以为豪的自主研发的国产手机操作系统，并且绝大部分用户希望鸿蒙系统通过不断优化以提升系统的稳定性和用户体验。从主题2中的高频特征词可以看出，随着HarmonyOS 2.0内测版的推出，广大用户对申请获得内测版系统的体验资格满怀期待。主题3通过“流畅”“丝滑”“操作”“厉害”等特征词可以得出鸿蒙操作系统在流畅度方面深受用户赞扬。主题4中的“兼容”“安卓”“适配”“软件”等词反应鸿蒙系统对安卓应用有很好的兼容性，减小了更换操作系统的成本，受到用户的普遍好评。而差评集主要存在两个潜在主题，通过主题1中的“抄袭”“安卓”“iOS”“怀疑”等特征词可以得出，有部分用户因鸿蒙系统与安卓应用的兼容性高，操作界面与iOS及安卓系统存在相似部分而怀疑鸿蒙系统是基于原生安卓开发的一款套壳系统，但经过查阅相关资料发现，其观点是不成立的，属于对国产操作系统的恶意诋毁。主题2中的“苹果”“生态”“软件”“掉帧”等词说明部分用户认为鸿蒙系统目前的软件生态圈不及iOS，并且在细节以及优化方面逊色于iOS，偶尔会出现掉帧的情况。
　　6 结语
　　该文结合描述性分析与情感倾向分析两个角度挖掘评论中隐藏的信息。在描述性分析方面，主要使用TF-IDF算法提取关键词，并结合词频生成词云图进行可视化分析。在情感倾向分析方面，该文通过训练自定义语料库的方法，基于SnowNlp情感分析模型判断鸿蒙系统在线评论情感倾向，并使用LDA主题模型分别挖掘好评集与差评集的潜在主题，对用户评论进行深度分析。有利于对鸿蒙系统用户评论进行客观整体的分析，反映用户群体的真实感受，并对其他手机系统用户是否使用鸿蒙系统具有参考和实践意义。
　　参考文献
　　[1] 吴薛凯，刘天波，胡文馨.基于网络爬虫的Java行业的就业分析[J].科技资讯，2021，19（2）：13-16.
　　[2] 杨春晓，张鹤馨，黄家雯，等.卷烟在线评论的文本情感分析[J].中国烟草学报，2020，26（2）：92-100.
　　[3] 周欢，秦天琦.基于在线评论情感分析与LDA的物流服务质量影响因素研究[J/OL].重庆工商大学学报：社会科学版：1-17[2021-08-17].https：//www.kns.cnki.net/kcms/detail/50.1154.C.20210528.0837.002.html.
　　[4] 辛雨璇，王晓东.基于文本挖掘的电影评论情感分析研究[J].牡丹江师范学院学报：自然科学版，2021（1）：25-28.
　　[5] 刘敏，王向前，李慧宗，等.基于文本挖掘的网络商品评论情感分析[J].辽宁工业大学学报：自然科学版，2018，38（5）：330-335.
　　[6] 吴瑞媛.线上用户评价信息的文本挖掘分析[D].天津：天津财经大学，2019.
　　[7] 陈亮，王刚，王震.并行LDA主题模型在电力客服工单文本挖掘中的应用[J].科技创新导报，2017，14（12）：245-248，250.

其他文献

丙泊酚联合依托咪酯对门诊无痛胃镜检查应用效果

目的观察丙泊酚联合依托咪酯在门诊无痛胃镜检查中的应用效果。方法选取2018-06-01-2019-12-31南京市高淳人民医院门诊行无痛胃镜检查120例患者为研究对象,按照组间匹配的原则分为对照组和观察组,各60例。胃镜检查前,对照组静脉推注1%丙泊酚0.2mL/kg,观察组静脉推注1%丙泊酚与0.2%依托咪酯体积比2∶1混合液0.2mL/kg,比较2组患者麻醉效果和不良反应。结果观察组心率(HR)波动值为(13.76±2.18)次/min,优于对照组的(25.63±2.52)次/min,t=27.594

期刊

丙泊酚依托咪酯无痛胃镜血流动力学不良反应满意度

内镜黏膜下剥离术治疗胃角异位胰腺一例并文献复习

异位胰腺在临床上极少见,是一种先天性发育异常的疾病,是胚胎发育过程中胰芽于正常胰腺解剖位置以外衍生而成的孤立胰腺组织。异位胰腺的血管供应及神经支配具有独立性,部分组织含有腺泡、腺管结构及胰岛细胞,引起多种消化酶和激素等物质的分泌,故在临床上也被称作副胰腺、胰腺剩余或迷走胰腺[1-2]。

期刊

胃角黏膜下隆起异位胰腺内镜黏膜下剥离术病例报告

低年资ICU护士自我怜悯和应对方式与职业倦怠相关性研究

目的探讨出生日期为1990-01-01-1999-12-31(简称“90后”)低年资ICU护士自我怜悯、应对方式与职业倦怠的相关性,为培养低年资ICU护士自我怜悯能力和积极应对方式以及减轻护士职业倦怠提供相应依据。方法2019-02-01对南阳医学高等专科学校3所附属医院(第一附属医院116名,第二附属医院68名,第三附属医院62名)的246名ICU护士进行问卷调查。将问卷制作成电子问卷,问卷首页设置统一指导语,以问卷星的方式进行调查。包括ICU一般资料调查表、自悯量表、简易应对方式量表及护士职业倦怠

期刊

ICU低年资护士自我怜悯应对方式职业倦怠

叙事典籍翻译的“声音”策略:以敦煌遗书《孔子项讬相问书》的英译为例

与其它文类相比较,叙事典籍所包含的文化信息更丰富,翻译中译者需面对的翻译问题也会更多.尽管"厚译"是目前典籍翻译的主流方法或策略,但是如果一贯采用该策略处理叙事典籍中的翻译问题,势必会影响目标语叙事的流畅和连续性.对此,"译者是否会进行策略调整,如何进行策略调整"的问题有待探究.采用描写研究方法,通过观察敦煌遗书《孔子项讬相问书》等叙事文献的英译决策规律,可对该问题进行解答.

期刊

叙事典籍翻译“声音”策略

基于产出导向法的高职公共英语课程思政实践探索——以《新技能英语高级教程2》第六单元为例

课程思政是目前高等教育研究的一个热点,然而落实在课程实践层面还存在着很多困难。该文以高职公共英语课程一个单元的教学实践为例,从教学目标、教学内容、教学方法、教学实施过程和教学评价五个方面,探讨高职公共英语课程思政的实现路径,以期探索课程思政的有效教学模式,为全面课程思政提供参考。

期刊

课程思政产出导向法育人目标教学内容教学评价

排针刺法防治足踝部早期急性骨筋膜室综合征的临床探讨

足踝部骨筋膜室综合征(FCS)在临床上并不少见,一旦失治误治将导致功能障碍和潜在的肢体丧失。手术切开减压加重了软组织损伤,增加了感染风险,可能皮肤缺损过大需要皮瓣移植手术。我们应用排针防治足踝部早期急性骨筋膜室综合征,经过多年的临床验证,取得良好的疗效。

期刊

排针足踝早期急性骨筋膜室综合征

基于络病学说探讨“脾之大络—气血—络脉”血循轴构建及意义

本文基于《类经》对脾之大络的阐义,即:脾大络总统阴阳诸络,包罗诸络之血,是络脉之枢纽、络血之总闸,具有“变化莫测,混合阴阳”之功效。受西医“心脏—血液—脉管”组成的血液循环系统的启发,提出构建“脾之大络—气血—络脉”的中医络血血循理论,从中医络血循环方面浅析了脾之大络对脾气散精、脾主升清的作用机制,这可能促进络脉学说向系统完整的学术理论体系发展,也可能有助于提高难治性重大疾病的防治水平。

期刊

脾之大络气血络脉

基于窍腠三焦理论探讨周衡教授治疗痰饮病

痰饮病是一种常见的全身性疾病,其表现形式多样:或呕、或渴、或小便不利、或身疼痛、或头眩等常见症状。周衡教授经过多年临床与教学经验,对痰饮病有深入的研究,从《金匮要略》入手,以“窍腠三焦”通道为视角,联系饮病的周身表现,得出人体九窍、腠理与三焦是一个水液运行和代谢的通道,并提出具有临床指导价值的相关痰饮病治法。

期刊

窍腠理三焦痰饮周衡《金匮要略》《黄帝内经》

中法第三方市场合作:过程、特征与启示

在第三方市场合作问题上,中法是最早达成共识并进行实践的国家。两国第三方市场合作大体可分为酝酿、启动和发展三个阶段,主要是在能源、物流运输、气候环保等领域进行了有价值的探索,并呈现出合作类型多样、注重第三国需求、沟通机制稳定等主要特征。尽管如此,双方在第三方市场合作的机制上依然存在不完善之处,加之大国战略误判以及新冠肺炎疫情等不确定因素的存在,都对后疫情时代的中法第三方市场合作构成了挑战。本文认为,中法第三方市场合作前景十分广阔,双方应大力加强政治对话,更加积极地参与国际组织和相关机制建设,不断拓宽合作领域

期刊

第三方市场合作中法关系“一带一路”倡议中法非合作国际政治经济学

基于改进DeepLabv3plus算法的遥感图像海岛建筑提取方法

目前海岛经济快速发展,为避免海岛建筑无序扩建,了解海岛建筑分布特征尤为重要。机器学习方法是从高分遥感影像提取地物目标的常见方式,然而建筑物遥感特征复杂,机器学习方法出现鲁棒性差、难以充分挖掘深层次特征的弊端。文章提出基于DeepLabv3plus网络模型的深度学习语义分割方法提取海岛建筑,并对网络结构进行改进,使用组归一化(GN)方法替代批归一化(BN)以适合小batch size下的语义分割操作

期刊

DeepLabv3plus样本自动标注海岛建筑语义分割迁移学习

基于文本挖掘的鸿蒙系统用户评论情感分析与研究

与本文相关的学术论文