面向中医药领域的文本情感分析及研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:shijiuliangaijujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:该文统计分析人们每年对中医药文化的认可度、喜好程度的情感倾向。为中医药学者提供数据参考,分析现状,反思历史,明确目标以迎接中医药的美好未来。方法:(1)基于爬虫技术,获取微博用户2015-2019年对中医药的评价,并进行数据收录和相关整理,对不规范的数据进行统一编码和删除等,使用Jieba分词辅助数据预处理。(2)获取现有经典情感词库如HowNet等等,基于TF-IDF
  计方法、Word2vec等方法扩增词向量,构建中医药领域情感分析词典。(3)采用情感极性词典分类算法、Naive Ba-ces分类算法以及CNN模型分类算法对获取的文本数据进行分类处理。结论:2015-2019年认同中医药文化的比率分别为:94.5%,95.0%,88.4%,95.4%,90.9%,可用NPL分析中医药认同度状况。
  关键词:中医药;情感分析;微博;自然语言处理
  中图分类号:TP3 文献标识码:A
  文章编号:1009-3044(2019)33-0174-03
  1概述
  中医药文化博大精深,是我国传承了几千年的国粹瑰宝,中医对中国人民的健康,甚至是人类的健康都有重大的贡献。中医它的治病方式和其良好的治疗效果,广泛传播、应用于世界各地。但因西医技术的引入、外来文化的冲击,其影响能力和医学价值受到了挑战。本文针对问卷调查人们对中医药的接受程度,前期工作费时费力的问题,采用自然处理技术对网上文本进行情感分析,可以直接获取评论者对中医认同度的情感倾向,直观快速反映出人们的态度。
  2数据分析
  随着信息时代的进步与发展,人们在网络上陈述自己观点和情感的比例逐渐上升,使用微博的用户规模猛增、月活跃数早已突破4亿人次,微博已成为表达个人情感和观点的重要媒体。结合微博短文本、数据易获取、实时陸、信息来源多样性等特点,人们的观点可以一目了然具有代表性。因此以微博的评论对中医药进行情感喜好的分类研究十分有意义。
  2.1数据来源
  本文利用python及爬虫技术爬取新浪微博的数据,通过设置“中医”“态度”“观点”等关键词获取网民2015年1月-2019年5月间发表的动态、文章、评论等内容。
  从微博获取的原数据共932774条,其中2015年60586条,2016年53920条,2017年54183条,2018年44513条、2019年719572条。由于互联网文本数据中包含了大量噪声,此类噪声会影响文本正确分类结果,因此对数据预处理文本后的数据有873337条,其中2015年47335条,2016年45353条,2017年47865条,2018年41149条、2019年691635条。
  结合Qiu等设计隋感词库:HowNet情感分析用词集(beta版)、台湾大学NTUSD简体中文情感词典以及网上大量的情感词。通过人工删除不符合本领域的情感词。结合TF-IDF得出本领域较高频次的词但在词典中得词,利用Word2vec算法根据分完类的词典求得本领域中的相似词,挑选在领域中有意义的情感词进行情感词扩增。最终得到积极词汇3960个,消极词汇4046个,否定词268个,程度副词212个、转折词13个。
  2.2数据预处理
  本文规范数据标准如下:
  (1)刪除微商卖中医药广告信息、中医药用法介绍等客观或无关的数据;
  (2)删除同一人发布多条相同内容的数据,仅保留一条;
  (3)删除文本字符过长的信息;
  (4)删除格式错误的信息。
  去除文本中噪声方式如下:
  (1)删除文本中经过转换编码仍不能识别的字符(格式:\uOOx)、回复消息(格式://@某人:)、超链接URL(格式:“http://t.ahjkl823”)、特殊表情和网页标签等;
  (2)采用Jieba分词技术,自定义停用词、词库,对于中医药领域需要的单词,增加本领域词如“中医黑”,删除词性标注中不能识别或不能使用的词。
  分词及词性标注见表1,自定义词库及停用词分词结果展示见表2。
  2.3数据分类统计
  本文的训练数据由一人评判两人审核的方法评判了认同、反对中医药倾向的数据各1500条,保证训练与测试数据的准确性。中医药有关文本分类划分原则如下:
  (1)采用二分划分,分为认同中医药倾向和不认同中医药倾向两种态度;(2)选取文本中含有明显有关中医药感情词划分为对中医药的认同度倾向;(3)对无感情词但采用中医药治病或-转发中医药的相关文章划分认同等级;(4)举行中医药活动达到宣传作用划分为认同倾向。
  本文对二类划分采用准确率、F1-score作为评价标准。计算公式如下所示:
  其中TP为支持中医药,被正确划分的文本;FP为支持中医药,被错误划分的文本;FN为反对中医药,被正确划分的文本;TN为反对中医要,被错误划分的文本。
  3算法应用研究
  3.1基于情感强度的词典分类
  基于词典的方式本文采用的是基于句子级别的分析。根据中文的语法格式,提取本文的需要的句子语法格式是由积极、消极情感词、否定词及程度副词等3种词组成,并分别给三种词汇设置不同的情感强度判定认可程度。此外句子中还包含连词以及转折词,对于连词的形式分数累乘,当出现转折词时,转折词前面分值计算方式不变,转折词后面情感分值加倍。句式划分见表3。
  图1为基于词典算法流程及流程图的简单介绍:
  (1)输入待分类的文本、载人各诃陸的词典。
  (2)对载人的文本分词、停用词及词性标注,删除冗余数据。
  (3)修改的文本进行向量化词组。   (4)用逆序组合文本方式,逐词判别词语词性,符合句式计算其得分,反之继续扫描。
  (5)扫描到第一个词向量时结束扫描,计算所有句式总分,由分值区间确定最终分类。
  在基于词典分类方式中,采用句子级别的分类中,经过数据清洗的准确率是0.593,除O分准确率为0.599;增加词典和词向量后的准确率是0.612,除0分后准确率为0.622。
  3.2基于朴素贝叶斯分类
  首先块结合TF-IDF进行特征词向量的提取,对于出现次数极少词汇进行过滤剔除,避免占用存储空间出现矩阵稀疏以及词的向量过多产生维度灾难等等问题。其次将标注好的数据进行随机选取训练数据及测试数据,并应用到自己的算法中,对数据进行预測。
  朴素贝叶斯算法步骤具体实现流程及流程图见图2:
  (1)输入所有训练文本数据,对出现的词汇进行统计。
  (2)删除经常出现的无关词汇,以及次数小于10次的词汇。
  (3)求解每个类别中各词汇出现的频率,计算条件概率。
  (4)判断测试文本中每个特征词在两个分类中的概率。
  (5)对于每个文本取较大概率的分类为该文本的分类结果。
  朴素贝叶斯分类结果为:经过数据清洗的F1-Score是0.457,准确率为0.470;增加词典和词向量后的F1-Score是0.530,准确率为0.625。
  3.3基于卷积神经网络分类
  本文开发环境是基于Theano和keras深度学习库。结合CNNt61及word2vec提取特征向量。设计了多组参数进行实验寻找最合适的参数,见表4部分参数的实验结果。
  采用ReLu函数、10折交叉检验,第13组参数最优,准确率:0.808,F1-Score.-0.762。
  4结束语
  实验结果表明上述三种计算文本分类的方式中,CNN算法的准确率明显要高于其他两种算法,故本文最终采用CNN模型对中医药领域的评论数据观点进行分析。分类2015年到2019年度中医药评论的数据,得到各年度中医药的认可率见表5所示。
  由表5可知,支持中医药的人数远高于不支持中医药的人数。人们对中医认可度仍然是很高的,但也有小部分人对中医抱有抵制态度。对比近五年人们对中医的认可度人数占比较为稳定,唯有2017年为88.4%,分析当年有关中医药事件,发现17年某中医院发生重大医疗事故,影响了中医的发展,同年中央发布了一系列宣传发扬中医的文件,及时阻止了这次中医事态的余波,并且次年认同率达到了近五年巅峰。因此国家适当的调控中医药的宣传建设,有助于中医药的发展。
  在词典和朴素贝叶斯分类方式中采用了领域内的自定义词典后的数据准确率明显提升。说明词典、特征提取高质量的重要性。后期将完善全面覆盖本领域的词典,增加人工评判的数据。其中总朴素贝叶斯算法分类过程中时空开销小,算法运算速度快,能够快速地获取数据的分类结果,可以实时判断每条数据的情感倾向。词典分类算法结合了情感词的极性、词间的词性关系,但更加人性化,但是句子级别的分类方式忽略主从句式的关系,可以采用基于上下文语句的方式进行分析。CNN的Embedding为静态形式,容易混淆积极、消极词识别,但识别效果较高,后续可采用动态形式。最后希望我国继续弘扬中医国粹,传播中医文化。
其他文献
摘要:随着中国科学技术的发展,数字信号处理技术在社会经济发展过程中所发挥的作用越来越大。数字信号处理技术在电子信息工程中有一定的使用优势,有助于推动技术水平的提升,促进电子信息工程的健康发展。本文主要分析了数字信号处理技术的优势,提出了其在电子信息工程中的应用原则和途径,希望能够推动電子信息工程的有效布控,推动企业的持续发展。  关键词:数字信号;电子信息工程;应用  中图分类号:TP311 文献
本文从以计算机图形实践教学为核心,并就计算思维与图形学两者之间的关系展开了系统的研究和分析,提出了以培养计算思维能力为目标的计算机图形学教学改革方向,并探讨了具体的教学内容和方法。
摘要:行业特色型大学继续教育在行业技术需求更迭和教育信息技术变革的双重影响下,推进继续教育教学和管理智慧化,可以降低继续教育办学成本、缩短继续教育教学周期、提高继续教育质量,更好地为所在行业服务。行业特色型高校继续教育的信息化路径要以行业人才培养需求为导向,不断引入现代教育信息技术,通过继续教育模式的改革与创新,提高行业特色型高校服务行业及区域经济的能力。  关键词:行业特色型大学;继续教育;信息
摘要:随着现代科技的发展,网络信息技术在人们的日常生活已经非常普及,信息化网络基础建设在高校的信息化管理的教学理念也在逐渐深入普及,培养学生的信息技术能力,提高学生的综合素质发展,但是,网络在为学生提供方便的同时也会产生很多负面的影响,很多学生对信息技术的定义只是在聊天和游戏等,所以教师在进行网络教育教学中要引导学生正确认识网络信息技术,从而提高学生的自我修养,丰富学生的精神世界,在当下,高校校园
摘要:当前的社会是一个信息化爆炸的社会,计算机的出现、互联网的普及、人工智能的发展以及5G时代的到来,加快了这一切。因为当前的社会正朝着信息化与智能化发展,因此,计算机专业是一个热门专业。该文主要讨论信息技术时代下的计算机专业的教育及其改革。  关键词:信息技术时代;计算机专业;改革  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2019)33-0160-02  随着社会
摘要:高校后勤办公管理信息化主要指的是高校后勤管理、服务的诸多层次与许多方面,均运用新型信息化产品与技术,融合与有效运用高校内及高校外的各项信息资源,以提升高校后勤办公管理总体质量的一个过程,也为现代管理的重要手段之一。所以,应重视对高校后勤办公室管理的信息化建设,不断提升信息化建设水平,从而真正保障高校后勤办公质量。  关键词:高校;后勤;办公管理;信息化  中图分类号:TP393 文献标识码:
摘要:本文在桌面云应用现状的基础上,分析了桌面云的技术架构,对比常用的PC架构,分析了桌面云的技术优势、缺点和不足,并在当前技术不断进步的新环境下,分析了超融合技术、显卡虚拟化技术以及软件正版化要求对桌面云的影响,对于重新认识桌面云技术及桌面云的进一步推广应用,具有一定的参考意义。  关键词:桌面云;超融合;显卡虚拟化;软件正版化  中图分类号:TP311 文献标识码:A  文章编号:1009-3
摘要:随着我国信息技术不断发展,我国各大高校开始关注人才发展计划,计算机技术是我国人才建设的关键性技术之一,加强计算机教育发展和应用,需要考虑计算机科学的多项优势,笔者结合现代建设相关经验进行分析,希望能够加强计算机技术的运用和实践。  关键词:计算机科学;高校计算机;教育  中图分类号:G424 文献标识码:A  文章编号:1009-3044(2019)33-0166-02  随着我国现代化建设
摘要:毕业设计的目的是培养学生的岗位职业能力,该文从分析五年制高职软件技术专业课程体系特点及培养目标,探讨基于职业能力培养的毕业设计的方法,通过毕业设计的组织管理、方向设置及构建环节等阐述五年制高职软件技术专业的毕业设计的思路和方法。  关键词:五年制高职软件技术专业;职业能力;毕业设计  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2019)33-0164-02  1概
摘要:现代学徒制是一种新型的校企合作模式,已经成为职业教育发展和人才培养的共同趋势。现代学徒制有利于促进学校、企业参与人才培养的全过程,实现专业设置与产业需求相对接,课程内容与职业要求相对接,有效提高人才培养的质量。该文主要是针对学徒制教育下如何培养高职院校学生的职业行为习惯提出建议,为相关专业学徒制的运行提供经验。  关键词:学徒制;职业行为习惯;培养;建议  中图分类号:TP391 文献标识码