多策略混合的关键情感词识别方法多策略混合的关键情感词识别方法

来源 :科技信息·学术版 | 被引量 : 0次 | 上传用户:himiro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读


打开文本图片集

摘要:随着数字化转型的新趋势到来,为解决企业审计或办公人员面对海量数字化文档工作效率低、重复工作等问题,本文在传统机器学习SVM的基础上,加入文本预处理、TF-IDF算法、LDA算法,构建了一套多策略混合的文本关键情感词识别模型。通过模型测试及与单一SVM分类器模型的对比实验,结果显示本文构建的混合模型F1值达到了89.08%,比单一SVM分类器模型提升了22.58%,证明该模型对关键情感词的识别有一定程度的提升,应用于办公或项目管控场景,可以有效提升企业审计办公智能化水平。

关键词:机器学习;情绪识别;TF-IDF;SVM;LDA

引言

随着互联网技术及各个政府机构或企事业单位数字化建设的快速发展,各类文本信息数据呈爆发性增长,为进一步提高办公文件审校效率,及时下发日常相关文件文书;进一步优化项目资料规范化管理检查流程,提升项目文档审计效率,降低工作成本,防范项目审计风险,本文对TF-IDF(词频-逆文档频率)算法、LDA(隐狄利克雷)算法及SVM(支持向量机)算法进行融合,以句子为最小分析单元,以办公文件敏感词及项目建设负面清单关键字为情感词典,计算整句情感词得分,输出整个文本内容情感倾向性,深入开展智慧办公和智能化管控场景应用,提升工作效率。

1.相关工作

现如今,对自然语言的文本数据分析已成为当下研究的热点[1]。单从文本分类而言,其指的是在人为规定好的分类标准下,根据文本自身含义对文本数据进行分类的过程[2]。而文本情绪分析[3]则是对文本内容中的关键情感信息进行挖掘,并进一步分析处理,进行文本情绪识别的过程。通过对文本中的情感成分进行提取,分析出文本中的隐含情感,对文本的情绪、观点和态度作出归纳判断。

随着机器学习模型在自然语言处理领域的不断发展,对其模型的优化也随之引起了各类研究学者的关注。机器学习模型广泛被分成监督学习、无监督学习和半监督学习,其中应用最为广泛的则是监督学习模型,比如Pang[4]等人对比了朴素贝叶斯、最大熵和SVM算法在多个特征集中的应用,得出了SVM相较于其它学习模型表现出了较高的优势。针对半监督学习方面,文献[5]证明了图形半监督学习算法具有较优性能。针对无监督学习方面,文献[6]提出了一种基于非随机初始化的无监督学习模型,并在特征中采用文本统计分析算法进行扩展,获得了较好效果。现如今随着对单一模型的研究日渐成熟,效果已然到达瓶颈期,开始有研究学者将目光转移到混合学习模型领域,比如文献[7]构建出一种基于 SVM 和 CRF(条件随机场算法)的情感分析系统,输出结果表现出了良好的反馈效果,证明多策略混合模型有着相对于单个模型的优越性。

TF-IDF算法是一种针对关键词的统计分析方法,具有简单、可靠性高等特征,用于评估一个词对一个文件集或者一个语料库的重要程度,这类算法能有效减弱常用词对关键词的影响,提高关键词与文本间的关联性。LDA是一种监督学习的降维技术,就是将数据在低维度上进行投影,投影后獲得类内方差最小,类间方差最大的输出。LDA既可以用来降维,又可以用来分类,并且它在降维过程中可以使用关键词分类的先验知识,这也符合本文多策略混合模型构建技术路线要求。因此通过以上研究及大量调研分析工作,本文确定了主要机器学习模型SVM,再使用TF-IDF及LDA(线性判别分析)进行特征空间优化完善。

2.基于多策略混合的文本关键情感词识别方法

2.1算法流程

为解决以上众多困境,本文实验方法及流程如图1所示,首先通过文本去噪、基于同义词词林和互信息量的方法对已有的办公文书敏感词和项目负面清单关键词情绪词典进行进一步扩展;使用TF-IDF算法对文本数据中的关键词计算权重值,并以此权重建立文本提取特征矩阵;采用线性SVM分类器对文本内容进行关键情感词分类,对每个句子有无关键词进行判断;其次,使用LDA算法对关键词判断进行细化分析,得到文本特征矩阵;最后使用非线性SVM对特征变量优化映射,得到最终句子的关键词倾向结果。

2.2数据预处理

本文分析的情感词并非属于广泛理解的情感词典,而是针对具体办公或者项目管控情景下的关键词,因此开展文本情绪分析前,需进行数据预处理,流程如图2:

1)输入a.初始文档数据:包含通报、通知、批示等办公文书以及项目全过程资料;

b.办公文件敏感词:定密模型文件、公文敏感词库;

c.项目负面清单:项目负面清单库;

2)文本去噪:对以上输入数据去除语气副词、助词等无用信息,提取基础关键词;

3)同义词词林:对基础关键词通过同义词词典找到关键词的同义词,从而扩展基础关键词词典;

4)互信息量:对全文本文档数据及关键词词典,借助网络共享程序包(https://www.omegaxyz.com/2018/08/03/mifs/),进行文本数据与关键词的互信息量计算,进一步扩展基础关键词词典;

5)输出本文所定于的关键情感词词典。

2.3 TF-IDF算法处理

TF-IDF算法是一种根据单词在语料库中出现频次判断其重要程度的统计方法,主要思想是先对词频(term frequency,TF) 进行统计,认为词语出现次数越多,则文档可能与该词语有越多的正向关联性,再通过逆文档频率(inverse document frequency,IDF) 减少常见词的权重[8],计算公式为:

其中TFIDF表示词频TF和逆文档频率IDF的乘积,TFIDF值越大,对当前文本的重要性越大。本文利用TF-IDF算法,给关键情感词赋予权重,进行特征提取,将关键情感词转化为词频向量,建立文本提取矩阵。

其他文献
摘要:随着社会的发展进步,人们对于生活质量的要求越来越高,为了提升老年人以及残疾人等特殊群体的生活质量,对产品进行无障碍设计的工作变得越来越重要。在发展的过程中,相关工作人员可以在无障碍设计工作中适当的融合一些工业设计的相关特性,才能更好地满足社会的实际需求。本文将结合实际情况对产品无障碍设计中工业设计的发展进行探索,进而对产品进行优化。关键词:无障碍设计;工业设计;发展探索引言:现代化的无障碍设计打破了以往的设计方式,更加强调创新的思想,在这个过程中还应用了大量的智能化技术,在满足既定条件的要求之下进而
期刊
摘要:足球是世界第一运动,是一项高对抗、高竞技性的运动。经常从事足球运动可以提高人们的力量、速度、灵敏、耐力、柔韧等身体素质,并能增强人体的心血管系统、呼吸系统等内脏器官的功能,从而促进人体的健康。但足球运动的大运动量、高强度以及身体的强对抗性和技术的高难度性,进而也导致了足球运动中的损伤率居高不下。而足球最容易受伤的部位是膝关节,原因在于运动员在训练或比赛中需要高频次的冲刺、急停,同时还伴随着膝关节的屈伸、外展、内收,这些相关的技术动作都会极大的增加膝关节的负荷,进而导致膝关节的损伤。关键词:足球运动;
期刊
摘要:现如今,我国经济高速发展,经济市场竞争越来越激烈,为了寻求好的机遇、优化组织结构、降低运营成本、规范流程及提高流程效率,我国大部分企业建立了财务共享模式。但是由于我国的经济相比其他国家来说崛起相对较晚,所以我国对于财务共享仍处在探索模式。但随着我国的经济增长速度加快,我国对于相关会计人员的工作要求也逐渐提高,快速的经济发展对于会计工作的创新、会计工作人员的工作效率、会计工作人员的综合素质等方面也提出了新的要求,目前我国正致力于解决财务共享模式下存在的问题。关键词:财务共享模式 会计人员能力 提升研究
期刊
摘要:在老龄化趋势日趋加剧、城市社区老人文化需求日益凸显、传统养老模式面临一定困境的背景下,“文化养老”一经提出就受到较多关注。同时,随着国家对社会工作发展的大力支持,专业社会工作获得较大发展,社会工作者有序进入社区,以其专业的理论知识和实践技巧提供社区文化养老服务,丰富社区老人的精神文化生活,但由于多种因素影响,目前我国城市社区文化养老服务尚不能满足老年群体的需求。基于此,本文从社会工作视角探索城市社区文化养老问题以期为文化养老提供一个新的解析框架,增强老年群体的幸福感。关键词:老年人;城市社区;文化养
期刊
摘要:随着我国生态文明建设工作的深入推进,对高职院校环保类专业的人才培养提出了更高的要求。近两年,我校环境监测技术专业依托“全天候”教学项目,建立赛证联动机制,在课赛证协同育人方面取得积极成效,探索出一条适合我校环境监测技术专业的1+X证书实施新路径。关键词:1+X证书;生态文明建设;“全天候”教学;赛证融合一、实施背景2018年,第十三届全国人民代表大会第一次会议通过宪法修正案,将生态文明建设写入宪法,使生态文明的主张成为国家意志的生动体现。致力于生态环境保护的环保行业从业者充当着生态文明建设的主力军。
期刊
摘要:现如今时代的发展脚步越来越快,科学技术水平越来越高,为融媒体时代下的新闻宣传带来更多机遇的同时也对其提出了更高的挑战。在融媒体时代下,新闻宣传工作的顺利开展要直面时代的挑战,结合实际情况做出一些必要的改善,帮助新闻宣传体系更好地抓住机遇。如今,新闻信息之间本身的融合背景日趋强大,而为了整合这部分信息量,就需要关注新闻宣传的重要作用,使融媒体时代的新闻宣传力度得到进一步的提高和保障,更好地实现对信息的采集,从而让新闻宣传更加高效,符合相关方面的要求和标准。本文对此进行分析,首先了解当前融媒体时代下,对
期刊
摘要:本文从高铁信号综合技能训练平台建设的实际需求角度出发,分析平台建设过程中可能会存在的关键技术问题,并提出一系列可行的解决思路和方法,为平台建设整体方案设计奠定基础。關键词:高铁信号;训练平台建设;关键问题近年来我国的高速铁路发展速度非常快,铁路新技术的应用和新设备的上线,必然也要求技术人员也要跟上步伐,提升和强化自身技能。但是在技能训练上却碰到了困难:一方面是技能的提升需要大量的实践训练,另一方面现场的设备,出于安全考虑,不能拿来训练。因此需要针对高铁信号技能训练实际需求,建设一套完整的训练平台。在
期刊
摘要:信访程序、材料越来越规范化、程序化,信访档案也随之多样化。档案的保存是档案管理的重中之重。保存的质和量是关系档案使用的重要环节,关系着档案的利用。信访档案具有“证据提供者”的作用。作为一种档案案卷,具有真实性和参考性。信访档案对于社会稳定和谐还有着“稳定剂”作用。档案较好的记录了信访活动的过程,相关案卷材料对部分缠访闹访、以访谋利、息诉罢访反悔的信访人也有很好的约束作用。应利用成熟的电子档案系统对信访档案进行升级改造,用现代化的管理方式便捷更高效的推动信访档案的使用和保存。关键词:来源和分类;保存;
期刊
21世纪是信息时代,同时也是新媒体时代,虽然各类社交媒体社交应用平台层出不穷其,用户们浏览信息的渠道多种多样,用网页浏览信息已经不如几年前那般火爆,但是各类移动智能终端盛行,网页浏览器同时也有了更多的载体,他们可以出现在各种不同的移动终端之上,网页依然在这个新媒体时代有这举足轻重的作用。一、网页交互设计的视觉原则(1)比例尺寸得当,对称均衡适度合适的比例是形式美要遵循的原则之一,它最早用于绘画、雕塑中,但在网页交互设计中也同样必须遵循这一原则。网页设计中的比例关系主要表现在组版元素间和谐的比例关系。对称指
期刊
打开文本图片集 摘要:针对广州市特殊儿童相关公益活动的知情程度较低、公益活动的信息获取难度较大、公益项目报名方式不统一、不够透明等问题,设计了一款基于微信小程序的公益服务平台。该平台在微信客户端运行,依托微信广大的用户基数与强大的小程序开发API接口,实现了对广州各大公益活动的信息进行统一整理,允许用户集中查看活动详情与报名,让更多爱心人士及时了解特殊儿童的公益项目活动动向,扩大参加公益活动人群。为公益人士提供便捷、信息化的使用体验。关键词:微信小程序;服务平台;信息整理;移
期刊