非均衡视角下基于数据重采样与文本生成的方面类别检测研究

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:zhu872007990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域(Natural language processing,NLP)的方面级情感分析(Aspect based sentiment analysis,ABSA)子任务-方面类别检测中,处理文本数据中的方面级别类别不平衡一直是具有挑战性的研究课题。由于目前建立的检测模型往往更侧重于多数类的特征,此现象可能会导致难以识别少数类别,并忽略文本数据中包含的更丰富的情感或类别信息。因此,在评论文本方面类别检测任务中,针对少数类别的甄别问题通常是更为重要的任务。传统的不平衡分类算法在数据类别倾斜程度过大时模型可能失效,使其难以应用于现实生活中的不平衡文本类别检测场景。因此,本文基于数据类别非均衡的视角,提出Select-SMOTE算法(Select-Synthetic minority oversampling technique)与混合增强算法的双重策略以解决文本数据集中的方面类别数据倾斜问题。本文具体工作内容如下:(1)基于数据重采样技术,本文提出了Select-SMOTE算法的Light GBM(Light gradient boosting machine)非均衡方面类别检测模型。其中,Select-SMOTE的算法用于解决传统SMOTE算法样本生成过于随机且可能产生噪声的问题。该算法对方面类别样本进行划分,并在进行少数类样本插值生成时,规定两个样本点不同时为边界样本时才允许进行插值。此外,算法采用类间边界样本剔除的方法,以保证多数类和少数类之间的边界更加清晰。最后,输出处理后的均衡数据集,将其输入经过权重调整、超参数优化等微调操作的Light GBM模型,以执行在线评论方面类别检测任务。实验结果表明,本文提出的算法优于基线非均衡方面类别检测算法,并在多数据集上展现出良好的泛化能力。(2)基于文本生成技术,本文提出了混合增强的Bert(Bidirectional encoder representations from transformers)非均衡方面类别检测模型。该模型通过构建均衡公式进而确认数据集的失衡程度,并根据生成倍率采用XLNet(Extra-long network)文本生成和噪声扰动相结合的方式生成类别均衡数据集。随后,将生成的数据集输入Bert预训练模型,并进行参数调整,以进行提高方面类别检测模型的性能。实验结果表明,所提出的模型在准确性方面相对于其他深度学习方面类别检测模型具有显著优势,同时通过文本生成混合增强策略,能够有效解决数据集不平衡分类问题。(3)基于本文提出的Select-SMOTE、文本混合增强的非均衡学习技术,设计并实现了一个面向非均衡文本数据集的方面类别检测系统。该系统具有多项关键功能,可有效提升方面类别检测性能及实用性。首先,该系统能够让用户直观地了解输入文本数据集的方面类别不平衡程度。其次,针对数据不平衡问题,该系统可以自动对文本数据集进行方面类别平衡操作,并显示平衡后的数据类别程度图供用户查看。最后,系统将数据均衡操作与文本方面类别检测功能进行了整合,使得系统易于操作、用户友好。
其他文献
昼夜节律是一种内源性的计时机制,可以调控人体所需的睡眠、饮食和生殖节律等。随着生活、工作模式的改变,昼夜节律紊乱已成为普遍关注的健康问题。卵巢功能反映卵巢皮质区基础卵泡生长发育的能力,包括卵泡的数量和质量,反映了女性的生育潜能。研究表明,昼夜节律与卵巢功能存在相关性。昼夜节律紊乱通过改变生殖激素的分泌、排卵、卵母细胞数量、褪黑素水平和时钟基因的表达影响卵巢功能。综述昼夜节律紊乱对卵巢功能的影响,为
期刊
在乡村振兴战略的支持和推动下,各地乡村旅游发展态势迅速,城市近郊乡村因区位和资源的优势,旅游业迎来重大发展机遇。旅游公共服务是乡村旅游地建设的重要内容,哪些因素驱动、怎样驱动乡村旅游公共服务发展,如何更好推动乡村旅游公共服务发展,值得思考。基于上述背景,本文采用“探理-建模-实证-献策”的思路体系,研究城市近郊型乡村旅游公共服务驱动机制及培育路径。具体而言:(1)探理。以公共产品理论、新公共服务理
学位
自主航行是无人艇作为平台必须具备的基础,也是体现其智能化程度的重要组成部分。为减少湖试、海试的试验成本,为解决单次试验数据量较少,特殊极端湖、海环境获取困难等问题。本文给出了无人艇三维视景仿真系统框架,重点介绍了海洋场景搭建、感知仿真建模、海上运动仿真等关键仿真技术。通过试验与仿真数据对比,验证了该仿真系统具有较好的实用性和准确性,能够完成无人艇指令控制,传感器数据与无人艇状态数据实时接收与同步展
会议
近年来,证监会持续引导上市公司贯彻创新、协调、绿色、开放、共享的发展理念,以信息披露为抓手,持续优化上市公司营商环境、完善企业社会责任信息和治理信息披露的相关要求,逐步形成基本制度框架,推动上市公司践行绿色发展理念、主动履行社会责任、规范公司治理体系。2020年,深交所修订《上市公司信息披露工作考核办法》,将企业披露社会责任报告情况等纳入对上市公司信息披露考核的范围,显现了社会对企业社会责任履行的
学位
在2020年四月,国家发展改革委第一次提出了一项新的基础建设项目——区块链。由于国家政策,以及对下游应用的需求日益增长,使得区块链的市场规模迅速扩大,区域集中程度高,形成了显著的产业集聚。在技术日趋完善的今天,我国的区块链产业已经从2.0迈向3.0。区块链等新兴技术是分布式账本技术的一个子集,并不局限于单个区域或用例。全球大国正在认识到区块链超越加密货币使用的能力,以及它在许多领域塑造关键流程的潜
学位
<正>银邦股份(300337)是新能源冷却板材料龙头,公司深耕铝热传输材料近20年,成长为铝热传输材料龙头。在市场资金高度关注新能源汽车企业的同时,这些细分领域的龙头其实更有估值方面的优势,投资者不妨积极挖掘其中的机会。银邦股份优质的产品获得了国内外客户的高度认可,其中“铝基层状复合材料”被江苏省工信厅认定为省级专精特新产品,银邦品牌被江苏省商务厅认定为“江苏省重点培育和发展的国际知名品牌”。而新
期刊
绿色、低碳、可持续是全球发展的共识,ESG已经成为衡量企业表现和指引投资的主流标准,是实务界和学术界关注的热点。从国际上来看,各国政府、联合国等国际组织和相关市场参与者的共同推动,使ESG理念在全球范围内得到进一步推广。ESG相关的制度安排和实践,例如信息披露、公司评级、投资指引等方面逐渐落实,并展现出持续发展和改进的趋势。虽然ESG理念在中国起步相对较晚,但是近两年来中国ESG市场高速发展,这得
学位
为解决甘肃省新能源产业高质量发展和人才培养不均衡的问题,分析新能源产业发展现状和新能源产业人才培养现状。在此基础上,通过掌握新能源产业高质量发展对人才培养的需求、以人才培养需求为导向进行人才培养改革、建设“双师型”教师团队、加强实践技能和双创能力的培养、完善校内外实验实训场所等方面,探究适应甘肃省新能源产业高质量发展的人才培养模式,以期相关人员提供参考。
期刊
学位
论述了新能源产业的发展背景,分析了新能源产业对青年科技人才的需求,介绍了上海电气新能源产业板块青年科技人才现状,并对培养青年科技人才的路径进行了探索。给出上海电气的两个探索实践案例,包括卓越工程师队伍建设案例和科技人才队伍提升案例,并实现路径沉淀。
期刊