结合语言模型的表格学习方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:linsl2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格可以将影响决策的多维度要素有序的存储并清晰的展示出来,是帮助管理者进行决策的有效工具。纵观现有对表格数据的分析方法,有以下问题值得关注:目前的分析方法仅针对包含类别特征与数字特征的表格,无法分析包含主观描述字段的表格;机器学习在表格数据挖掘领域中占主导地位,但决策因素的维度提升会影响分析结果。针对上述问题,如何同时对表格中的数字型特征、类别型特征、主观描述文本特征进行深层次的规律探究,进而辅助决策,变得尤为重要。本文提出了一种基于深度学习且结合语言模型的表格学习方法,针对北方工业大学中学生的可持续发展观点调查问卷结果进行规律探究并进行结果评定。该方法通过语言模型将主观描述字段分别转换为文本相似度和文本观点序列,将其与表格中的其他特征进行拼接后再送入表格模型进行分析决策。论文的主要工作内容如下:(1)针对考察概念的主观字段,使用TF-IDF提取学生作答的关键词与词频并用Jaccard系数作为评估指标;使用Word Embedding提取学生作答与官方文本的向量空间并进行相似度比较,此两者共同描述了概念空间。(2)针对考察学生是否具备正确观点的主观描述字段,本文提出ML_BERT,以BERT语言模型为框架,通过微调模型结构与损失函数使其完成多标签观点提取任务,并通过实验证明了其有效性。(3)针对多标签文本观点提取任务中的标签不均衡问题,本文引入多标签Focal loss对分类任务进行优化。(4)本文将语言模型与表格学习模型相结合,并针对观点序列修改Tab Net使其避免特征离散的同时更关注于主观作答内容。实验证明本文选取的端到端表格学习模型相较于其他方法更适用于与语言模型相结合,且具有可解释性。
其他文献
舌面裂纹是中医舌诊领域进行疾病诊断的一个可靠依据。面向移动端应用背景,使用手机采集图片存在较大质量差异,传统分割方法处理难以取得较好的结果。本文采用深度学习、迁移学习的方法进行准确地裂纹分割,并根据病症进行分类,对实现智慧医疗、中医数字化具有研究意义。论文主要工作和创新性如下:(1)提出一种基于迁移学习和改进U-Net网络结构的舌面裂纹分割方法。首先,采用水平翻转、随机裁剪、归一化等数据扩充手段缓
学位
人物行为分析技术是人工智能中计算机视觉领域的重要研究方向。深度学习因其具有学习能力的特点被广泛应用于人物行为分析中。然而目前人物行为分析技术中仍存在人物之间交互特征利用不充分及复杂背景下人物行为对象不明确或缺失问题有待解决。针对这些难点,本文对基于深度学习的人物行为分析关键技术进行研究,具体内容如下:(1)针对人物之间交互特征信息利用不充分的问题,本文提出了基于交互特征生成算法的双流网络。该双流网
学位
利用中药材粉末显微图像识别的方法对中药样品进行鉴别是其质量监控的一项关键技术,开展该项研究工作具有重要意义。本文使用深度学习建立一套基于细粒度的中药材显微图像鉴定框架,即使用卷积神经网络来充分学习到细微的判别性特征,最终实现一种通用的计算机中药材粉末显微图像识别方法。论文主要工作和创新性如下:(1)提出一种基于改进信息融合和注意力机制的检测方法。首先将YOLO v4目标检测算法中的PANet部分进
学位
永磁同步直线电机(Permanent magnet linear synchronous motor,PMLSM)因没有中间传动环节逐渐被应用于工业领域。矢量控制、直接转矩控制等控制方式需要精准的动子位置信息,而位置传感器受使用条件限制并增加了系统成本,因此研究PMLSM无位置传感器控制策略具有重要意义。本文针对PMLSM中高速下电机动子的位置和端部效应观测展开研究。首先,本文研究了一种基于磁链模
学位
从语篇分析理论的由来及内涵出发,分析高考英语阅读理解“七选五”题型中学生存在的问题及对策。从语篇的整体视角、语篇结构的分析和利用、语篇分析中的高阶思维、句间关系的把握和使用以及关键词抓、取、用等几个方面展开,探索语篇分析理论在“七选五”题型中的具体应用。
期刊
“结构、性能及分子运动”三者之间制约关系是高分子物理的核心内容,其中“分子运动”的知识最为抽象,是学生学习的难点内容。针对此问题,融入教师科研成果,设计了“形状记忆的聚乳酸/聚碳酸亚丙酯共混材料的结构与性能”综合实验。通过该实验,学生系统而具体的理解“结构与分子运动”、“分子运动与力学性能”、“分子运动与形状记忆功能”的知识,掌握热分析、扫描电镜、力学性能以及形状记忆功能的实验技术,体会高分子基础
期刊
毫米波雷达是交通流检测领域的主要传感器,多目标航迹提取是该领域研究的热点问题,无监督的数据聚类算法是解决该问题的主要技术手段之一。本文针对雷达多径噪声和点云稀疏引起的聚类错误问题,自动目标数估计问题及目标关联跟踪问题,开展的主要研究工作包括:(1)针对毫米波雷达交通目标实际采集数据的时空变化特点,本文分别进行了非序列特征分析和序列特征分析。在非序列特征分析方面,采用最大似然统计分析,给出了有效数据
学位
随着近些年来城市环境中监控摄像装置的部署量飞速增长以及智慧城市等一系列项目建设需求的提出,基于监控视频的人体异常行为感知技术成为了当前研究的重点方向,具有很高的研究价值和广阔的应用落地需求。但由于单一人体或人群的运动特征与外部环境的复杂多变性,当前人体异常行为识别与感知技术仍具挑战。当前阶段,基于监控视频的异常行为感知技术还停留在识别简短视频中的简单或单一的异常行为,无法快速有效处理大量且复杂的监
学位
晶体是材料学领域中的一种重要材料,其性能与内部质点排列的规则程度有关,偏离规则状态排列的点阵结构就是晶体缺陷。高分辨率透射电镜(High Resolution Transmission Electron Microscope,HRTEM)图像是晶体缺陷研究的一种重要数据,反映了晶体内部质点排列的微观结构。为了将存在某些缺陷的异常晶体图像与正常晶体图像区分开来,需要对晶体图像进行异常检测,以便后续缺
学位
声音事件检测技术的目的是对采集到的音频进行分析,从而检测出其中的声音事件类别及起止时间。随着我国社会养老需求的增加,声音事件检测技术在居家环境中具有广阔的应用前景。目前,声音事件检测任务中存在着强标签训练数据数量稀缺的问题,这限制了神经网络模型的性能。针对上述问题,本文进行了以下研究:首先,本文搭建了一个卷积循环神经网络(CRNN),该网络使用音频的对数梅尔频谱图作为输入特征,能够利用长期上下文信
学位