基于多任务学习和多态语义特征的中文疾病名称归一化研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:MD_XC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决在线文本中存在大量疾病指称的问题,提出了基于多任务学习和多态语义特征的中文疾病名称归一化模型(multi-task attention-dictionary BERT GRU-CNN,MTAD-BERT-GCNN).首先利用word2vec和Glove生成融合局部和全局的外部语义特征向量;其次将CNN(convolutional neural networks)和BERT(bidirectional encoder repre-sentations from transformers)作为基准模型进行对比实验;接着在CNN上引入GRU(gated recurrent unit)、LSTM(long short-term memory)、BiGRU(bi-directional gated recurrent unit)和BiLSTM(bi-directional long short-term memory)以提取文本间语义关系;然后,基于多任务学习视角,将上述模型与B E RT相结合以捕获静态和动态语义信息;最后,引入医学词典生成注意力权重词典作为辅助任务以调节静态向量,从而进一步提升模型效果.在自建的中文疾病名称归一化数据集ChDND(Chinese disease normalization data)上进行实验.研究结果发现,MTAD-BERT-GCNN模型在Accuracy@10指标上可以达到89.60%的准确率,较基础的词级CNN和字级CNN分别提高了12.96%和5.12%.本研究在中文疾病名称归一化任务中引入了多任务学习思路,从语义向量和模型框架层面进行了优化,在中文医学知识图谱构建、信息抽取和自然语言理解中具有较好的应用价值.
其他文献
大中小学思政课一体化要依托教材一体化建设来实现.以“改革开放”为例,通过分析大中小学各阶段课程标准对“改革开放”的界定和教材内容的呈现,指出当前大中小学思政课教材一体化建设存在课程目标层次不清、教材内容交叉重复、教材编写体例差异较大、没有处理好与其他学科之间的关系等问题,认为今后应依据不同阶段学生的身心规律,有序制订课程目标,整体规划教材内容,统一教材编写体例,并解决好思政课与其他学科以及课程思政之间的关系.
矿神是矿业的行业神,矿神信仰的兴衰反映了矿业的兴衰.早期随着云南东川的铜矿开采,并自发形成了与矿业有关的矿脉龙神.后清朝对铜矿加以重视,东川铜矿由官府管理,矿脉龙神也受赐封,成为地方官员春秋祭祀的正祀,并形成一套祭祀仪式.而东川铜矿的盛衰与矿脉龙神的兴废呈现出相一致的发展轨迹,当东川铜矿衰落时,作为正祀的矿脉龙神也就此衰落.
根据田野调查的第一手材料,对黔南西南村布依族的语言使用情况进行了分析和归纳,发现西南村布依族的母语保存完好,兼用汉语,语言生活属于和谐型;并进一步剖析了母语稳定使用及形成和谐双语生活的成因.
边境生产作业管理是边境管理的一项重要内容,与边境安全紧密相连,并影响着与邻国的关系.清朝边境生产作业管理的内容较为广泛,包括农、林、牧、渔、采集、狩猎、开矿、建房等,而清朝西南边境生产作业管理的主要内容是矿、农、林、渔.在西南边境,清朝民人与邻国民人时常出现越界生产作业事件,极易引发领土争端与边界纠纷.清朝政府在处理越界生产作业时,本着“安边睦邻”的原则,主张不可丝毫侵占邻国土地,亦不可尺寸退让,对本国越境人员予以严惩,而对邻国越境人员则宽大处理,目的是睦邻友好,以安边圉.
清代滇铜开发是皇朝中央主导下的开发行为,但其目标的实现以矿业企业的管理为基础.这些矿业企业具备企业的一般特征,更有滇铜开发的特殊性质和乡土中国的时代印记.在产权关系上,这些矿业企业不仅有权责明确的内部产权结构,而且有尽力避免纠纷的外部产权边界.在管理架构上,驻厂官员与矿商“双重领导”下的“七长制”是其核心,这里既有分工也有协作,但严于“人事管理”而疏于“技术创新”.在文化纽带上,“会馆”有助于筹集资本、招募劳工、强化厂规、约束厂众,但也容易产生“圈子文化”的狭隘性.
准确地探测和识别学科领域知识结构对于理解学科发展动态、制定科技政策以及开展科研活动具有重要意义.当前,针对该问题的探索思路主要集中在两个方面:文本内容分析和网络结构分析.在现有的研究中,这两种研究思路往往仅作为相互辅证的依据,缺少同时融合文本信息与结构信息来探测领域知识结构的方法.因此,本文借助深度学习领域涌现出的新兴算法,把深度图神经网络模型与文档表示学习以及流形学习算法加以综合,提出新的学科领域知识结构探测框架.分别选取了代表基础研究学科与新涌现研究领域的两个数据集对所提研究框架进行验证,实验结果表明
动词在英语运用中是一种重要的词类形式.教师改变英语教学观念,树立“基于动词聚合与组合”的教学理念,培养学生“以动词聚合与组合为核心”的语言学习意识,不但可以帮助教师在语言教学中重点突出,而且能够在学生语言学习中达到事半功倍的作用.
先进制造基地是一个地区先进制造业发展的重要载体.曲靖市工业实现了跨越式发展,制造业已形成体系,但制造业重化工型、中低端型、小而散型、内源型“四型”特征依然明显.曲靖建设先进制造基地,要围绕“高端化、绿色化、智能化”,按照“4+3+8”的思路,实施“五大提升”,突出规划引领、明确产业定位、提升载体能级、推进创新提升和深化开放合作,构建结构更优、质量更高、效益更好的先进制造业体系,打造成云南省先进制造基地.
可计算医学知识强调将科学出版物中人读的知识格式通过抽取和编程转化为机器可执行的知识格式,是促进知识大规模应用的重要手段,其不仅为情报学领域开展知识计算研究提供了新范式,也为数字图书馆存储和管理数字化知识对象提出了新需求.可计算医学知识的基本概念包括两个方面,一是知识的表示形式可计算化,二是知识在实践中“可执行”,两者缺一不可.本文归纳提出了可计算医学知识的两条实现路径.一是数据挖掘,从表格等结构化数据中形成计算机可直接调用和执行的数字化知识对象(如疾病风险模型计算器),用知识网格(K-Grid)管理,提供
食物在思考“自我”与“他者”之间扮演了重要的角色.藏族食物不仅仅滋养了藏族人的身体,更是族群身份的自我呈现:牦牛肉、羊肉、青稞与酥油茶作为实现“族群”或者“自我”具象化、实体化的象征符号,成为藏族的自我隐喻.在不同的情境下,藏族特色食物的深层次涵义与展示自我族群身份信息的机制存在差异:它既可以传递团结、凝聚的信息,也可以用于表达分离与区分.统一于同一种食物下对立互构的信息,成为了自我隐喻的关键所在.