一种面向医学专利的信息抽取方法

来源 :东南大学 | 被引量 : 0次 | 上传用户：jackyong63

【摘要】

：

【作者】

：

段嘉奇

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2020年01期

【关键词】

：

抗肿瘤药物专利实体识别 BERT模型文本数据增强

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过对生物医学文献的信息抽取,可以提高生物医学领域知识库构建的自动化程度,以进一步支撑计算机在该领域的文献检索、诊断决策、学术查新、预测分析等方面的应用。医学专利作为一种医学科技文献,其内容创新性、时效性强,并且有完善的实验验证,在学术上和商业上均具有很高的利用价值。抗肿瘤药物是近年来备受关注的一个研究热点,该领域专利公开量也较多,但目前针对抗肿瘤药物专利的分析工作主要靠人工完成,代价较高。研究从抗肿瘤药物专利中抽取关键信息的自动化方法具有重要意义。本文以面向中文抗肿瘤药物专利的信息抽取为目标。经过分析,抗肿瘤药物专利中主要包括化合物成分、疾病、药物靶点等实体信息,因此,本文主要研究抗肿瘤药物专利中实体识别的技术方法。本文的主要工作和成果包括:1)针对目前抗肿瘤药物专利实体识别数据集缺乏的问题,构建抗肿瘤药物专利实体识别（ERATDP）数据集。以实际项目及其数据库为基础,通过调研、分析,参照已有的生物医学专利实体识别数据集标注手册,形成实体标注方法,用于指导标注人员的标注工作,构建了一个抗肿瘤药物专利实体识别数据集,以支撑识别模型的训练和检验。2)针对抗肿瘤药物专利中实体类别丰富的特点,研究组合式的实体识别方法。对数据集中实体的特点进行分析后,设计了基于词典、模板、机器学习相结合的方法。同时为降低标注量小对模型造成的影响,设计了适用于实体识别任务的文本增强方法,以进一步提升实体识别效果。3)抗肿瘤药物专利实体识别原型系统的设计与实现。以组合式的实体识别方法为核心,设计并实现了一个面向中文抗肿瘤药物专利的实体识别原型系统。针对本文设计的实体识别方法,在ERATDP数据集上进行了对比实验。结果表明组合式的方案能够有效提升识别模块的整体表现,对于数据集中稀疏的数据,文本增强方案可以有效提升其识别效果。本文工作一方面支撑了实际项目中的应用,另一方面对于领域实体识别的相关工作有参考价值。

其他文献

基于视频图像的森林烟火识别技术研究

近年来,我国森林防火形势愈发严峻,森林火灾的早期识别和预警对火灾扑救至关重要。本文研究了视频监控场景下的森林烟火识别技术,由于森林烟火监控系统覆盖场景大,通常需要先分割出疑似烟火的区域,再对这些疑似区域进行烟火识别。针对森林烟火监控系统实际应用的部署环境,本文从烟火区域分割和烟火识别两个关键环节,研究了基于低速前端设备和基于高性能后端设备的森林烟火识别技术。论文主要内容如下:（1）基于低速前端设备

学位

烟雾检测目标分割卷积神经网络注意力机制目标检测

吊篮租赁服务和运输调度的综合管理系统的设计与实现

随着我国城镇化建设的加速发展,我国建筑业的发展步伐也逐步加快。高空作业吊篮作为建筑施工中的常规作业设备,主要用于高层建筑外墙的装修、清洗、维护等作业,其需求量与日俱增。面对日益庞大的吊篮需求量,吊篮租赁服务行业面临着前所未有的业务压力和竞争压力,传统的项目管理模式已逐渐不能适应多变的租赁市场。在产业互联网的大趋势下,吊篮租赁服务管理的信息化转型是企业提高竞争力的关键。本课题结合企业的实际需求,面向

学位

吊篮租赁服务系统SSM架构吊篮订单调度VRP蚁群算法Vue

基于改进相关滤波的目标跟踪算法研究

目标跟踪作为近些年来的热门研究方向,吸引了许多研究者的目光,其在许多方面有着十分广泛的应用如汽车自动驾驶、安防监控系统、人机交互、军事领域。然而在实际的视频跟踪场景中有着非常多的挑战,面对着非常多复杂困难的场景如运动目标快速运动、目标被其他物体遮挡、相似的背景影响等。正是因为在这么多的困难场景下,使得我们获得一个可靠、稳定的跟踪器变得十分的困难,同时这也引起了研究者们的兴趣。在这些众多的研究方向中

学位

目标跟踪复杂场景相关滤波时空正则化多跟踪器

基于道路视频的交通流量监测系统设计

随着当前社会机动车数量的不断增长,道路拥堵等交通问题日益严重,智能交通系统作为该问题的解决方案之一,受到各国研究者的广泛关注。对于智能交通系统,实时的交通流量数据不可或缺。在所有的交通流量监测方案中,基于视频的交通流量监测方案具有独特的优势。基于以上信息考虑,设计了基于道路视频的交通流量监测系统,主要贡献包括以下几点内容:（1）针对车辆目标检测问题,对比当前各类方案,选择了基于深度学习的目标检测算

学位

智能交通系统交通流量监测深度学习多目标跟踪DeepSORT

管廊中超宽带定位研究及软件设计

随着导航定位和无线通信技术的发展,超宽带定位技术在管廊中的应用受到了更加广泛的关注。针对管廊内部复杂环境带来的定位精度降低,以及管廊实时监控、人员管理、安全保障等定位服务软件需求,开展了超宽带定位技术研究和软件设计。本文首先分析了管廊定位系统的技术需求和指标。基于到达时间差（time difference of arrival,TDOA）的极大似然估计定位算法在管廊环境的实际测试中,由于锚点数量少

学位

UWBTDOA定位精度锚点部署软件开发

三维人耳识别算法研究

人耳识别技术是利用人耳的纹理特征或结构特征进行身份识别的技术,是生物特征识别领域的新兴研究方向。由于人耳相比人脸的某些独特优势,使其在近几年发展迅速,受到许多研究者的关注。而三维人耳利用了三维处理技术,突破了二维人耳识别技术的瓶颈,对姿态、光照等外部干扰因素具有较强的鲁棒性,成为国内外的研究热点。虽然三维人耳不受化妆、表情、光照等因素的影响,但如何对具有高相似度的人耳进行区分依然是一个难题。本文在

学位

三维人耳识别目标检测关键点检测人耳归一化多元统计局部形状描述符全局配准

基于双目立体视觉的三维人脸重建算法的研究

随着计算机视觉技术的发展,三维人脸重建技术在许多领域内都具有很大的潜力,基于双目立体视觉的三维重建技术由于成本低廉、操作简便而受到了广泛关注,经过几十年的发展,已经取得了非常不错的成绩,然而仍难以重建精度较高的三维人脸模型。针对传统立体匹配算法对低纹理人脸图像的匹配精度较低的问题,本文展开了深入研究并提出了相应的解决办法。基于本文搭建的实拍图像采集系统以及FRGC v2.0人脸数据库,对本文所提的

学位

立体匹配视差校正区域生长动态规划三维人脸重建

服装缝制流水线编排系统研究与实现

随着控制技术朝着复杂计算机网络控制方向发展,控制设计人员不能只解决底层的实时控制问题,还要解决上层辅助制造所带来的综合自动化问题。本文对某订单型制衣企业服装缝制流水线的编排优化问题进行了研究,针对目前普遍没有研究到的多缝制流水线工序工位编排优化问题和多缝制流水线工人编排优化问题,进行了建模与求解。在此基础上,开发了一套具有决策支持功能的服装缝制流水线编排系统,以加快缝制流水线的组织速度、提高多条缝

学位

缝制流水线编排系统流水线平衡工序工位编排工人分配遗传算法

基于图卷积网络的远程监督关系抽取

远程监督关系抽取通过对齐知识图谱中的三元组和大规模文本语料来生成大量用于关系抽取的数据。尽管远程监督的方法可以避免人工标注数据,但不可避免地引入了噪声问题。最新的一些方法通过引入实体相关的背景知识来解决噪声问题,如知识图谱中实体的类别信息等。然而这些方法仍然面临一些挑战。一方面,这些方法只引入了单一源的背景知识,需要定制特殊的模型且信息的覆盖率不高。另一方面,这些方法没有考虑引入背景知识中的噪声对

学位

远程监督关系抽取边推导图卷积网络注意力机制

基于语义解析的知识库问答方法研究

知识库问答是自然语言处理领域中的一项重要任务,其目的是根据自然语言描述的问题,从知识库中查找或推断出问题的答案,具有重要的研究价值和意义。如何跨越自然语言与知识库查询语言之间的差异是知识库问答的难点。语义解析方法将自然语言问题转化成对应的形式化查询,是目前得到广泛研究的一个方向。然而,在面对日益复杂的自然语言问题时,现有的语义解析方法暴露出关系检测准确较低,形式化查询构建噪声过大等缺点。本文的研究

学位

知识库知识库问答语义解析关系检测结构预测

一种面向医学专利的信息抽取方法

与本文相关的学术论文