肝癌领域精准医学语料标注

来源 :军事科学院 | 被引量 : 4次 | 上传用户:caomao8000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着精准医学时代的到来,如何从海量的数据中快速准确的抽取有价值、可用性的信息成为相关研究者面临的困难,也是提高生物医学科研效率以及寻求临床诊断可靠证据的重要途径。为解决这一困境,生物医学领域的命名实体识别和语义关系抽取等文本挖掘技术得以快速发展。而语料库构建作为文本挖掘技术的基础和关键环节,其作用日益凸显。已有研究表明语料库对于提高相关技术识别的准确率尤为重要,语料库的短缺成为限制文本挖掘快速发展的瓶颈之一。针对当前生物医学语料库涵盖实体种类少、实体关系相对简单,难以满足精准医学知识库发展需求的问题,本研究以比较毒物遗传学数据库(The Comparative Toxicogenomics Database,CTD)中肝癌相关的文献作为标注文本,构建肝癌领域精准医学语料库,探索语料标注规范,以期能够对精准医学命名实体识别及语义关联抽取研究提供可靠的数据支撑,解决目前可用标注语料库短缺的问题。本文的内容将围绕以下几个部分展开:第一部分介绍了本研究选题的背景情况和技术发展状况,指出了本文研究的理论和现实意义,并且提出了研究目标、内容、方法和技术路线。第二部分对当前命名实体识别语料库、本体等研究现状进行了系统分析和描述,同时对研究的工具和方法进行了筛选。第三部分详细阐述了语料标注的整体流程,主要包括待标注文本的筛选、标注工具的准备、标注规范的制定和优化、命名实体和实体关系标注过程、预标注问题总结等方面。第四部分对标注结果进行了详细展示,包括Brat手工标注工具最终的输出结果的解读、标注结果统计情况以及手工标注与PubTator自动标注结果对比分析。第五部分总结了本研究中比较重要的标注规范,包括明确标注对象、复合名词的标注、蛋白质与基因的标注、全称和缩写的标注等。第六部分总结本研究所做的工作,展望本研究标注规范可能的应用以及基于领域本体的语料标注研究的发展景。本研究参照现有语料库构建过程,制定初期语料标注规范,并在预标注阶段逐步完善标注规范。同时语料库构建过程中首次采用了包含患者表型、疾病、化学物质与药物、细胞机制、分子机制、遗传机制6个维度知识模型的精准医学本体,涉及实体类型更加广泛,定义的实体关系更加丰富,为本语料库的高质量提供保障。本研究最终完成了对10045个命名实体和2489个实体间关系的标注工作。提出了标注文本的筛选流程及标注规范的制定方案,并总结了大量命名实体和实体关系标注的典型示例,可对其他生物医学语料库构建任务提供有价值参考。本研究主要采用手工标注,成本较高,不适用于构建大规模语料库。但手工标注语料库被视为“金标准语料库”,标注质量远高于自动标注语料库。在以后的相关研究中,可将本研究手工构建的语料库作为“种子”,以此为基础,利用一个或多个监督分类器,自动地迭代扩大标注语料库。
其他文献
现代社会对信息系统(Information System)的依赖越来越强,而信息系统自身结构、功能越来越复杂,因此它的稳定、安全、可靠变得越来越重要。在以审慎性为原则的审计工作中,也
健康教育在我国长期被称为卫生宣传教育,或简称“卫生教育”。目前对健康教育这一概念,尚未有一致公认的定义。目前最常引用世界卫生组织健康教育处前处长慕沃勒菲博士于1981年对健康教育提出的定义:“健康教育帮助并鼓励人们有达到健康状态的愿望,知道怎样做以达到这样的目的,每个人都尽力做好本身或集体应作的努力,并知道在必要时如何寻求适当的帮助。”我国在2001年将体育课正式更名为“体育与健康课”,开始实行新
<正>近年来,我国金融机构资产管理业务快速发展,部分业务发展不规范,甚至存在监管套利。2017年11月17日,中国人民银行会同银监会、证监会、保监会、外汇局等部门起草了《关于
本文对VDR新规MSC333(90)进行了详细的解析,并对其与旧版本的不同点作了比较,梳理归纳了VDR系统接口及输入信号。针对在具体产品VDR系统接口设计过程中船级社提出的审查意见
<正>注射美容的优势微创(无创)、没有痛苦、安全高效、立竿见影(瞬间美容午餐美容)、风格自然,富有个性注射美容是用经皮注射的方法把填充剂(或注射物)注射到目标位置达到年
会议
新疆地方国有牧场经济发展缓慢的原因及解决办法的探讨居萍一、牧场经济发展缓慢的原因新疆地方国有牧场共有181个,其中种畜场19个(含国家级种牛场,种羊场,种马场各一个),经济牧场162个。这
美国通过产业集中、技术创新以及资本、人才、管理等要素配置,实现并保持了软件产业结构的优化,其经验值得我国借鉴。
针对目前地表水水质评价的模糊性、不确定性和权重确定方法存在的问题,采用最优组合赋权模型将主、客观权重进行优化组合,在可变模糊集理论的基础上,建立最优组合赋权可变模糊模
井口装置和采油树是石油和天然气生产中控制井下流体的关键设备。但酸性环境会使井口装置和采油树产生与腐蚀和应力有关的一系列金属开裂。这类开裂在井口装置和采油树组件远
糖尿病(DM)是一种以血糖升高为特征的疾病,其病因复杂,目前普遍认为胰岛素抵抗(IR)是2型糖尿病(T2DM)的主要危险因素,贯穿于T2DM发展的全过程([1])。国际糖尿病联盟(IDF)最新数据显示([2