面向中医药领域的命名实体识别方法研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:zua263net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术的广泛应用与国家政策的大力支持加快了中医药数字化发展的步伐,中医药数字化发展既是民生之需,也是弘扬民族优秀文化之举。中医药知识图谱的构建、寻医问诊对话系统的搭建等任务是当下火热的研究方向,而上述任务能否顺利进行,能否高效运行,命名实体识别技术都发挥着举足轻重的作用。命名实体识别技术作为中医药数字化发展的基石,旨在从中医药文本中识别出关键实体,面临着诸多挑战。除了中文命名实体识别本身固有的弱点之外,中医药文本专业性极强,文本相对白话文更晦涩难懂;文本格式不均衡,或长或短,截断、补全都有损文本语义完整性。针对这些痛点,本文做了如下工作:1、构建标准数据集。利用爬虫等技术搜寻中医医案、中医药说明书等原始数据,完成数据清洗之后,采取人工及自动化标注,共计药物名称、药物成分、药物性味、药物剂型、药物功效、疾病、症状、症候八类主要的实体。2、基于预训练语言模型提出两种针对性较强的中医药文本命名实体识别方法。中医药领域的实体都是专业术语,其语义信息的捕捉较难且极为关键。之所以选择预训练语言模型是因为其在语义表示方面的巨大优势,有助于增强中医药文本语义表示,从而使得文本特征提取更为准确。3、针对嵌套实体的优化。嵌套实体的存在很大程度上影响着识别效率,为此本文引用计算机视觉领域常用的仿射变换技术并加之改进,从丰富语义表示层面减少嵌套实体对命名实体识别的干扰。最后在自建的数据集上展开充分实验。结果表明进行嵌套实体优化之前,药物功效类实体的识别效果最佳,其准确率、召回率、F1值分别达到了93.11%、92.45%、92.78%。融合仿射变换机制后,各类实体的识别效果都有所增强,其中药物成分类实体的准确率提高了8.23%。实验数据分析结果表明了本文针对中医药领域提出的命名实体识别方法的可行性和有效性。
其他文献
过去的几年里,随着图形图像处理设备性能的大幅提高,深度学习席卷了计算机视觉大部分领域。目前为止,SFM(Structure From Motion)是计算机视觉中少数还是由传统方法占据优势的领域之一。传统的SFM算法大多依赖于几何计算,首先通过特征匹配找到两帧之间的相匹配的特征点,再利用几何线索的显式推理来重建三维结构,从而得到深度信息。这些算法经过多年的研究和优化已经取得了优秀的成果,但是在环境
学位
透明物体作为日常生活中常见的物体,对其进行操作是机器人领域中具有挑战性且亟待解决的问题。其中,如何实现透明物体的6D位姿估计已成为一个关键技术难点。目前,主流的6D位姿估计方法主要面向于纹理丰富或不透明的物体。本文将以透明物体作为研究对象,结合透明的光学特殊性,开展了对透明物体基于RGB-D的6D位姿估计方法研究,提出了纹理与深度信息融合的透明物体6D位姿估计方法。本文的研究内容主要包括:(1)针
学位
在现实世界中,真实数据往往来自多个异构源或者通过几个不同的特征集来描述,这便是多视角数据。由于多视角数据往往可以更为准确地描述目标对象,多视角学习已成为机器学习领域的重要分支之一。与此同时,多视角数据往往会由于一些不可控因素丢失一部分样本,从而造成数据的不完整性。为了更好地处理这些不完整的多视角数据,不完全多视角聚类成为独立于完全多视角聚类的一大分支。挖掘(不)完全多视角数据潜在的一致性信息是提升
学位
在经济快速发展的过程中,近年来社会用电量高速增长,电网需求也随之增加。为满足基本生活需求,保证居民正常生活,现有的电网规模日益扩张,增设的输电线路导致其分布更加繁杂,给电网安全带来了巨大的挑战。我国土地辽阔,地理环境复杂,为实现用电全国覆盖,部分输电线路需经过地质条件复杂的区域,复杂的地质条件因其受自然环境影响可能发生不利变化或异常变化,输电线路长期暴露在自然环境中,因其所处地质环境复杂,极易遭受
学位
得益于深度学习和卷积神经网络的发展,近年来图像超分辨率重建算法发展迅速。相比较于传统插值法和重构法,深度学习能够更有效地学习低分辨率图像与高分辨率图像之间庞大而且复杂的映射关系。但现阶段基于卷积神经网络的图像超分辨率重建网络不仅模型复杂度高,图像特征利用率低,而且对于设备性能的要求也很高。尤其是应用在复杂拍摄环境中的图像超分辨率重建算法,由于拍摄环境和设备的限制,加之环境噪声复杂,算法能够提取到的
学位
随着互联网平台的迅速发展,服装线上市场的发展也得到了拓宽。线上服装市场凭借简单快捷、价格便宜的特点,吸引了一大批线上用户,用户足不出户就能够根据个人喜好进行挑选和搭配。用户可以如此便捷的进行线上服装购物,都是因为商家对大量的服装图片进行了人工分类上传,这其中需要消耗了巨大的人力成本。目前这样的问题都可以通过深度学习的相关算法得到改善,例如通过深度学习算法对繁多的服装类型进行自动识别并分类,以此降低
学位
在我国药品研发行业快速发展的背景下,医药研发外包(Contract Research Organization,CRO)行业逐步进入人们的投资视野,业界日益关注CRO行业中的公司估值问题。本文旨在通过梳理国内外企业价值评估的理论和方法,在剖析我国CRO行业发展现状、以及泰格医药所属细分领域、行业地位、业务财务、盈利模式等特点的基础上,筛选出适合泰格医药企业的现金流折现法和乘数法的联合估值技术,合理
学位
高光谱成像(Hyperspectral Imaging,HSI)能提供丰富的空间及光谱信息,能实现对成像目标精细的识别与分类,被广泛应用在土地覆盖检测、全球环境监测、资源管理、自然灾害监测、星际探测和医学诊断等领域。高光谱技术与显微镜技术结合生成的显微高光谱成像(Micro-hyperspectral Imaging,MHSI)技术,在医学领域具有重要的地位。本文在自主搭建的显微高光谱成像系统上,
学位
2018年,我国重点推进国有企业去杠杆政策,国有企业开始寻求各种方式来降杠杆。永续债附加了递延付息、延期赎回条款,在满足条件时可以计入所有者权益、降低资产负债率,成为热门融资方式。但是企业在续期永续债时,票面利率会上升,因此大多数企业在第一个定价周期结束后就选择赎回永续债,永续债的实质仍为债券。这就导致了企业降杠杆长期效应不稳定,隐含着财务风险。同时,部分企业由于信用状况恶化而续期永续债,导致融资
学位
我国的不良资产证券化业务始于2005年,且在2008年受到金融危机的深刻影响,故而暂停了信贷资产证券化业务试点。但在恢复后的数年中,商业银行信贷资产证券化的规模不断扩大。同时,基础资产的种类也在不断丰富。个人住房抵押贷款、企业贷款、个人汽车贷款和信用卡分期付款占主要地位,累计占92%。随着信用卡不良资产支持证券产品的不断丰富和完善,其面临的各类风险也不容忽视,尤其是需要对信用风险进行科学测度。本文
学位