【摘 要】
:
【目的】本研究针对互联网患者提问文本信息抽取需要大量人工标注、时间成本,以及实体识别准确率不高的问题,结合迁移学习和深度学习方法,借助领域外丰富的标注语料以及可重用预训练模型的先验知识,构建针对标注资源稀缺领域的跨领域命名实体识别模型(KNN-BERT-BiLSTM-CRF),以实现在目标领域有限标注情况下的命名实体识别任务,并构建肝癌、肺癌两种疾病问诊的标注语料,通过领域间的迁移实验,验证模型的
论文部分内容阅读
【目的】本研究针对互联网患者提问文本信息抽取需要大量人工标注、时间成本,以及实体识别准确率不高的问题,结合迁移学习和深度学习方法,借助领域外丰富的标注语料以及可重用预训练模型的先验知识,构建针对标注资源稀缺领域的跨领域命名实体识别模型(KNN-BERT-BiLSTM-CRF),以实现在目标领域有限标注情况下的命名实体识别任务,并构建肝癌、肺癌两种疾病问诊的标注语料,通过领域间的迁移实验,验证模型的有效性。【方法】本研究利用Python爬虫工具,在寻医问药和快速问医生网站的癌症问答社区爬取以肺癌、肝癌为主题的患者在线问诊文本,经过文本清洗得到原始语料集,标注规则的构建参考国外针对消费者健康问题提出的标注框架,选择了9种与癌症临床诊断密切相关的实体标签,结合多轮人工标注,分别建立了针对以上两种疾病类型的有标签语料库。研究借助jieba工具包对目标领域语料进行分词处理;使用Word2Vec模型的Skip-Gram方法获得文本词向量表示;利用Doc2Vec将文本转化成句向量;基于最近邻方法进行实例迁移样本选择;通过BERT-base中文预训练模型,获得文本字向量表示;利用BiLSTM-CRF模型,结合上下文信息进行特征提取,通过转移矩阵得到最终预测分值,进行识别结果的预测。【结果】根据本研究构建的实体标注体系,通过人工标注方法构建了2000条真实世界肝癌患者问诊文本的标注语料集。通过对该语料集的命名实体识别实验结果表明,当实例迁移的k值设置为3时,KNN-BERT-BiLSTM-CRF模型的实体识别效果最优,F值为96.10%,相对无实例迁移方法BERT-BiLSTM-CRF提高了1.98%,比传统深度学习方法BiLSTM-CRF提高了9.7%,证明了该迁移学习方法针对有限标注的肝癌患者提问文本,具有优秀的实体识别性能。【结论】本研究针对标注资源有限的患者问诊文本,提出了一种可借助大型预训练模型的先验知识和领域外标注语料,进行跨领域迁移学习的命名实体识别方法。实验结果表明,该迁移方法只需利用少量标注语料,便可有效识别患者提问文本中的个人信息、疾病症状、诊疗情况和药物使用等实体,实现对现有数据资源的充分利用,同时为相关疾病研究和自然语言处理研究提供参考。
其他文献
“一研·一式·一模型”的区域信息科技教研是回应新时代对深度教研的新需求。以“一研”(导向深度学习的信息科技教学研究)为教研目标,以“一式”(信息科技问题解决学习范式)为研究内容,以“一模型”(一轴双驱三联动)为教研机制,三者在推进信息科技深度教研的过程中,交融并行,推动区域教研实施“从有效到深入”,助力不同层次教师“从理解到行动”,在突破学科改革实施难点问题的同时,实现教研方式的创新。
近年来,重金属元素逐渐成为农产品安全检测的关键性因素。农产品重金属的检测方法大多是以液体进样的原子光谱技术为主,在实际应用中,仍然存在无法应用于快速检测、操作步骤繁琐等问题。因此,结合农产品重金属检测需求,利用原子吸收光谱法对农产品中的重金属进行检测,可为食品中重金属的现场、快速检测等提供有效的检测技术手段。
以教学方式的转变来推动育人方式的变革是新时期深化教育综合改革的重要任务。面对机遇和挑战,我们需要通过探索“新教研”来解决新课程、新教材、新课堂中的新问题。以深度教研运作模型为实践基础的“新教研”,旨在通过对教研活动的系统设计、规范操作和质量评估来提升教研活动的品质,增强教研深度。聚焦深度教研工具的研发和应用,分析教师在教研实践中对于工具的使用、结果的解析以及教研改进情况,有效推动了深度教研工具的完
高铁网络的演化是伴随着内源性与外源性同时发生的两个过程,城市群的演化则是城市演化及城市间产业关联的两个过程。高铁网络通过实现生产要素快流动与高效配置、加深城市间分工与合作水平两大路径推动城市群经济协同发展。实证结果表明,平均来看,高铁开通使城市间经济协同发展水平提高了1.96%。因此,为了提高中国城市群的经济协同性,应该加快高铁建设,优化城市群内交通网络布局,进一步优化城市群内部产业分工布局,进一
陆相断陷湖盆构造坡折带对于砂岩储集体的控制作用,近年来在国内各大含油气盆地相继有所研究,为隐蔽油气藏的勘探提供了一项新的预测方法。
《中国教育现代化2035》明确提出了普及有质量的学前教育的目标,学前教育理应回应时代发展的要求。在积极探索建设高质量且具有上海特点的学前教育的过程中,上海市市级示范性幼儿园园长需要率先思考:什么是学前教育的高质量?如何践行上海市政府提出的"学龄前儿童善育工程"?上海学前教育如何找准未来发展的新起点?实现上海学前教育质量的高位和可持续发展,是每一位示范园园长的责任与使命。
(2022年4月22日)这次会议的主要任务是,深入学习贯彻习近平法治思想、习近平总书记关于坚持和完善人民代表大会制度的重要思想,全面落实中央人大工作会议精神,进一步加强和改进新时代我省人大工作,不断丰富和发展全过程人民民主的河南实践,更好地把人民代表大会制度优势转化为治理效能,为实现“两个确保”、谱写新时代中原更加出彩的绚丽篇章提供有力保障。
知识图谱是近年来知识管理和知识服务领域中出现的一项新兴技术,它为中医临床知识的关联、整合与分析提供了理想的技术手段。我们基于中医医案等临床知识源,初步建立了由疾病、证候、症状、方剂、中药等核心概念所构成的中医临床知识图谱,以促进中医临床知识的互融互通,揭示中医方证的相关关系,辅助中医临床研