论文部分内容阅读
目的:探索基于开源预训练表征模型的自然语言处理(Natural Language Processing,NLP)方法在电子病历ICD自动编码中的应用。方法:在电子病历文本字词向量的表达方面,传统基于浅层神经网络模型的Word2vec或基于深度学习模型Elmo等方法存在无法感知复杂上下文、语义单向编码等缺点。而近年来以BERT、ERNIE等基于Transformer编码的预训练字词表征技术在多个NLP场景中取得了较大的进步。通过对开源模型BERT采用微调(Fine-tuning),将三甲医院的439份电子病