基于半监督条件随机场的中文电子病历分词研究与应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jiandancaozuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历(Electrical Medical Record,EMR)是医疗健康大数据的重要组成部分。一份电子病历由医护人员记录,通常包括数值化数据,医疗图像以及描述性文本。对电子病历进行分析利用对提升医疗服务水平具有重要意义。对电子病历中描述性文本的分析与处理依赖于电子病历的中文分词结果。与英语类语言不同,汉语语言使用字符表示语言实体,不同的字符组合表示不同的语言成分,如单词,主语,谓语,副词等。汉语常用字符约为5,000个,不同的字符组合表示了丰富多彩的汉语词汇。在应用自然语言处理技术处理中文电子病历中的描述性文本时,一个基本的前提是从中文字符序列中提取出相应的单词序列,并基于单词序列进行后续的词性标注、语义角色提取、文档分类等分析任务。随着电子病历的大量产生,如何有效的处理中文电子病历是一个急需解决的难题。中文分词作为中文自然语言处理的基本任务,得到了广泛的研究。学术界提出了一系列方法,并在公开数据集上取得了良好的效果。传统分词算法多基于有监督的学习方式,训练与测试数据集一般是来自于新闻等领域的语料。语料规模相对较小,但标注难度大。算法推广应用到其他领域,如医学、法律、金融时,面临着领域迁移的难题。在获取特定领域的标注数据时,需要一定的专业知识。专业知识的缺乏将导致标注数据的质量下降,进而影响分词算法模型的质量。此外,随着中文互联网的快速发展,新兴词汇不断涌现,对分词算法的新词识别能力提出了挑战。本课题提出一种基于条件随机场(Conditional Random Field,CRF)半监督词典分词算法处理医学领域的中文分词任务。基于CRF的分词算法将中文分词任务视为序列标注问题,由输入的变量序列预测对应的标签序列。算法要求训练数据中每个样本观测变量序列对应一个唯一的标签序列。本课题提出的半监督学习算法降低了对训练数据的标注强度,允许一个观测变量序列对应多个标签序列。通过弱标注的数据学习得到模型参数。在获取弱标注的数据时,采用双向最大词典匹配的方法。对同一个字符序列,利用词典进行正向最大和反向最大匹配,获取同一字符的两种单词切分序列,取二者交集作为强标签部分,差集作为弱标签部分。通过词典的方式获取训练语料,引入了词典信息,训练得到的模型可有效解决领域迁移与新词识别的难题。实验结果表明,半监督分词算法应用于中文病历文本分词时,可获取93.38%的F值。利用半监督CRF的分词结果,本课题提出一种基于隐式狄利克雷分布(Latent Dirichlet Allocation,LDA)的医学病历文本分类算法。利用半监督CRF算法对病历文本进行分词处理后,由LDA学习电子病历的主题向量。在学习得到的主题向量空间中,利用逻辑回归(Logistic Regression,LR)学习分类模型。实验结果表明,在少量人工参与的情况下,本课题提出的电子病历分类算法可取的81.1%的分类准确度。
其他文献
目的:基于数据挖掘明清医家治疗呃逆的证治特点及用药规律。方法:以《中华医典》(湖南电子音像出版社,第五版)为检索库,收集明清时期医家治疗呃逆的条文及医案。依据医案的纳
目的:系统评价使用氟康唑预防极低出生体重儿侵袭性真菌感染的疗效和安全性,为临床更好地预防性使用氟康唑提供依据。方法:计算机检索Pubmed、Embase、Cochrane Library、万方、维普和中国知网数据库,检索时间为建库至2018年10月31日,纳入对极低出生体重儿(very low birth weight infants,VLBWI)预防性使用氟康唑的随机对照试验(RCT)。主要结局
胶质母细胞瘤是恶性程度最高的脑部肿瘤并且预后较差,其疾病进展快速且易致死,患者的中位生存期都较短,一般仅为12个月。目前胶质母细胞瘤的标准治疗方法是在安全可行的范围内进行手术切除然后辅以药物和放射性治疗。但是患者的术后复发概率较高并且复发时间较短(通常在8个月之内)。恶性胶质瘤侵袭能力的强弱是肿瘤原位复发以及远端转移的重要因素,肿瘤转移是癌症患者中最常见的死亡原因。此外,由于肝癌在我国的癌症致死率
目的:体外研究含MDP的不同材料用于唾液污染后的氧化锆陶瓷的粘接,对其与树脂短期粘接强度的影响。方法:制作并筛选出氧化锆陶瓷样本56个(0.9cm×0.9cm×0.3 cm),根据预处理
癫痫是一种动态的脑部疾病。癫痫对认知影响的研究是认知科学领域的重要课题,以提高癫痫患者的生活质量为最终目的,但是现在对其机制的认识还很少。基于此,本文主要通过脑深
同义词教学一直是对外汉语词汇教学中的重点和难点,而“充满、充分、充足、充实”四个词具有相同语素且词义上相近,使用中容易混淆,对二语学习者造成不小的障碍。本文从国家
研究背景类风湿性关节炎(Rheumatoid Arthritis,RA)是一种系统性自身免疫疾病,发病率约为0.5%~1%。临床表现主要为侵蚀性、对称性多关节炎,最终可能导致关节畸形和功能丧失,严
胶质母细胞瘤(glioblastoma,GBM)是中枢神经系统最常见的原发性恶性肿瘤。作为肿瘤细胞的体积调节蛋白,NKCC1(Sodium-potassium-chloride cotransporter 1钠钾氯共转运体1)的
棉花(Gossypium hirsutum L.)是我国重要的经济作物之一,同时也是首要的纤维作物和重要的油料作物。棉花纤维是由位于子房内的胚珠外被上的表皮细胞分化发育而成的一种无分支
在山东省台儿庄区的一个村落,生活着一个特殊的群体,他们由陶组成了一个稳定、和谐的家族。陶就是与他们生活紧密联系的物,赋予了他们社会身份,而特定的社会身份直接决定着人