论文部分内容阅读
近年来,关于药的作用及其对人类健康影响的研究越来越多,相关的文献也迅速增长,工业界认为90%的药物标靶来自于生物医学文献,随之基于药的相关检索逐渐成为焦点。而为相关专家提高检索效率、方便获得资料的第一步就是要准确的识别出药名,构建药名词典。文中给出了从生物医学文献中抽取出药名来构建词典的方法,第一次将基于上下文模板的命名实体识别方法用于药名实体识别并结合了丰富的特征对候选药名进行去噪。它首先由有限的药名种子出发,从大量未标生物医学文献中抽取出上下文信息;然后选取每个上下文的引导词从而构建模板,文中所用生成模板的方法简单有效,利用它抽取出粗糙的候选药名集合:最后选择丰富的特征利用机器学习的方法,对候选词典进行去噪,得到高质量的大规模药名词典。词典中包含了很多在常用数据库(Drugbank)中没有的药名,抽样调查准确率达到了73%,潜在准确率达到了80.8%。方法在模板生成以及候选药名去噪时的特征选择上并不局限于药名属性,可以尝试将该方法用于其它生物医学文献命名实体识别。