基于模板抽取和丰富特征的药名词典生成

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:tenghua303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,关于药的作用及其对人类健康影响的研究越来越多,相关的文献也迅速增长,工业界认为90%的药物标靶来自于生物医学文献,随之基于药的相关检索逐渐成为焦点。而为相关专家提高检索效率、方便获得资料的第一步就是要准确的识别出药名,构建药名词典。文中给出了从生物医学文献中抽取出药名来构建词典的方法,第一次将基于上下文模板的命名实体识别方法用于药名实体识别并结合了丰富的特征对候选药名进行去噪。它首先由有限的药名种子出发,从大量未标生物医学文献中抽取出上下文信息;然后选取每个上下文的引导词从而构建模板,文中所用生成模板的方法简单有效,利用它抽取出粗糙的候选药名集合:最后选择丰富的特征利用机器学习的方法,对候选词典进行去噪,得到高质量的大规模药名词典。词典中包含了很多在常用数据库(Drugbank)中没有的药名,抽样调查准确率达到了73%,潜在准确率达到了80.8%。方法在模板生成以及候选药名去噪时的特征选择上并不局限于药名属性,可以尝试将该方法用于其它生物医学文献命名实体识别。
其他文献
本文制备了[BMIM]Cl and[MMIM]dmp两种离子液体,并分别在这两种离子液体和水中,在常温和较高温度条件下制备出了Fe3O4纳米粒子,对得到的粒子通过透射电镜、X射线衍射分析、热重分析及磁性测量进行了表征研究。结果表明:离子液体在Fe3O4纳米粒子制备过程中除作为溶剂外,还起到了分散剂和稳定剂的作用,可显著提高纳米颗粒的分散性和粒度均匀性;可通过不同的介质来调控纳米Fe3O4颗粒的磁性
本研究探讨ZrO2的添加方式对以boehmite为原料制备次微米级球形α-Al2O3粉末的影响。实验以商用gibbsite为起始原料,依序经230℃热水处理及950-1100℃热处理步骤,先获得boehmite再转为θ-Al2O3。接着分别藉由珠磨加入磨屑方式及与化学品混合方式,将不同含量的ZrO2加进boehmite及θ-Al2O3粉末中,利用DTA、XRD及TEM观察ZrO2的添加方式及含量对
本文采用溶胶-凝胶自蔓延法合成锶掺杂的铁酸镧(LSF)粉体,在此基础上制备了LSF与钇稳定的氧化锆(YSZ)的复合材料,并研究了该材料应用于固体氧化物电解池(SOEC)阳极的各方面性能。通过XRD、TEM、SEM等手段研究了该材料的化学稳定性及微观结构。通过动电位扫描研究了该阳极材料的电化学性能。TEM分析显示以该方法制备得到的LSF20粉体粒径在20~50nm之间,颗粒形状较为规则。SEM结果显
采用机械力化学包覆方法,通过在绢云母表面包覆TiO2制备了绢云母/TiO2复合颗粒(SRI/Ti-CPM)。实验研究了SRI/Ti-CPM制备工艺因素的影响和SRI/Ti-CPM的颜料性能,结果表明,绢云母研磨粒度、复合时间、球料比和TiO2用量对SRI/Ti-CPM性能影响显著;SRI/Ti-CPM具有类似钛白粉的颜料性质,遮盖力为钛白粉的90%,吸油量和紫外线吸收功能与钛白粉相同,用于涂料具有
在水平Y型分支管上,采用压缩空气作为输送动力,小米作为输送物料,进行气固两相分流试验,考察了分流过程中的固相流量分配特性的变化规律。研究发现,随变动支管与主管夹角的增大,流量分配特性曲线呈整体下移趋势;对于不同结构的Y型分支管,当气体速度低于一定值时,流量分配特性曲线将出现拐点,但时机并不同步;继续降低气速,不同夹角的支管的流量分配特性曲线具有不同的单调性。最后,采用人工神经网络对固相流量分配特性
本研究利用微粒成长的热力学模式分析单晶型奈米α-Al1O3纤维之直径与长度间之存在关系。目的在探讨以热处理所制得的Al2O3纤维之直径的下限(最细)。Α-Al2O3纤维以静电纺丝法(Electrospinning)制得。纤维之直径与长度则以高解析电子显微才技术观察量测。其间并对此单晶缀维的成长微结构加以分析。研究发现,此单晶奈米α-Al2O3纤维所能存在的最小直径约为17nm。纤维由发育完好稳定的
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。这些突发事件或话题在论坛中并不是显而易见的,它们需要通过人工的总结与归纳。这需要花费大量的人力资源,并且效率低下。如何使用机器自动化的方法抽取论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题抽取问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻
近年来,越来越多的研究者关注博客倾向性检索。它的目标是检索出不仅与特定查询主题相关而且具有对该主题有评论的博文单元(包括博义及其评论),并依据倾向性强度(即,度量博丈对特定查询的强弱)进行排序。目前大多数研究工作仅仅通过单个博文单元对查询主题的倾向性强弱对博文进行排序。然而,因为博客是博主表达自己观点情感的媒介,所以博主的个性风格能够很大程度上影响着倾向性强度。例如,乐观的博主往往用褒义程度比较强
垃圾短信过滤是一个文本分类问题。如何设计分类器,可以在训练样本较少的情况下达到可观的精度是一个重要的问题。本文对传统分类器的结构加以改进,设计了一种基于潜在中间层的两级分类器,每级用贝叶斯方法实现。进一步地,将朴素贝叶斯分类器与之加权结合。实验结果表明,两级分类器大幅度提升了分类错误率的收敛速度。组合分类器在此基础上提高了训练样本较多时的精度,集成了两者的优点。
情感分类是一项具有较大实用价值的分类技术,它能够识别文本内容中隐含的情感或观点,在互联网信息日益丰富的今天,情感分类可以在一定程度上解决信息杂乱的情况,方便用户准确获取所需信息.然而,由于数据的标注耗时耗力,情感分类面临着只有极少标注数据和大量的无标注数据的问题.本文提出了一种新颖的基于线性邻域扩散的半监督学习的文本情感分类算法.假设空间中存在一个情感流形结构,待分类文本看做是这个流形上抽样的点,