生物医学文献中模糊限制语及其范围的检测

被引量 : 0次 | 上传用户:ASINLU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献中包含了大量表示推测或不确定性的模糊限制语。由模糊限制语所引导的模糊限制信息并非确定的信息,在文本信息抽取时,应区别于事实信息。模糊限制语所引导的模糊限制信息通常不是整句,往往是一个从句或者短语。因此在识别模糊限制语的同时,对其控制的范围进行检测也同样重要。模糊限制信息的检测是将自然语言中的事实与不确定性信息区分开来,这对于事实信息的挖掘有重要的意义。本文主要研究生物医学英文文献中模糊限制语及其范围的检测问题。针对模糊限制语的识别问题,提出基于多特征条件随机场模型(CRFs)的模糊限制语识别方法。首先,将训练语料中出现的模糊限制语及其在WordNet中的同义词提取出来组成关键词词典,并利用基于关键词词典的方法进行模糊限制语的识别;之后,将基于关键词词典的识别结果作为特征引入到CRFs模型中,连同其他特征一起进行模糊限制语的识别。在CoNLL 2010提供的国际公开测评语料上进行了实验,模糊限制语识别的召回率达到85.44%,F1测评值达到86.32%。针对模糊限制语范围的检测问题,提出规则与统计相结合的模糊限制语范围检测方法。首先,利用句法结构和模糊限制语的词性,建立相应的规则进行模糊限制语范围的检测;其次,将基于规则的模糊限制语范围检测结果作为特征引入到统计模型CRFs中,连同其他特征一起训练;最后,利用后处理算法得到连续的模糊限制语的范围。该方法在CoNLL 2010提供的国际公开测评语料上取得了57.47%的F1测评值。实验结果表明基于CRFs的模糊限制语范围检测方法比基于规则的方法效果好,将其与规则系统结合后其检测精度有较大提高。本文的研究成果可以应用到许多自然语言处理任务中,如基因命名实体抽取,问答系统,生物文本信息抽取等。
其他文献
改革开放以来,中国30多年经济高速持续增长相伴随的是环境恶化和能源供求矛盾的突显。我国已经为以环境破坏作为代价的发展方式付出许多惨重代价,如1998年特大洪水、2008年南
随着人类社会的进步,人们应对各种突发灾害的能力也不断在提高,但是由于环境污染、人口剧增、城市化、工业化进程加速等因素,不论是自然灾害还是人为灾害近年来都呈上升趋势
近年来,人们越来越多的关注近海和湖泊的环境问题。近岸区、河口区是人类活动密集频繁区域,本身动力条件复杂,又处在陆海交汇的敏感地带,从而导致本区域生态环境脆弱。湖泊是
随着我国经济的快速发展,以及我国金融业的崛起,私人银行赖以存在的客户市场以及外部环境都逐渐成熟。2007年被称为我国私人银行业务“元年”,从此以后,私人银行业务在我国商
随着近些年来社会的快速发展,人们的生活水平得到了较大的提高。在此情况下,社会整体对电力资源的要求逐渐提升,在质和量上都呈现了前所未有的需求,这无疑给电力企业带来了较
癌症是严重威胁人类健康的恶性疾病。征服癌症是人类的共同愿望,对于癌症的治疗,抗肿瘤药物正占据越来越重要的地位。开发高效、低毒的抗肿瘤药物是征服癌症的不可或缺的工作
对泉州市2011年龙眼秋梢抽生期到2012年龙眼第二次生理落果期的农业气象条件进行诊断分析,按照不同时期龙眼生长可能受到的气象灾害指标进行计算,得出不同地区开花率的差异。联
随着移动互联网所引领的第五次IT浪潮的到来,手机、平板电脑等智能终端已经融入了人们的生活。伴随着通信技术的发展,人们的通信业务也逐渐增多,人们对终端的需求越来越高。
传统专业市场是一种以现货批发为主,集中交易某一类商品或者若干类具有较强互补性或替代性商品的场所,是一种大规模集中交易的坐商式的市场制度安排。从深层次来理解,专业市
卵泡发育过程中伴随着大量卵泡的退化,卵泡在到达排卵之前所发生的退化过程即卵泡闭锁(atresia)。卵泡闭锁是卵泡形成以后生殖细胞退化的主要方式,在所有的脊椎动物中都发现