基于预训练模型的生物医学文本问答研究

来源 :聊城大学 | 被引量 : 0次 | 上传用户:BING_YAN3414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学领域的问答系统,不仅能让普通用户简便快捷地解决自己的疑问,还可以服务于该研究领域的专业工作者。因此,对生物医学领域文本问答的研究具有重要意义。在过去几年里,文本问答在生物医学领域受到了广泛的关注,但此研究也面临着长期的挑战。互联网的迅速发展造就了今天的数据爆炸时代,在此环境下,尽管人们可以快捷方便的获取大量感兴趣的信息,但甄别有效的信息却又非常困难。自然语言处理领域中文本问答成为当今学术界和工业界共同的研究热点,使得这一难题的解决成为可能。在生物医学领域,对文本问答的研究主要集中在基于阅读理解的问答,基于知识库的问答研究较少,而且现有的基于知识库的问答研究常利用规则或本体,构建过程复杂,耗时耗力,且效果一般。针对以上问题,本文聚焦生物医学领域文本问答进行了以下研究:1.本文提出了一个基于预训练模型的生物医学文本问答系统Bio BERTserini,该系统利用了深度学习中的神经网络技术,解决了基于规则或本体方法的缺陷。针对现有的生物医学文本问答系统研究集中于阅读理解,而忽略了基于知识库的问答这一问题,Bio BERTserini将Bio BERT预训练模型与Anserini信息检索工具包集成在一起,在不同级别的检索知识库上进行了实验,实现了基于大型知识库回答现实世界中的生物医学领域问题。结果表明,与现有的系统相比,本文提出的系统在Bio ASQ事实类问题和是否类问题上取得了更好的效果。2.为了进一步提升问答系统的性能,本文使用了结构简单但功能强大的基于神经排序的方法对生物医学问答系统进行了改进。改进的问答系统分为检索、文档重排序、答案提取三个阶段。在检索阶段使用了传统的基于BM25的文档检索器对知识库检索。针对生物医学领域缺乏问答系统的知识库(如开放领域的维基百科)的情况,本文收集了Pub Med量级大小的数据,并进行了格式转换,使其包含了可以直接或间接回答所有问题的信息。文档重排序阶段使用了基于BERT的神经排序器模型,创建了神经排序语料库对模型进行微调,然后使用了模型对文档进行了重排序,使得与问题相关的文档排序更加靠前,从而进一步改善了检索的结果。答案提取阶段使用了Bio BERT预训练语言模型进行答案提取。在答案提取阶段,需要使用少量的监督训练数据进行模型的微调。鉴于生物医学领域缺乏足够的监督训练数据,本文采用了数据增强和领域自适应技术,以进一步加强系统性能。本文与现有方法进行了对比并在Bio ASQ8b上获得了较好的结果。
其他文献
通过现场调查采样、实验室分选分析,对2020年6月采自南海中部海盆13个站位的沉积物样品进行了研究,获得小型底栖生物和自由生活线虫的相关数据。13个站位共分选出14个小型底栖生物类群,包括自由生活线虫、桡足类、多毛类以及寡毛类等,小型底栖生物平均丰度204.4±55.6 ind./10 cm~2,平均生物量914.2±794.2μgdwt/10 cm~2,自由生活线虫是最为优势的类群,丰度占小型底
学位
2019年7月至2021年5月对黄海潮间带(北纬31°4′至35°6′,东经119°1′至121°6′)进行了样品的采集,对其中8个站位沉积物样品的自由生活线虫进行了群落结构、分类和多样性研究,建立了黄海潮间带自由生活线虫种名录,发现并描述了该海域的新种和新纪录种。通过对黄海潮间带沉积物样品的分选统计,共分选出6个小型底栖动物类群,其中自由生活线虫优势度最高,其平均丰度为1607±579 ind·
学位
楔形衣科(Gomphillaceae)地衣型真菌隶属于真菌界(Fungi)、子囊菌门(Ascomycota)、茶渍纲(Lecanoromycetes)、厚顶盘目(Ostropales),其模式属为Gomphillus Nyl.。目前为止,全世界共报道该科有26属560余种;中国报道11个属37种。楔形衣科广泛分布于热带、亚热带。该科主要识别特征为:地衣体多为叶生,壳状;表面呈绿色、橄榄绿、灰绿色等
学位
几丁质作为第二大碳水化合物和第二大含氮有机化合物,其降解产物N-乙酰氨基葡萄糖、几丁寡糖及其衍生物具有多种生物活性,在许多领域广泛应用,具有重要的市场价值和研究前景。生物酶法降解几丁质具有条件温和,产物纯度高,对环境友好等优势,是现代几丁质产业的发展方向。但目前存在单酶降解活力差、生产效率低的问题,致使其难以实现产业化。因此,实现结晶几丁质的高效低成本酶法转化为高附加值产品,具有重要研究意义。从土
学位
甾体药物具有显著的抗过敏、抗感染、抗休克等生理和药理功能,其在消炎及内分泌调控等方面属刚需用药,市场前景十分广阔。我国是全球甾体激素药物的生产大国,也是世界上最大的甾体原料药生产国,其中70%用于出口,年产值超百亿元。雄烯二酮(AD)作为甾体药物核心原料药可合成绝大部分甾体激素类药物。以植物甾醇为底物,微生物转化技术体系的建立,为AD的工业化生产奠定了坚实基础。新金分枝杆菌(Mycobacteri
学位
试验旨在验证生物发酵黄牛粪便饲料的安全性及其对麻鸭生长性能的影响。将嗜酸乳杆菌等按比例制成微生物混合菌剂,辅以辅料、木醋液对黄牛粪便进行发酵,制成发酵饲料后用以饲喂麻鸭验证其生物安全性,分析其对麻鸭生长性能的影响。结果表明,在发酵的40 h内,常见的肠道致病菌大肠杆菌等有效减少并减低至安全范围内,重金属含量经过木醋液处理后符合饲料卫生标准。粗蛋白、粗纤维和粗脂肪含量均低于发酵前,真蛋白和氨基酸含量
期刊
选择性多聚腺苷酸化(Alternative polyadenylation,APA)是真核生物重要的前体RNA加工机制。Poly(A)位点的选择决定着m RNA 3’UTR(3’untranslated region)的长度,更长的3’UTR包含更多的与miRNAs(micro RNAs)和/或RBPs(RNA binding proteins)等结合的顺式作用元件。因此,APA通过调控3’UTR
学位
当今我国正处在开放的全球环境和思想多元化的背景之中,而高中生也正处在人生的关键时刻,以德育为先更具紧迫性。2016年,习近平提出:“思政工作要把立德树人作为根本任务,使各类课程与思想政治理论课形成协同效应。”可见,思想政治教育应该在所有学科中推广。本研究从生物学学科的角度出发,将“课程思政”有效的融入生物学课堂教学中,充分发挥在立德树人中的关键作用。本文采用文献研究法、问卷调查法和实践研究法等,将
学位
传统教研,形式单一、环境封闭,在信息化教育迅速发展的大背景下,已经越来越不能满足教师成长的需求。而网络教研不受地域限制,几乎无需经费投入,就能与教育专家、教研员和一线教师在同一时间下共同研讨、交流和学习。借助网络,我们可以实现跨地域、跨人群互动,因此网络教研比传统教研更加灵活和多元。网络教研虽有明显优势,也有不少大胆尝试的案例,但目前尚未有完全成熟、可供直接参考拿来就能用的一套模式。作为一名一线高
学位
近年来,我国人畜争粮的问题日趋严峻,饲料成本上涨,消费者对绿色生态肉蛋奶的需求量大增,全球畜禽养殖抗生素的减用、禁用已成趋势。发酵饲料具有绿色环保、代替抗生素、降低饲料成本等优点,对我国饲料资源开发利用、生态养殖、绿色畜禽产品生产等极具应用前景。因此,使用发酵饲料保障优质肉蛋奶供应具有重大战略意义。文章从牛羊发酵饲料的优势、原料与菌种选择、发酵工艺和在牛羊生产上的应用等方面进行综述,助推牛羊产业的
期刊