【摘 要】
:
目的本研究对生物医学事件中触发词及属性进行联合识别研究,通过构建双向长短期记忆-条件随机场(Bidirectional Long Short-Term Memory-Conditional Random Field,BiLSTM-CRF)模型,将事件触发词及属性的联合识别工作,转化为对句子中单词的序列标注问题,利用词向量、依存关系进行特征学习,并以药物警戒性事件为实证对象,对其结果进行评价,为药物
论文部分内容阅读
目的本研究对生物医学事件中触发词及属性进行联合识别研究,通过构建双向长短期记忆-条件随机场(Bidirectional Long Short-Term Memory-Conditional Random Field,BiLSTM-CRF)模型,将事件触发词及属性的联合识别工作,转化为对句子中单词的序列标注问题,利用词向量、依存关系进行特征学习,并以药物警戒性事件为实证对象,对其结果进行评价,为药物警戒性事件的细粒度抽取工作提供帮助,为相关信息的挖掘工作提供支持。方法通过调研国内外生物医学事件抽取的相关文献,对事件触发词、属性的识别工作展开研究,对其采用的方法进行梳理,确定本研究的识别方法。首先,对生物医学事件语料进行训练集、测试集的划分,并对语料中的单词进行IBO体系标注,标注出不同类型的事件触发词和属性。然后,根据大规模未标注的Pubmed摘要进行词向量的学习,生成词向量特征。之后,通过自然语言处理相关的分析工具Stanford CoreNLP进行句法分析,提取依存关系特征。之后,针对训练集,将词向量特征、依存关系特征输入BiLSTM-CRF模型中,选择合适的参数,通过标注好的事件触发词、属性类别,进行有监督的深层机器学习。最后,在测试集得到验证的结果,选择评价指标:精确率(Precision)、召回率(Recall)、F值进行效果分析。针对方法的评价方面,由于尚未发现有人做事件触发词及属性的联合识别工作,本文选择语料原文中的基于EventMine的触发词识别实验进行比较,先通过构建BiLSTM-CRF模型对触发词进行单独识别以证明方法的有效性,再对联合识别的效果进行整体的评价分析。结果(1)通过BiLSTM-CRF方法对药物警戒性事件中的触发词进行识别,其总体F值为74.2%,与原文中EventMine识别触发词的效果进行对比,其总体F值为61.6%。证明了本研究方法的优越性。(2)通过对药物警戒性事件进行触发词及属性的联合识别,总体的F值为72.5%,每个类别的F值都超过了70.0%。其中Manner方式属性识别效果最好,其精确率100.0%是所有识别结果中最高的,其次是Negated否定属性,精确率为91.7%,这和这两个类别的数量少有一定的关系。Combination结合识别结果的F值最低,为70.1%,其精确率高达92.5%,但召回率只有56.5%,说明其敏感性差,不容易被识别。召回率最高的是Adverse_effect副作用的触发词,达到了77.7%,和Adverse_effect数量多有一定关系,其敏感性好。结论生物医学事件的抽取工作是如今生物医学自然语言处理研究的热点,细粒度地抽取工作是未来发展的必然趋势,事件触发词及属性的联合识别,有利于精细化选择,提高信息的使用效率,便于相关人员更好地对当前信息作出预先判断。(1)本文对药物警戒性事件中触发词及属性进行了联合识别,结合了词向量、依存关系特征,基于BiLSTM-CRF深度学习模型,完成有监督的机器学习。(2)通过本研究提出的方法,联合识别出药物警戒性事件中的事件触发词及属性,识别结果表现良好。
其他文献
在如今的互联网时代,互联网产生的文本数据呈爆发式增长,面对大量的文本数据,如何快速地组织和分类这些文本数据并挖掘其背后的价值具有重要的意义。在此背景下,文本分类技术应运而生,文本分类方法通过理解文本的语义并概况出文本的主题内容,进而将文本归类到其所属的类别中,能够帮助用户快速准确的找到所需的信息。目前的文本分类方法大多是基于神经网络的方法,例如CNN、RNN和LSTM,虽然取得了很好的文本分类效果
在市场竞争愈演愈烈以及资源短缺和环境污染威胁日益加重的当今社会,市场竞争已经逐渐成为供应链之间的竞争,而逆向供应链又是这其中的重中之重,关于废旧产品的回收处理问题正是逆向供应链竞争的核心,便也成为了时下的热议话题。国内外纷纷出台相关政策,引导各行业企业规范回收处理,以实现资源的可再生利用以及环境的适度保护,实现资源环境的可持续发展。在复杂的回收网络中选择最合适的合作方、最恰当的模式,能够保持供应链
随着社会的快速进步与飞速发展,人们对于人体健康监测的关注推动了智能可穿戴器件的研究,尤其是柔性可穿戴传感器。压阻型传感器是柔性可穿戴传感器中一个重要的类型。由于传
本文以18650锂电池作为研究对象,在不同速度受到撞击挤压的情况下锂电池外部结构和内部结构变化规律,锂电池端电压变化规律,以及锂电池性能稳定变化规律进行分析。对锂电池进
高氮奥氏体钢的性能优异,具有很高的强度、耐腐蚀性、耐磨损性、良好的韧性及蠕变性能,可以应用于很多领域。但是这种钢铁材料在热加工、焊接和使用时,钢中析出的第二相会降
炼焦过程中产生的焦化废水是我国主要的一类工业废水,排放量巨大。焦化废水具有有机物浓度高、毒性大、可生化性差、成分复杂等特点,毒性物质对硝化的抑制和有限的可利用碳源
随着科技的发展,各种电子信息设备的普及,人们对信息安全要求也越来越高.以往繁多的符号密码已经不能于适应现在日益加快的社会节奏,急需要更安全、更便捷的身份验证手段.指纹识别作为古老的生物特征身份验证手段一直被人重视,人们以指纹识别理论为基础,结合现代信息技术和工具研发出了自动指纹识别技术.在传统的指纹识别算法中,仅仅使用指纹的细节特征点做为指纹识别的依据,而忽略指纹的整体纹线方向信息是不合理的.指纹
随着我国农业经济的增长和农业现代化的不断发展,农业科学技术的推广对于农业的促进作用越来越明显。农业技术推广是促进农业技术与农业生产相结合的重要环节,是农业信息化、规模化、现代化的助推器。在农业农技推广过程中,先进的科技示范户是普通农户中的先驱,他们有着较高的综合素质,创新的理念,丰富的农业生产经验,可以在新型农业技术推广的过程中发挥积极的推动和带头作用。农业技术在推广时,科技示范户对于农技推广服务
三国时期,割据纷争,经济不稳,是中国钱币发展进程的低潮时期。因为政治上的分离,魏、蜀、吴三个割据政权分别建立了各自的货币制度,并在沿用两汉旧钱的基础上,都各自铸造了新
在我国市场化改革进程中,上市公司普遍存在“一股独大”、内部人控制和大股东侵占中小股东利益等问题,为了更好的维护投资者的利益缓解公司治理问题,2001年我国上市公司全面引进了独立董事制度。独立董事作为企业董事会的一部分,在缓解公司委托代理问题、保护广大中小股东利益、完善公司治理结构等方面发挥着重要作用;与此同时,独立董事制度的引入也为公共部门人员在企业兼任独立董事等高管职务打开了重要通道。高校背景的