大数据环境下基于社交媒体的药物不良反应识别研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:aihaiyuguijing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,药物不良反应(Adverse Drug Reactions)逐渐成为威胁人类健康的一大原因,在美国,药物不良反应已经成为了全美第四死亡率的原因,在中国每年约有18万人因此丧失掉生命,相关的成本每年约有75亿美元。因此,药物不良反应的研究对全社会来说意义重大。而以往的药物不良反应的研究方式主要有两种方式:第一,在药品上市之前,通过临床试验,获得药物不良反应类型;第二,在药品上市后,通过医院等相关单位跟踪药品使用情况来获得相关知识。但是,这两种手段均有缺陷,例如,临床试验规模有限、跟踪报告可能导致报告不全、速度过慢等。所以通过社交媒体研究药物不良反应成为了研究热点。社交媒体(如推特、微博等)是随着移动互联网兴起的新的网络交互方式,普通人第一次成为了大众媒体的发声者。随着人们在社交媒体上讨论其健康情况,社交媒体也就成为了药物不良反应研究的数据来源。本文的主要工作有两项:第一,如何在社交媒体中识别出药物不良反应的推文;第二,如何在这些推文中将不良反应的实体识别出来。在药物不良反应的分类任务中,本文构建了一种端到端的基于注意力机制的,结合Bi-LSTM和Char CNN的神经网络模型。研究结果表明,使用Char CNN提取字符级特征能够很好的弥补只使用词向量特征,能够更加丰富推文的信息特征。能够显著提高分类的准确性,超过了现有的基准方法,提供了一种端到端的社交媒体药物不良反应检测模型。在药物不良反应的实体识别任务中,本文从推文的不同粒度出发,构建了一种端到端的,融合了BERT模型的神经网络模型。本文为药物不良反应的研究提供了端对端的模型,使之能够快速推广开来。本文利用BERT、Character CNN、句法依赖分别提取词级别、字符级别、和句子级别的信息,然后使用多重长短时记忆网络结合词向量和句法依赖以及字符向量,最后模型的效果,在Twitter数据集上的F1值为86%左右,在Pub Med数据集上的F值为95%,均优于谷歌的BERT模型。
其他文献
随着科技的不断进步,电子产品更新迭代速度在加快,废旧产品的闲置与弃用加速了资源的浪费与环境的污染。生产者责任延伸制的出现使得制造商需要对产品的全生命周期负责。从回收上看,制造商一般会选择自行回收或是和第三方回收商进行合作来完成产品的收回工作;从再制造上来看,制造商会通过自主再制造生产或交给第三方独立的再制造商来完成。为了研究再制造产业对供应链成员所带来的影响,本文研究了市场细分下和外包条件下的再制
学位
由于清洁、高效、便利的优势,天然气在能源系统中占据了重要位置。能源市场的转型、天然气产业链的发展以及节能环保政策,既给天然气行业的发展带来了机遇,也带来了挑战。天然气供需失衡、天然气进口量的增加、天然气价格改革等冲击着天然气市场。天然气市场的稳定性对我国能源经济发展和清洁能源建设有着重要的影响。同时天然气的发展有利于推进能源转型、实现中国碳达峰和碳中和的目标。城市燃气作为天然气产业链中的重要一环,
学位
近年来,中国采取了有针对性的措施来促进智能制造的发展,并为传统制造企业的智慧工厂建设指明了新的方向。智慧工厂的提议将连接产品与制造业之间的关系,并将在与智能制造的联接方面发挥承上启下的作用。在当今互联互通的时代环境下,当公司的能力达到一定程度之后,则会通过全球化来把资源进行更好的分配,减少成本消耗的同时也能提高效率。要寻求全球优质、低成本材料供应的地方,除了考虑销售费用和生产费用外,我们还要注意到
学位
移动互联网的蓬勃发展带动着平台业务的升级与转型,行业中由于平台数量增多及结构多样化所造成的不同竞争形态对各平台的运营策略提出挑战;再者,有别于传统市场为吸引消费者而以较低价格创造较高使用价值,平台竞争具有多面性,其定价等运营策略影响着平台两侧的供求关系。这使得处于不同竞争形态的平台运营策略选择问题复杂且具有现实意义,本研究使用金字塔空间模型来描述多平台竞争及用户选择行为,以各平台利润最大化为目标构
学位
集成电路产业作为电子信息产业的核心,引领着前沿科技和新兴产业的融合方向。随着世界各国对战略性新兴产业的高度重视,中国集成电路产业的国产化进程迎来了新的机遇。然而,部分西方发达国家为维护自身产业领导地位,阻挠中国集成电路产业的国产化脚步。中国集成电路产业呈现出研发资金持续投入、而创新资源严重不足的局面。在此背景下,有必要基于产业特性搭建效率评估的多维指标体系,对企业的运营效率进行全面客观的评价,并进
学位
随着信息技术的快速革新,信息资源价值也逐渐显现,公共信息资源开放已成为当今社会各界关注的焦点及各国信息化发展的必然选择。为契合时代发展要求,我国政府也颁布了大量政策,但相较于其他西方国家,我国公共信息资源开放目前仍处于初期阶段。因此为进一步加快我国公共信息资源开放进程,必须制定并完善配套的、科学合理的政策体系,从而为我国公共信息资源开放工作的全面展开提供重要保障。为此本文以我国中央及三大经济圈地方
学位
血液作为临床医疗的必备品,除了具有生命周期短、供需不确定等特征,还具有短缺浪费严重的现象发生。突发性事件是临床上不可控的因素之一,而在此之下血液的应急保障是为了高效且安全地满足合理用血,最大程度地减少资源浪费、人员伤亡的重要措施。而稀有血液因其特殊性,其库存保障是临床医学工作中亟待解决的重要问题。要做到最大限度地提前预估及预判,就要及时准确地掌握医院血库中稀有血液的库存以及日常消耗情况。通常为了应
学位
移动互联网的迅速发展扩充了包括但不限于文学、艺术等享有版权的作品的展现形式及分发渠道。用户对于这类作品及其衍生品的需求程度也极大的提高,作品的版权价值随之大幅提升。对于版权作品的盗版、侵权等行为不断涌现,严重打击了创作者的积极性,对作品的价值也产生了负面影响。版权行业对于版权保护的需求日益提高。现有的版权保护模式存在申请周期过长、成本过高、限制传播渠道等缺点,使得新兴的以数字媒体、互联网方式流通、
学位
经济全球化和消费需求差异化的快速发展致使产品市场的竞争日趋激烈。激烈的竞争驱使制造企业寻找合适的上游供应商并与之建立长期的战略合作关系,以满足市场需求,提高生产效率和产品质量,进而强化供应链的竞争优势。而信息的通透性是影响供应链绩效的关键因素。信息作为供应链的载体,对上下游企业间的合作和资源的有效利用作用重大。长期以来,由于信息不对称和节点企业利益不一致的普遍存在,下游的制造商与上游的供应商一直处
学位
在科技文献海量的今天,大多数科技文献检索系统仍采用以篇为单位的方式描述和组织文献,这种知识组织方式缺乏对文献内容语义的丰富描述与组织,不能满足用户精准化的知识需求;此外,科研人员在对科技文献进行检索时,检索系统反馈的是整篇科技文献,科研人员需要花费大量时间和精力在每篇文献中寻找需要的知识单元,这一检索方式不能满足科研人员们精准化的检索需求。为了实现对每篇科技文献内部内容的语义导航,向用户提供精准化
学位