在线医疗服务平台的语义挖掘算法研究

来源 :东北电力大学 | 被引量 : 0次 | 上传用户:wscmjk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,国家大力推进“互联网+”产业模式的建设,在线医疗产业作为我国全民信息化健康平台的重要组成部分,促进了优质医疗资源的共享,推动了高水平医疗的普及化与多元化发展。然而,传统数据处理方式难以有效处理随之产生的医疗文本数据,制约了在线医疗的发展。因此,如何建立有效的数据处理方式,从中挖掘有价值的医疗信息,已成为我国在线医疗产业亟待解决的关键问题之一。本课题针对传统数据挖掘算法难以有效处理在线医疗服务平台的大规模、低质量文本数据,提出了基于深度学习的在线医疗服务平台数据的语义挖掘算法。首先,通过对在线医疗服务平台数据的分析发现,该类数据具有语义复杂多样性、医学专业词汇缩写多、噪声词干扰性强等特点。针对上述特点,本课题提出基于动态规划计算词汇编辑距离的语义消歧模型。该模型结合医学缩写词库利用正则表达式对原始数据进行缩写还原,并在此基础上结合大规模英文常用词库利用动态规划计算词汇编辑距离,修正拼写错误词汇,消除缩写词与错误词对文本数据的干扰。在此基础上,利用自然语言处理技术对数据进行降维,提高模型的计算效率,为实体识别提供数据基础。其次,针对传统数据挖掘算法难以对专业词汇进行命名实体识别,本课题提出了基于膨胀卷积神经网络与条件随机场相结合的命名实体识别算法。膨胀卷积神经网络较传统卷积神经网络具有更大感受视野,充分利用了文本语义环境,有效解决了因文本长距离依赖带来的实体识别不准问题。在此基础上,结合噪声线性余弦衰减算法提高学习率衰减加速度,加快模型进入精细学习阶段,增大模型训练最优解的出现。最后利用条件随机场计算标注序列的转移概率,输出最大转移概率的实体词汇,从而实现了对在线医疗服务平台文本中专业词汇的实体抽取。最后,为提高在线医疗服务平台提取实体语义关系的有效性,本课题基于词频-逆文档频率算法思想提出噪声率、平衡因子及逆文件词组频率三类量化因子,利用量化因子对提取的实体语义关系的重要度进行量化,并根据量化结果评定实体语义关系的紧密度。在此基础上,利用提取的实体语义关系查询并返还包含此类关系的文本数据,从而实现了对在线医疗服务平台文本中实体语义关系的有效提取。经实验验证,本课题方法可充分利用文本语义环境,提高对实体抽取及其语义关系提取的能力,从而挖掘出在线医疗文本中的潜在医疗知识,推动我国全民健康信息平台的发展。因此,本文的研究具有一定的实际应用价值。
其他文献
油砂作为非常规油气资源,尽管由于经济原因并非优先开发利用的对象,但对其进行研究储备有助于战略意义上保障国家能源的安全。热解干馏可以将油砂沥青分解成低分子烃类进行回收,油砂中的硫原子随热解过程的进行以有机硫的形态迁移至焦油产物,影响油品质、阻碍对油砂的工业化利用。目前的研究方向均把目光放在对产物中的硫进行脱除,而我们希望探究难以脱除的硫是如何形成的。应用传统的实验技术难以在微观层面研究硫的迁移,因此
随着人类对化石能源的过度依赖,全球能源危机日趋严峻。此外,在化石能源利用过程中,过度的可吸入颗粒物、温室气体等燃烧产物排放,造成了严重的环境污染和全球变暖。面对日益严重的能源危机和环境气候问题,开发替代燃料已成为目前研究的热点。生物柴油是新型环境友好型替代能源,其主要成分为碳数分布在C6~C24的长链脂肪酸酯,被认为是一种优质的替代燃料,国内外学者已经对其展开了广泛研究,是当前能源开发利用的重要方
随着工业发展的飞速进步,传统能源的日益消耗带来了众多的环境问题,可再生能源越来越引起社会各界的重视。太阳能以开采灵活、储量无限等优势成为一种理想的替代能源。纳米技术的发展为实现太阳能高效吸收和利用提供了有效途径,双金属纳米颗粒能够有效整合两种金属的物理和化学性质并同时表达每种金属的独特性质,进一步提高光散射、光热转换、等离激元共振衰变和光子激发等性能。探索和了解核壳双金属纳米颗粒中能量衰减路径和能
本文研究了一类可压缩的非牛顿流体方程(?)(1)强解的局部存在唯一性.其中ρ,u,π分别表示流体的密度、速度及压力,ρ0 ≥ 0,A>0,γ>1.对于此类问题,由于方程具有奇性,且初始密度是允许有真空的,直接去证明问题解的存在唯一性在性是有实质性困难的.因此,我们需要把问题分成两步来考虑.首先,我们要考虑初始密度非真空的情形(ρ0>0):令u0=0,建立如下迭代方程(?)其中(?
当前全球化石能源的总量变得越来越短缺,并且煤炭等化石燃料的燃烧加重了环境的污染,造成了全球变暖等一系列的问题。众所周知,氢能热值高、性能优越、无毒并且环保,可作为替代传统化石能源的清洁能源。同时玉米秸秆等农业废弃物也是一种能够被广泛使用的可再生资源。随着科研人员的广泛研究,发现可以利用生物质玉米秸秆等农业废弃物作为氢气生产的原材料,气化等方法作为当前生物质制氢常用的方法之一,但是这些方法有消耗能源
腔体内的对称旋转流动一直是许多学者致力研究的课题,其中最为广泛的腔体是具有旋转端壁的圆柱形腔体。因为即使在稳定的层流条件下,在这种腔体中也会发生重要的流动现象,旋涡破裂。在圆柱腔体外部施加均匀磁场或者温度梯度会因为洛伦兹力和浮升力对腔体内流体流动时产生的旋涡破裂和热量传递造成影响。为了分析均匀磁场和温度梯度对腔体内流体流动的影响,本文对磁场作用下由上端壁驱使流体转动的绝缘圆柱腔内流体的流动和传热做
面对频率高、交易时间间隔不规则的金融市场高频数据,传统计量经济学模型不再适用。为了解决上述问题,自回归条件久期(ACD)模型利用金融高频数据的特征以不规则的时间久期建立模型,备受海内外学者关注。对数自回归条件久期(Log-ACD)模型是ACD模型的重要拓展形式之一,刻画了时间久期与其条件期望的非线性关系。许多实证研究表明,该模型对于金融市场微观结构的分析效果显著。本文便针对Log-ACD模型进行理
多时序交易及其结算是电力市场的关键核心组成部分,既直接关乎市场成员的经济利益,也影响市场的安全稳定运营。随着我国新电改的持续有效推进,电力交易将呈现多类型、多模式、多层级的特点,对价格形成机制和结算模式的适用性提出了新的挑战以及更高的要求。因此,亟需系统深入研究国内外成熟电力市场的结算业务模式,不断优化市场交易结算逻辑关系,为我国完善新形势下的连续结算试运行提供重要借鉴价值,确保电力市场的稳定有序
太阳能和空气以清洁、易于获取的天然优势成为清洁供暖的重点研究对象,因二者各具优缺点,所以将二者耦合以提高系统性能成为目前的研究热点。但是现有太阳能与空气源耦合系统无法适应太阳辐射和室外温度的宽范围波动,不同集成方式在不同的环境条件下性能差异较大,尤其是中等太阳辐射条件下,传统集成方式不能保证最佳运行效果。为此,本文针对太阳能和空气源热泵不同耦合方式的运行特性开展对比研究,主要工作如下:(1)分析了
如今国家对输电线路基础的应用越来越广泛,而普通的基础形式不能够满足我国一些地区复杂的地势要求,因此大量新型复合基础应运而生。本论文提出了一种新型复合基础—带有螺旋锚杆的偏心复合基础。该基础型适用于输电线路可塑土、软土、沼泽等地基,为输电线路在复杂地质地区的基础选型增加了可选择性。本文通过对新型复合基础的理论分析,确定了适用于该基础型的具体理论公式。所提供的计算理论可满足输电线路各级电压等级的相应塔