基于动态混合采样与迁移学习的在线患者评论主题识别研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ZWCSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】当前关于在线患者评论的研究较多地集中于从统计描述层面对相关因素进行探讨与分析,少部分研究涉及在线患者评论的文本挖掘,也主要是采用LDA主题模型或其它聚类算法等无监督的形式进行主题的抽取,这些方法存在主观性强、主题不受控等缺陷。本研究拟采用基于卷积神经网络的框架,构建患者评论的主题识别模型,从实证角度,对大规模患者评论文本进行主题抽取,并结合医院等级、疾病专科、患者反馈倾向以及反馈延迟等角度来分析患者评论中探讨的主题,从而发现患者就诊时关注的重点问题,为社区用户的就医提供参考,为医疗服务的改善提供建议。【方法】本研究的方法可以概括为:(1)实验数据获取。本研究采用自编程的方式来设计、开发数据采集策略与存储结构,定期对微医网中患者评论数据进行收集。(2)相关知识库构建。本研究采用Word2Vec的算法对大规模患者评论文本训练词向量,完成领域文本向量化表示库构建;参考LDA模型的建模结果,制定标签纳入标准,采用人工标注的形式,完成患者评论主题语料库构建。(3)不均衡样本学习。本研究提出了一种动态混合采样的技术,并结合迁移学习的思想,来改善多标签数据转换后不均衡样本数据的学习问题。(4)主题识别模型构建。本研究引入卷积神经网络的深度学习框架作为主题识别的基础模型,并结合本研究提出的不均衡样本学习策略,来训练患者评论主题识别模型。(5)患者评论主题实证分析。本研究用所训练的模型对大规模患者评论数据进行主题识别,通过构建索引词典的形式对医院类型、疾病专科、反馈倾向以及反馈延迟字段进行清洗,结合这些字段从多方面对患者反馈的主题进行探讨与分析。【结果】本研究的结果可以概括为:(1)模型训练阶段。卷积神经网络CNN模型相比支持向量机SVM模型,在大部分主题识别任务的效果测试中,准确率、召回率、F1值有明显提升;动态混合采样DMS+CNN模型相比CNN模型,在所有主题识别任务的效果测试中,召回率有明显提升;迁移学习TL+CNN模型相比CNN模型,在所有主题识别任务的效果测试中,准确率有明显提升;DMS+TL+CNN模型相比其他模型,在所有主题识别任务的效果测试中,F1值有明显提升。(2)实证分析阶段。患者反馈中6类主题总体的占比从多到少分别是态度主题、措施主题、能力主题、效果主题、环境主题、费用主题。从不同等级医院、不同疾病专科、不同患者反馈倾向以及不同患者反馈延迟来看,6类主题在组内的占比分布与总体的占比分布相类似,在组间的占比分布则略有不同。【结论】本研究的结论可以概括为:(1)模型训练阶段。本研究提出的基于动态混合采样与迁移学习相结合的患者评论主题识别模型在应对不均衡样本问题时能够有效提升患者评论识别的效果。(2)实证分析阶段。从总体来看,患者在撰写就诊反馈时,较为关注的是医生服务态度、医生能力以及医疗措施,而医疗费用、医疗环境、医疗效果这些问题在他们的反馈中被提及的比例较低。从不同等级医院、不同疾病专科、不同患者反馈倾向以及不同患者反馈延迟来看,患者关注的问题在他们的反馈表达上会有一定的差异。【创新与不足】本研究的创新之处在于采用基于卷积神经网络的框架构建患者评论主题识别模型,并且在模型训练过程中提出了动态混合采样的技术,结合迁移学习的思想来改善不均衡样本数据的学习问题。此外本研究从实证角度对大规模的患者评论进行了识别,并且从多方面分析患者反馈探讨的内容。但是本研究仍然存在一些不足:一是,患者评论主题语料库不够完善;二是,预训练词向量模型和分类模型较为基础;三是,多标签数据转换策略较为简单。
其他文献
目前,国家经济呈现出稳定增长的趋势,人们的生活水平也逐渐提高,使社会中的固体废物量增加,加剧了对自然生态的影响。基于此,首先结合实际简要分析了“无废城市”的目标及意义,其次阐述了基于“无废城市”理念的固体废物管理模式,同时指出其中存在的问题,最后提出了基于“无废城市”理念的固体废物管理模式应用措施。
期刊
目的 探讨浸润性导管癌(invasive ductal carcinoma, IDC)中肿瘤内细菌(intratumor bacteria, ITB)与肿瘤间质三级淋巴结构(tertiary lymphoid structure, TLS)的关系及其临床意义。方法 采用免疫组化EnVision两步法和FISH法检测IDC组织内ITB和TLS,分析ITB与IDC的临床病理特征及其与TLS形成的关系。
期刊
扬琴传入我国发展至今已经有超过四百年的历史,已经成为我国民族音乐文化的重要组成部分,随着文化自信战略的提出,扬琴成为具有特殊音乐价值的民族乐器,高职院校作为我国高等教育的重要组成部分,承担着培养实用型人才的重要使命,高职艺术类专业也为社会输送大量的艺术人才。在双高计划的要求下,高职院校需要不断创新教学理念,提高人才培养质量。文章主要以扬琴教学为例,分析目前高职院校扬琴教学中存在的问题,并提出相应的
期刊
报纸
<正>近年来,以信息、生命、AI、深度学习、区块链、5G、第三代互联网、量子科学等前沿技术为动力,以健康医疗大数据为基石的数智健康成为卫生健康领域的研究热点,学界纷纷探索构建数字化、规范化、科学化、精准化的数智健康服务模式,实现全人全程全生命周期的健康服务。本期“数智健康”专题的文章,利用先进技术,
期刊
本文针对大功率永磁同步电机(PMSM)低载波比运行时的角度误差和数字延时问题,提出了一种基于电流过采样的改进型无差拍控制器(DEADBEAT CONTROLER)。该方法从静止坐标轴出发,考虑角度转动和调制过程,将电机模型离散误差降到最小,并利用该模型进行电流预测以补偿系统的数字延时。同时,为进一步降低电机参数变化对改进型无差拍控制器的影响,利用电流过采样技术来实现电机参数一个开关周期的在线辨识,
会议
福州市轨道交通2号线苏洋站~中间竖井区间采用盾构法施工,施工期间穿越硬岩复合地层、软土复合地层和硬岩复合地层,导致盾构机面临硬岩掘进刀盘磨损严重、穿越不同地层界面需开仓换刀及穿越软弱土层需渣土改良等技术难题。现从硬岩掘进刀盘配置与动力输出、开仓换刀工艺设计及软土掘进工艺等3个方面,开展了盾构施工关键设备(工艺)与工程地质匹配性研究分析,有效地降低了硬岩地层刀盘磨损,实现了穿越不同地质界面快速开仓换
期刊
保护农业生产格局、细化农业空间、落实划定永久基本农田是镇级国土空间规划编制的核心内容。当前,“双评价”指南主要应用于市县国土空间规划,其适宜性评价侧重于自然地理特征,未考虑地方农业生产结构、现状条件等因素,造成城镇建设和农业生产适宜区高度重叠,农业生产适宜区面积过大、精度不足,对镇级国土空间规划缺乏指导意义。本文将“优势农业空间”概念引入镇级国土空间规划适宜性评价,在镇域尺度上明确其定义、内容和特
期刊
学科大概念是反映学科本质的一种学科思想和学科观念,是反映学科专家思维方式的概念、观念和结论。单元整体教学是围绕大概念,在整体化思路下以核心概念网络进行主题教学,帮助学生在面对真实复杂的问题情境时以学科思想、学科观念高水平地认识问题和解决问题,从而落实核心素养。明确化学学科大概念,以学科核心素养为导向进行高中化学单元整体教学,是目前化学课程改革的重要趋势。其主要策略是:提取大概念,重构单元主题;基于
期刊
【目的】互联网医疗的蓬勃发展与人民医疗需求的日益增长使得在线医疗社区的功能与场景日益完善。在线医疗咨询是在线医疗社区中的重要服务模式,近几年,为了促进医患沟通、改善医患关系,部分在线医疗社区推出礼物赠送功能,患者可以在在线咨询过程中购买在线礼物赠予医生。在线礼物对医患交互的影响机制关系到医患关系的建立与在线医疗社区的发展,然而,学术界对此的关注却十分有限。此外,服务质量是服务提供者的核心竞争力,也
学位