基于集成学习的在线社区健康信息采纳预测研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:elelyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2021年互联网医疗用户规模为7.1亿人,同比增长7.25%。一方面,在疫情的催化下,在线健康咨询便捷度高、成本低,在线社区的影响力逐步增大,如寻医问药、好大夫等在线社区涌现了一大批问诊用户,在线社区逐步成为公众信息搜索的重要平台。另一方面,各在线社区健康信息的质量稂莠不齐,失真、劣质信息严重影响用户的信息甄别与采纳,甚至引发用户健康焦虑。基于海量的在线社区健康信息采纳行为数据,探究搜寻者对于健康信息采纳的特征偏好,有助于提高在线社区与入驻医护人员针对用户需求提高平台的信息质量,提高医患交流效率,提升用户健康素养。目前,海量的在线数据提供了丰富的信息,然而现有健康信息采纳研究主要采用问卷调查、访谈和实验的方法,分析信息特征对用户健康信息采纳意愿的影响,很少有使用机器学习算法对在线社区海量数据挖掘其信息价值。本文借鉴健康信息采纳意愿影响因素和综合问答社区信息采纳的研究成果,采集在线社区健康问答信息,基于集成学习的思想构建模型,提取用户信息采纳行为的影响因素,提高信息采纳预测准确度,推动在线社区提升在线健康咨询服务水平。具体工作如下:第一,设计爬虫程序,获取寻医问药社区问答12149条,历史文本数据1045796条,基于社区数据类型,从问答结构、社交属性和专业权威3个维度构建影响用户信息采纳的潜在影响力指标,采用RF等机器学习算法评价指标影响力、比较不同指标组合的预测准确率,提取在线社区健康信息采纳有效影响因素,并分析各指标影响力随时间变化的特征;第二,选择集成学习中的Stacking算法建立基于集成学习(Xgboost,lightgbm,随机森林等)和非集成学习(支持向量机,决策树,MLP等)及混合分类器的模型,以ROC曲线、准确度、F1、Recall为评价指标,比较不同模型组合的分类预测效果,分析发现Stacking集成模型可以有效提高分类预测的准确率,进一步,验证平台的可移植性,获取快速问医生问答数据1.6万余条,探究Stacking集成模型在快速问医生平台中的表现力。第三,基于影响在线社区健康信息采纳有效影响因素,从在线社区和平台入驻医护人员的视角提出在线健康咨询服务提升策略,平台入驻医护人员应选择简洁通俗的语言提高与问诊用户的交流效率,并加强互动提高影响力、更好服务于问诊用户;在线社区可采用集成Stacking模型提高医护人员问答被采纳预测准确率,从而提高向问诊用户精准推送的效率。
其他文献
随着现代工业生产过程越来越复杂,使得被控系统的建模要求越来越高。当下常见的非线性系统单体模型已经不能满足其建模要求,而互联非线性系统是由多个相互连接的子系统组合而成,能够描述复杂的大规模系统。在互联非线性系统中,由于系统本身的未建模动态和系统在信息交互中时滞的存在对系统稳定性造成影响。同时出于安全性能的考虑,系统需要满足一定的约束条件方能稳定可靠的运行。因此,研究互联非线性系统的状态约束受限在发生
学位
多项式回归是数理统计中用来确定多种变量间相互依赖的非线性定量关系的统计分析方法,在大数据分析中有广泛的应用。通常数据集都包含敏感属性,在数据挖掘过程和数据发布中,如不采取任何隐私保护手段将会造成隐私泄露。差分隐私是一种新型隐私保护算法,它以攻击者拥有最大知识背景为前提,能有效抵御各类新型攻击。差分隐私保护算法通过对数据加噪声,掩盖真实信息以实现隐私保护,噪声的添加量越多隐私保护性也就越强,而噪声的
学位
Hopf分岔作为非线性领域中探讨系统动态特性的一项重要指标,已经被广泛应用于生物数学领域。近年来,尤其是传染病模型的分岔研究有了极大的丰富。早期的传染病建模经常会忽略实际传播中具有的记忆和遗传特性,而分数阶导数可以很好的刻画这一特点。同时考虑到在传染病爆发时个体难免会发生迁移活动,因此在传染病模型中加入扩散项是非常必要的,扩散项的存在通常会引起Turing不稳定现象的产生。此外,传染病的潜伏期是实
学位
电磁反演技术是获得未知区域待探测目标电参数分布的重要手段,其通过反演算法重构目标形状、介电常数等参数。电磁反演技术具有无损无接触的特性,目前已经广泛应用于探地雷达、医学成像、气象预测等领域。本文基于逆散射模型,针对逆散射问题的病态性和非线性,提出了一系列具备高反演性能和良好鲁棒性的电磁反演算法。具体研究内容如下:1.首先从数学物理角度出发,基于麦克斯韦方程组推导了电磁场积分方程;接着利用玻恩近似方
学位
随着当今计算机数字采样与通信技术的不断发展,智能控制领域研究者们也在致力于离散时间控制系统的控制精度与可靠性的进一步提升。不同工业生产中普遍存在着各式各样的非线性被控对象,造成传统的线性系统控制方法无法直接获得应用的瓶颈问题。人们借助离散时间Takagi-Sugeno(T-S)模糊模型将非线性系统以任意精度逼近成若干个线性子系统而有效地规避了上述瓶颈问题,使得离散时间T-S模糊模型被广泛地应用于实
学位
无线传感器网络(Wireless Sensor Networks,WSN)在近年来获得了迅速发展,被广泛应用于多个领域中,而节点定位技术就是支撑其实现的关键技术之一。按照定位方式的不同,可以把节点定位技术分为两类,即基于测距和非测距的定位算法。由于非测距算法无需额外的硬件成本,且实现较为简单,因此本文对基于非测距的Amorphous算法进行研究,通过改进该算法来获得更高的定位精度。本文研究的主要内
学位
随着中国工业化的快速推进以及全国居民生活质量的逐步提高,人们居住环境的要求也越来越高,对空气质量问题也愈加关注。目前对空气质量的研究主要聚焦于以下两方面:一方面是进行空气质量的时空异质性分析,另一方面是构建空气污染预测模型。已有空气质量的时空异质性分析多是以遥感影像所反演的数据作为数据源,针对某一具体污染物探究其空间分布以及影响因素,但该类研究中区域首要污染物的确定是基于全局分析,并未考虑空间差异
学位
随着环境保护意识的提升以及化石能源危机的日益严峻,电动汽车的发展与应用已成为当今世界关注的焦点,各国都在积极推动电动汽车产业的发展。作为电动汽车发展过程中必不可少的配套基础设施,充电站的投资建设也开始蓬勃发展。本文针对典型充电站光储容量优化配置与经济运行策略进行了研究,主要研究内容如下:(1)分析电动汽车充电负荷特性,分别针对补电时间紧迫性高与补电时间紧迫性低的电动汽车类型,通过考虑充电排队影响,
学位
天文学是一门历史悠久的观测学科。随着科学技术的发展、观测设备的不断提升,人类对宇宙的认识不断完善。随着大视场巡天时代的到来,人类获得了海量的星系观测样本,这些样本为数据驱动的研究方法提高了数据基础、为科研工作者在星系的特征和性质研究领域提供数据支撑,机器学习、深度学习等方法也被广泛地应用到星系领域的研究中。本文旨在研究大视场巡天中星系的特征提取与自动化查找,具体包含如下三个部分:基于深度学习的引力
学位
目标跟踪是计算机视觉领域一个极为重要的研究方向,其需求是根据已有的视频序列和给定的初始目标位置,利用算法在后续帧中用标注框的形式对目标实现准确跟踪。在过去的十年中,MOSSE算法作为相关滤波目标跟踪算法的起源,其使得目标跟踪的性能变得又快又准,从最初引入的相关滤波,到后来的循环矩阵、尺度预测,再到深度学习的引入,越来越多技术活跃在目标跟踪领域。但是由于越来越多场景需要用到目标跟踪,如何有效应对复杂
学位