基于文本挖掘技术分析糖尿病推文的研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:victinfy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,全球的糖尿病患者与日俱增,如何快速又成功的治疗糖尿病是针对健康问题的一项重大挑战。随着信息和科技的快速发展,研究学者在计算机系统的功能及安全上投入了更多精力,以期为糖尿病患者开发出更安全和更方便的护理程序。以往的研究大多基于存储在电子医疗设备或系统中的患者数据,但最近的研究发现社交媒体上关于糖尿病的文本数据具有重要的应用价值,如何有效地利用这些大量的非结构化的数据来设计和开发糖尿病患者的支持系统是目前研究的热点也是难点。本文以Twitter、Google及百度上关于糖尿病的讨论信息为研究对象,利用多种文本挖掘技术、LDA主题建模技术及SVM算法,实现关于糖尿病文本信息的挖掘,同时为糖尿病的预测提供了有效的手段,主要研究内容如下:1.Tweet文本信息下载及量化,并对信息进行特征和标签选择。利用Python Twitter API函数将Twitter网站上的tweets下载并以CSV格式存储到本地,采用Spacy库实现文本数据的分词,经TF-IDF算法计算特征词的权重,并通过主成分分析(PCA)算法对数据矩阵进行降维,以降低数据集的复杂度。为了确保只分析与糖尿病相关的tweet,计算一定时间段内每个hash标签的受欢迎程度,并对其进行测试。在主题标签受欢迎程度测试之后,选择了9个具有最高受欢迎程度值的主题标签来使用,以确保数据集具有高质量。2.数据标注及主题构建。通过手动标注的方法标记tweets,利用Fleis-Kappa统计量F-score测度对其标注的可靠性进行了评价,并采用LDA主题模型将tweets分为不同的感兴趣主题,根据每个主题的主导词为其分配一个标签,且使用LDA模型设计的连贯性度量(UCI和UMass)来评估每个主题中单词的语义相似度。实验结果表明,采用LDA主题建模方法对糖尿病文本信息进行分析,可以为用户提供可靠的参考意见。3.模型构建与结果评估。利用支持向量机(SVM),朴素贝叶斯(NB)和逻辑回归算法将推文分为两类(抑郁的和非抑郁)。通过调整参数,在4次迭代中分析每个模型的预测精度。实验结果表明,采用SVM模型进行分类,其分类的准确率达到92%,支持向量机(SVM)算法比朴素贝叶斯(NB)和逻辑回归模型具有更好的性能。注释过程的Fleis-Kappa统计和F评分的准确率分别为84%和78%。Spearman秩相关系数分别为0.667和0.600。对tweets与Google和Baidu搜索数据的关联度验证了研究分析的95%显著性置信水平,所给研究方法具有适用性。
其他文献
2006年7月10、日到15日,首都师,范大学社会工作专业学生一行13人来到了河南省夏邑县第二高级中学,开展社会工作实习活动。社工学子们举办的心理成长小组让参加夏令营的孩子们感
目的探讨原发性中枢神经系统淋巴瘤的MRI表现特征,提高诊断及鉴别诊断水平。方法回顾性分析11例经手术病理及穿刺活检证实的原发性中枢神经系统淋巴瘤的MRI表现。结果单发10
介绍了配加进口铁精矿(磁铁矿)的烧结杯试验。试验研究表明:随着铁精矿配加比例的增加,混合料粒度组成中小粒度比例增高,造成烧结料层透气性变差,烧结时间延长,烧结速度的降低,成品率
婚恋类综艺节目一直是荧屏上热门的节目形态之一。本文以《非诚勿扰》《我们相爱吧》《心动的信号》等节目为例,阐释近年来婚恋类综艺节目的模式嬗变,并就当前婚恋类综艺节目
目的探讨齐拉西酮与奥氮平治疗精神分裂症的临床疗效及安全性。方法80例精神分裂症患者随机分为实验组组和对照组。实验组予以齐拉西酮治疗,对照组予以奥氮平治疗,均维持治疗8
针对隧洞开挖施工中存在的爆破振动对混凝土衬砌的影响问题,就其试验研究的方法及爆破振动对混凝土强度的影响进行了探索和分析,得出了爆破振动速度与混凝土强度、在同一爆振速
基于密度泛函理论的第一性原理,研究了纤锌矿型ZnS纳米线和ZnO/ZnS核壳结构纳米线的能带结构、电子态密度与光学性质.结果表明:相对于ZnS纳米线,ZnO/ZnS核壳结构纳米线的最小
随着我国社会主义经济的快速发展,我国的城市化进程也在一定程度上获得了前所未有的提升,这对于我国建筑行业的创新和发展有着非常关键的作用和现实意义。随着建筑工程行业的
[摘要] 目的 探讨磷酸肌酸钠改善老年慢性心力衰竭患者心功能的疗效。方法 选取我院收治的老年慢性心力衰竭患者并随机分为对照组和观察组。对照组给予传统抗心衰治疗,观察组在对照组基础上给予磷酸肌酸钠治疗,观察比较治疗前后两组患者的心功能及治疗效果。 结果 治疗后观察组患者的LVEDD、LVESD、CI、LVEF等心功能指标及BNP和6-MWT均优于对照组,观察组患者的治疗有效率高于对照组,差异有统计学
目的:总结超重及肥胖尘肺患者大容量全肺灌洗术(massive whole lung lavage,MWLL)的治疗体会。方法:156例超重及肥胖的尘肺患者,根据体重指数进行分组,超重组74例,肥胖组82例,另