论文部分内容阅读
目前,全球的糖尿病患者与日俱增,如何快速又成功的治疗糖尿病是针对健康问题的一项重大挑战。随着信息和科技的快速发展,研究学者在计算机系统的功能及安全上投入了更多精力,以期为糖尿病患者开发出更安全和更方便的护理程序。以往的研究大多基于存储在电子医疗设备或系统中的患者数据,但最近的研究发现社交媒体上关于糖尿病的文本数据具有重要的应用价值,如何有效地利用这些大量的非结构化的数据来设计和开发糖尿病患者的支持系统是目前研究的热点也是难点。本文以Twitter、Google及百度上关于糖尿病的讨论信息为研究对象,利用多种文本挖掘技术、LDA主题建模技术及SVM算法,实现关于糖尿病文本信息的挖掘,同时为糖尿病的预测提供了有效的手段,主要研究内容如下:1.Tweet文本信息下载及量化,并对信息进行特征和标签选择。利用Python Twitter API函数将Twitter网站上的tweets下载并以CSV格式存储到本地,采用Spacy库实现文本数据的分词,经TF-IDF算法计算特征词的权重,并通过主成分分析(PCA)算法对数据矩阵进行降维,以降低数据集的复杂度。为了确保只分析与糖尿病相关的tweet,计算一定时间段内每个hash标签的受欢迎程度,并对其进行测试。在主题标签受欢迎程度测试之后,选择了9个具有最高受欢迎程度值的主题标签来使用,以确保数据集具有高质量。2.数据标注及主题构建。通过手动标注的方法标记tweets,利用Fleis-Kappa统计量F-score测度对其标注的可靠性进行了评价,并采用LDA主题模型将tweets分为不同的感兴趣主题,根据每个主题的主导词为其分配一个标签,且使用LDA模型设计的连贯性度量(UCI和UMass)来评估每个主题中单词的语义相似度。实验结果表明,采用LDA主题建模方法对糖尿病文本信息进行分析,可以为用户提供可靠的参考意见。3.模型构建与结果评估。利用支持向量机(SVM),朴素贝叶斯(NB)和逻辑回归算法将推文分为两类(抑郁的和非抑郁)。通过调整参数,在4次迭代中分析每个模型的预测精度。实验结果表明,采用SVM模型进行分类,其分类的准确率达到92%,支持向量机(SVM)算法比朴素贝叶斯(NB)和逻辑回归模型具有更好的性能。注释过程的Fleis-Kappa统计和F评分的准确率分别为84%和78%。Spearman秩相关系数分别为0.667和0.600。对tweets与Google和Baidu搜索数据的关联度验证了研究分析的95%显著性置信水平,所给研究方法具有适用性。