基于SplitBal-MajDistance-XGBoost的乙肝网络舆情分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lulubukule
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乙肝认知和民众态度相关的研究多数采用走访、问卷调查等形式,仅能在小范围开展,地域有局限性,且样本量少,难以得出有高度代表性的结论。微博等新媒体都兴起后,利用爬虫技术,可在短时间内得到大量蕴含用户情感倾向信息的评论文本,并基于此洞察当前民众对“乙肝”的态度,为既往工作总结以及新时期的进一步规划提供可靠依据。本文利用八爪鱼爬虫工具,从2020年下半年的“#中国摘掉乙肝大国帽子#”等话题下采集14383条评论。清洗掉373条无效内容后,按照Jieba分词工具进行分词、构建停用词表去除停用词、Word2vec方法转换词向量等步骤,将原始文本转换成模型的输入向量,并人工为其中的1700条评论打上“消极”、“无关”或“积极”的标签,用于建模后对余下12310条评论归类。建模时,本文首先用XGBoost、随机森林等四个模型进行训练,以整体预测准确率和各类别召回率作为评估指标,判定XGBoost性能最优。注意到三个类别间数据量失衡而导致的问题后,本文考虑SplitBal方法化不平衡数据集为四个平衡子数据集,以XGBoost作为基学习器训练子数据集,并得到四组结果。然后遵照MajDistance投票规则组合结果,得到评论最终归类。由于对整体预测准确率不甚满意,本文尝试将规则中的权重——点至类的平均距离,替换为最小、最大距离后进行对比,确定在基于最小距离的MajDistance规则下,可得到90.59%的最高准确率。最后,用基于最小距离的SplitBal-MajDistance-XGBoost(SMX)方法对其余评论归类,得到积极评论共8491条,占总评论数的61%,而消极评论则有3913条,仅占28%,说明当前民众对乙肝呈积极态势。进一步绘制词云图,探寻不同情感评论的聚焦点,为乙肝相关工作提供依据。
其他文献
随着大数据的发展,数据分析、数据挖掘等创新技术已经在众多学科领域中得到了广泛运用。聚类分析是我们在实践中运用非常多的一种无监督数据挖掘类算法。而k均值聚类算法是日常中使用频率最多的聚类型算法,但是k均值聚类算法也同样有其缺点:首先算法很可能陷入局部最优,难以实现想要的聚类效果,初始聚类中心的选取肯定会影响到聚类的最终结果,不一样的初始中心肯定会是不一样的呈现,可能达不到理想的聚类结果;其次k值的选
学位
随着航天技术与遥感技术的发展,遥感卫星影像数据越来越容易获得。遥感影像在城市规划、灾害评估、土地利用、交通检测、军事安全等方面都有着广泛的应用。为了高效的利用大量影像数据,需先对影像进行处理,提取关键信息。其中一项关键技术,就是图像语义分割技术,因此研究遥感影像语义分割算法有重大的应用价值。本文基于U-Net等通用语义分割模型,并进行适当的改进,将高性能的图像语义分割算法迁移到遥感影像数据集上,在
学位
数据不平衡问题给分类问题带来了挑战,特别是对少数类样本的预测。比如,在客户流失预测中,我们的目的是定位即将流失的客户从而采取措施挽留客户,但是数据样本中流失客户数量远少于未流失客户,这使分类预测中模型倾斜于多数类样本,忽视对少数类样本的正确预测,这与我们关注的目标群体相违背,因此减轻数据不平衡问题对实际应用有很大的意义。数据合成是增加少数类样本数量的有效手段,他有效避免了随机采样造成的信息重复或信
学位
【背景】烟雾病是一种以颈内动脉末端、大脑前和大脑中动脉慢性进行性狭窄或闭塞为特征,并继发颅底异常侧枝血管网形成的血管性疾病。颅内外血流重建术是目前治疗烟雾病患者神经功能损伤和预防病情恶化的首选治疗方式。目前常用的血流重建方法包括直接搭桥、间接搭桥和联合搭桥,其中以联合搭桥手术最为普及。尽管颅内外血流重建手术方式已经日益成熟,但仍有部分患者在术后围手术期出现各类并发症,包括术后新发缺血、脑梗塞、脑出
学位
近年来,无论是传统金融行业还是新兴互联网金融,其信用服务都呈现出蓬勃发展的趋势。对于这些机构来说,建立具有可解释性并且高效的信用评分模型从而有效的规避风险是非常有必要的。随着大数据时代的到来以及深度学习研究的深入,很多学者提出比传统线性判别方法和Logistic回归表现更好的模型,但这些模型的准确性是以牺牲可解释性为代价获得的,使得金融人员难以从业务方面解释模型的决策。从提升模型的可解释性及分类精
学位
目的:研究H2AFY基因在肝细胞癌(HCC)中的表达和预后价值,探索其在HCC中的功能网络,及其对HCC细胞增殖、迁移、周期和凋亡等生物学行为的影响,并探讨其相关的信号通路。方法:(1)利用TIMER、Oncomine和HCCDB在线数据库研究H2AFY基因在HCC组织和正常肝组织中的表达差异情况;从TCGA和ICGC数据库官网分别下载371例和232例HCC患者的RNA-seq转录谱数据和相应的
学位
大数据时代的到来与人工智能的发展促进了各个行业的智能化变革,在司法实践领域中,专业要求高、案件处理工作量大等情况成为了加速司法智能化发展的现实因素,而公开可查、数量庞大的裁判文书又为司法智能化提供了即专业又可观的研究数据,这些法律文书中有潜藏着许多值得挖掘的信息。因此基于裁判文书等法律文书的量刑预测等研究由此而起。在司法智能化的背景下,本文将研究对象限定在刑事案件中的故意伤害罪上,以该单一罪名案例
学位
在大数据的时代背景下,随着信息化技术的不断进步,各个领域数据的采集规模也在迅速发展。这些数据作为一种资源,需要通过一些技术手段去分析解读其背后蕴含的规律,才能体现其价值。分类作为数据挖掘中的一项重要任务,目标是刻画数据类别特征,预测未知数据的类别以辅助决策。在分类任务中,连续型的数值数据是一种常见的数据类型,C4.5决策树作为处理连续型数据的一种常用算法,因其在分类准确率和可解释性上的优秀表现,在
学位
目的:小鼠骨髓间充质干细胞(bone marrow mesenchyml stem cells,BMSCs)由分离小鼠骨髓基质所得,该类细胞具有分泌多种细胞因子的能力,其作为一种极具潜力的细胞模型,被广泛用于体外免疫反应的研究。脂多糖(lipopolysaccharide,LPS)为细菌胞壁固有成分,被广泛用于炎症模型的诱导。本实验旨在研究小鼠BMSCs在体外LPS刺激下炎性因子的分泌状态并对影响
学位
研究背景肝癌是在中国常见的一种恶性肿瘤,其中最为常见的是肝细胞癌(hepatocellular carcinoma,HCC),大约占75%-85%。之前的研究表明,泛素连接酶的缺失与人类癌症的恶性进展有关。F-BOX蛋白24(FBXO24)是F-BOX亚家族的成员之一,是一种含有F-BOX结构域的E3泛素连接酶。在这里,本研究主要涉及迄今为止尚未得到相关研究的FBXO24分子,探讨了FBXO24在
学位