心理科普内容特点挖掘:基于K-means算法和LDA主题模型

被引量 : 0次 | 上传用户:ydaf9ta7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国大众对于心理健康话题的兴趣日益增加与新媒体的兴起,以社交网络平台为基础的心理科普得到了充足发展。然而,目前对于网络心理科普的传播内容与传播效果的研究相对较少,且停留在定性、主观分析的层面,不利于进一步促进和指导心理科普的发展。本文通过网络爬虫技术收集"知乎"网站上6个知名心理科普账号的1160篇心理科普文章,使用K-means算法和潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)主题模型对文章主题行分类与挖掘,从而了解当前心理科普的内容分布与特点,为心理科普发展提供参考。K-means算法是一种常用的聚类分析算法,可将对象根据其属性间的距离自动地分为K类。通过比较不同K值时点到其所属类中心的距离,可以确定最佳分类数。LDA主题模型是一种文档主题生成模型,用于挖掘文本中潜在的主题信息。使用LDA主题模型对语料库进行训练,可以得到指定数量的主题,每个主题可用一系列关键词的分布进行描述。本研究基于Python语言,首先使用jieba模块对收集到的心理科普文章进行分词,并根据《哈工大停用词表》去除文本中的停用词。对预处理后的文本,使用scikit-learn模块实现文本向量化与K-means聚类算法,比较K值不同时文章的聚类效果,确定最佳聚类数为18。随后使用gensim模块训练指定主题数为18的LDA模型。训练结果显示18个主题的第一第二主题词分别为1)孩子、妈妈;2)抑郁、自恋;3)父母、失恋;4)努力、伴侣;5)女性、内向;6)对方、边界;7)女性、自恋;8)自恋、对方;9)出轨、朋友圈;10)女性、抑郁症;11)孩子、父母;12)爱、孩子;13)道歉、父母;14)产后、孩子;15)父亲、孩子;16)野生、心理咨询;17)父母、孩子;18)对方、分手。结果说明:目前网络平台中的心理学科普主要关注家庭、亲密关系、性别、心理健康等话题,体现出应用为导向、贴近生活的特点,为读者的现实生活提供帮助;不同主题的文章中,关键词的重合程度较高,体现了心理科普媒体对热点话题的重视;主题覆盖范围较为狭窄,缺乏对认知心理学、人事与组织心理学等心理学子领域的介绍,不利于大众对心理学科产生全面的了解与印象。
其他文献
留守儿童的教育,是农村基础教育的一个不容忽视且急需要解决的问题。留守儿童问题的解决需要多方面的努力,其中班主任的作用至关重要。信息不对称、课程结构单一、师资力量薄
粮油储藏同国家的民生大事息息相关,是社会稳定和国家发展的基本条件。正所谓民以食为天,粮油储藏解决了民众对粮油的需求问题,这样能让广大人民得以安心,人民的安心,是国家发展的
目的探讨腹部CT在急性胰腺炎患者并发症诊治中的应用。方法选取2014年9月至2015年9月来医院治疗的急性胰腺炎患者214例,随机分为试验组和对照组,每组107例。试验组采用腹部CT进
《一虎一席谈》是我国唯一一档大型抗辩论式思想性谈话节目,"这里不是一言堂,所有的意见都备受尊重"是它的宣传语,这样以受众为本位的制作理念使得节目吸引了一大批观众。本
建筑施工的安全问题,始终是政府和业内时刻关注,并持续改进的重点。近几年,随着国家和社会对安全的重视程度不断提高,我国建筑业的安全形势已明显好转,但是仍不容乐观。物联
目的:通过问卷调查了解大学生医疗消费行为的影响因素及其作用。方法:通过有序多分类Logistic回归拟合累计Logit模型进行分析。结果:性别、意愿首选校医院就诊、认为学校经常
用碱性羟胺比色法测定124 例肝脏疾病患者及45 例健康人的血清胆碱酯酶(CHE) 活力,并同时测定血清总蛋白、白蛋白及谷丙转氨酶(ALT) 活力。结果显示:肝脏疾病患者血清胆碱酯酶与正常对照比较活
<正>没采访刘京海之前,就听说过一个关于刘京海的故事:上海闸北八中有一姓方的男孩,一天在厕所里遇到了刘校长。校长叫出了他的名字,还夸他作文写得不错。男孩大受震动,他想,
<正>墨江原名"他郎",民国4年(1915)改称墨江,系以从北至南纵贯全境的阿墨江而得名,寓有"墨水成江"之意。墨江是全国惟一的哈尼族自治县,位于云南省南部,普洱市东北部。全县国
期刊
在人类历史发展进程中,人与动物关系密切,动物对人类的生存发展及社会文化产生了深刻的影响,而这种影响在语言中也被反映了出来。英汉语中有许多与动物相关的习语。习语是语