论文部分内容阅读
随着我国大众对于心理健康话题的兴趣日益增加与新媒体的兴起,以社交网络平台为基础的心理科普得到了充足发展。然而,目前对于网络心理科普的传播内容与传播效果的研究相对较少,且停留在定性、主观分析的层面,不利于进一步促进和指导心理科普的发展。本文通过网络爬虫技术收集"知乎"网站上6个知名心理科普账号的1160篇心理科普文章,使用K-means算法和潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)主题模型对文章主题行分类与挖掘,从而了解当前心理科普的内容分布与特点,为心理科普发展提供参考。K-means算法是一种常用的聚类分析算法,可将对象根据其属性间的距离自动地分为K类。通过比较不同K值时点到其所属类中心的距离,可以确定最佳分类数。LDA主题模型是一种文档主题生成模型,用于挖掘文本中潜在的主题信息。使用LDA主题模型对语料库进行训练,可以得到指定数量的主题,每个主题可用一系列关键词的分布进行描述。本研究基于Python语言,首先使用jieba模块对收集到的心理科普文章进行分词,并根据《哈工大停用词表》去除文本中的停用词。对预处理后的文本,使用scikit-learn模块实现文本向量化与K-means聚类算法,比较K值不同时文章的聚类效果,确定最佳聚类数为18。随后使用gensim模块训练指定主题数为18的LDA模型。训练结果显示18个主题的第一第二主题词分别为1)孩子、妈妈;2)抑郁、自恋;3)父母、失恋;4)努力、伴侣;5)女性、内向;6)对方、边界;7)女性、自恋;8)自恋、对方;9)出轨、朋友圈;10)女性、抑郁症;11)孩子、父母;12)爱、孩子;13)道歉、父母;14)产后、孩子;15)父亲、孩子;16)野生、心理咨询;17)父母、孩子;18)对方、分手。结果说明:目前网络平台中的心理学科普主要关注家庭、亲密关系、性别、心理健康等话题,体现出应用为导向、贴近生活的特点,为读者的现实生活提供帮助;不同主题的文章中,关键词的重合程度较高,体现了心理科普媒体对热点话题的重视;主题覆盖范围较为狭窄,缺乏对认知心理学、人事与组织心理学等心理学子领域的介绍,不利于大众对心理学科产生全面的了解与印象。