基于抑郁词典的社交网络心理障碍检测方法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:nsitbay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在中国,微博作为主流的社交媒体工具,是个人用户发表自己意见和表达情感的一个网络平台。調研发现,抑郁用户和非抑郁用户在社交互动,语言使用,情绪表达上有着很大的不同,这也使得通过社交网络的方式获取数据建立预测模型成为可能。文章通过微博爬虫的方法获取抑郁与非抑郁用户微博数据,基于传统情感词典在抑郁预测上词语的局限性和不足,本文利用深度遍历词向量同义词的方法,构建适合预测抑郁场景的抑郁词典。结合知网情感词典,表情符号词典对用户博文进行情感分析,并在此基础上建立分类器进行用户的抑郁预测和分类。
  关键词:微博;抑郁;词向量;分类预测
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)07-0244-04
  现代社会节奏加快,人们工作和学习的压力都非常的大,每个人或多或少都有着心理上的问题,比如紧张,烦躁,焦虑甚至是抑郁。长期处于这种心理状态下会影响人们的工作和生活状态,并有可能发展为精神疾病,极大影响了人们的生活质量和水平,许多人因为心理障碍产生了消极的生活态度,严重的心理疾病患者甚至会做出过激的行为。每年因为心理疾病死亡的人数也在不断增加中,这更加让我们意识到心理问题的重要性。如何鉴定自己是否有心理障碍以及如何科学的防治是一个急需解决的问题。
  心理疾病一般是慢慢积累而成,从偶尔的烦躁苦恼慢慢可以演变成频繁的焦虑甚至是严重的抑郁。但是对于自己是否存在心理障碍的迹象,个人主观一般会存在偏歧。一般情况下,心理问题的发现以及心理障碍的检测都是采用心理问卷的形式,这种方法虽然能很有效地检测出人们的心理障碍,但是需要患者意识到自身的心理问题进行主动的检测,并且很多抑郁患者对于自身的心理问题存在主观上的认知偏差,所以这种方式存在一定的局限性。
  微博作为人们发表自己意见,抒发情感的一个常用的社交媒体软件,其文本,语音,图片,视频等包含了大量的语义及情感信息。通过获取用户的微博数据可以进行数据的分析,统计出处理所需的信息,并对这些信息用机器学习的算法进行学习,构造出关于心理障碍的分类器。利用这个分类器可以有效地鉴别出需要鉴定的用户哪些是有心理障碍的如抑郁焦虑等,对于这些人可以建议他们去医院做更深入的心理检测,从而遏制心理障碍的进一步扩大以及减少不理智行为的产生。
  1相关研究
  目前国外在社交网络和心理学统计方面已经有了很多成熟的研究和应用。麻省理工的心理学教授倾向通过TheBigFive(大五类人格特征)来描述人的人格与个性。大五类因素包括:严谨性、外向性、开放性、宜人性与神经质人格特质。0代表Openness to experience(开放性),C代表Conscientiousness(嚴谨性),E代表F.xtraversion(外向性),A代表Agreeableness(宜人性),N代表Neuroticism(神经质)。大五人格的研究对在心理学上研究心理障碍提供了理论支持,目前有基于大五人格的心理健康问卷供人们自我检测心理健康状态。
  Balani S等人采集Reddit上的用户数据,通过进行数据分类,标签定制,特征定义之后开发了一个基于内容特征的分类器,对reddit上的帖子进行自我表达高中低的级别判断。并统计分析了个人自我表达的多少和心理健康状态之间的关系。
  Choudhury M De等人采集Reddit上半匿名社区的用户的个人信息,帖子言论信息,与其他用户的互动信息等建立评分体系,依据评分结果建立用户预测分类模型。模型主要预测个人用户是否会在将来有自杀的想法或者行为。
  Q Hu等人通过调查问卷的形式获取了心理评测人员的个人信息,并获取他们的微博信息。提取了静态特征以及动态特征在内的一共972个特征,经过特征分析后采用逻辑回归的方式进行分类器的构造,并进行了用户数据的回归分析。
  国内研究者白朔天等人采用多任务回归学习预测微博用户的心理健康状况,并且构造了抑郁与焦虑的相关度分析。何跃等人采用了分词统计表情符号的方法,并采用SVM的方法构造情感分类器。
  总体而言,目前国外在情感分类,抑郁检测等方面做得研究有很多,关注的心理障碍种类也很多,采用的方法都是基于机器学习的算法,分类主要集中于Facebook、Twitter以及reddit等这些社交媒体,也有Instagram上的相关研究。国内目前主要集中在微博情感分类上,但是很多都是针对微博文本本身的情感进行处理,以及针对微博文本语义上的处理,在特征的提取上多针对文本的信息,个人信息、语言行为特征等有所缺失。综上,微博数据有着很多可以挖掘和利用的信息,在帮助研究个人心理,人际关系方面有着很大作用。本文针对多用户的信息采集,采取多种特征的定义提取,并采用多种分类方法进行建模分析。
  2方法
  2.1数据获取
  本文从微博上抓取了一共920位用户的个人信息以及其微博内容。其中443位用户是有心理障碍的患者。其余477位为没有心理障碍的用户。本文选择的443位有心理障碍的用户为正在服用治疗如抑郁,焦虑等心理疾病的药物的用户,这类用户已经在医学上鉴定为具有心理障碍的患者。477位没有心理障碍的用户是获取的经过心理测试未有明显异常的学生用户。本文采取微博爬虫的方法获取这些用户微博的相关信息。
  本文所使用的微博爬虫采用python编写,首先模拟登陆新浪微博再根据用户的uid获取他们的微博内容及个人信息。获取的网页经过网页解析,解析出用户个人信息,微博文本,关注,粉丝等内容,存入数据库。整个爬虫工作的流程如图1所示。
  图1中解析数据是从htrnl中提取结构化的数据如content,userinformation等。数据清洗主要包括去除一些不重要的数据,去除冗余数据,错误数据等。数据库用户id作为主键存取用户对应信息如用户微博内容,用户粉丝关注id等。   2.2抑郁词典建立
  由于中文的情感词典包含的都是情感类词汇,中性词汇包含的不是很多。同時由于中文的情感词典自身的不完整性,导致中文的情感分析类任务的实验结果收到了很大的制约。
  大多数情感词汇都可以在情感词典中找到。本文目标是抑郁检测,所以对于用户的情感分类中,抑郁词汇起到了有很大的作用。但是由于很多抑郁词汇是中性词,因此在情感词典里并没有这些抑郁词汇。比如常见的一种能反映人是否有抑郁倾向的词“失眠”,这个词论极性而言是个中性词,在知网的情感词典里并没有出现。更多的词比如抑郁癥的一种一些躯体症状如“头晕”,“神经衰弱”,“心悸”等,抑郁症的一些行为特征如“自闭”,“疑病”,“自残”等也没有在情感词典内出现。所以仅基于情感词典构造分类预测模型肯定是不完整的,将会失去很多有用的帮助分类的信息。
  人工的构造抑郁词汇词典是一种解决上面问题的方法。但是由于词汇具有同义词,在微博场景下用户也会使用新兴的网络词语,所以人工构建抑郁词典很难做到完整同时也不适用于微博场景。基于这种问题,我们构建了抑郁用户常见的抑郁词汇作为基本的抑郁词典。基本的抑郁词典包括抑郁躯体症状,抑郁行为特征一级抗抑郁药物的名称。下表是基本抑郁词典的构成部分。
  本文提出了搜索词汇上文相关词的方法去获取抑郁词汇的相关词,用深度遍历的方法去获取所有的基准抑郁词汇的上下文相关词。
  本文采用word2vec的方法获取词汇的上下文相关词。处理步骤如下:
  1)采用结巴分词将所有用户微博分词,去除表情符号以及标点,输入法符号等。去除停用词使得词向量获得更好的效果。
  2)利用word2vec训练微博语料,获得每一个词的词向量表示。
  3)计算词与词之间的相似度,来获得基本抑郁词典内词汇的相关词。
  词向量相关度的计算利用的是词向量之间的距离,这个距离可以用欧式距离计算也可以用两个向量之间夹角的cosine值来表示。
  本文采取向量问的cosine值来计算两个向量间的距离。向量间的距离间接的可以反映两个向量的相似度。公式如下所示:
  (1)
  抑郁词典扩充的处理方法如下:
  1)用word2vec获取每一个词的词向量表示
  2)对于基准抑郁词典内的词W。从获取的微博语料中搜寻w的相关词,选取相似度前40的词作为w的相关词库,并记为Sw。对于Sw中的相关词,它的同义词库记为S。
  3)对于i从1到40。如果si在基础抑郁词库内出现或在情感词典里出现,则从Sw内移除si;否则转4。
  4)如果si与W之间的距离小于0.4,则从Ss内移除si。否则保存si。如果W不在si的前40个相关词中,则移除si,否则保存该词。i值加1,转3。i值遍历完,转5.
  5)S加入到基础抑郁词典内,并且里面的词作为新的种子词。
  我们在选取相关词时,只选取前40个词,并且判断该词是否与它的相关词互为相关词,如果不是则去掉。同时设置阈值来进一步过滤不相关词汇。两个词之间如果距离小于0.4,基本上已经不是我们需要的词汇了,尽管可能还有一点语义的关联性。阈值的设立为了避免结果中出现大量的不相关词汇。虽然经过了筛选,但是结果中还是会有很多错误词汇和不相关词汇。
  为了去除不相关词汇,保证获得词汇的质量,本文进行了人工的筛选,将所有不属于抑郁词汇类别的以及一些错误词汇进行删除。最终从获取的相关词汇中选取了994个从微博语料中学习到的抑郁词汇,并将它们构建成了抑郁词典。
  2.3特征提取
  2.3.1个人信息特征
  本文特征提取主要获取用户两方面特征,包括个人信息特征和语言特征。个人信息特征包括用户的性别,年龄,是否已婚,粉丝数,关注数等用户的个人信息。有些特征如转发数,评论数,点赞数等是体现个人用户的社交习惯,与他人互动交流的情况。一些特征如发表微博时间,发表微博数量则是体现用户活跃程度,挖掘这些特征可以发现用户的一些性格特征比如是否内向,是否孤僻等。总之个人信息特征包含了很多用户的心理信息,提取这些特征可以有效地提高分类模型的分类效果。个人信息特征见表2所列。
  表2只列取了一部分个人信息特征,还包括用户个人隐私设置如是否可以评论,是否屏蔽消息等。
  2.3.2语言特征
  语言特征是指微博文本的包含情感内容的特征比如情感词典中词语的词频,词性,表情符号的频率等。统计语言特征的情感词是基于情感词典实现,本文选用了HowNet和NTUSD作为情感词典。此外本文还收集了微博上的表情符号特征,建立了表情符号词典。表情符号特征通过文本表示。
  2.3.3特征权重
  本文采用TF-IDF们的方式统计词的权重。TF-IDF方法可以反映出词语在文档中的重要程度,其中"IF表示词频,IDF表示逆向文件频率。根据TF-IDF可得,用户a的某个词i的词频可以表示为;
  (2)
  其中,ni为词i的在用户微博中出现次数,分母为所有词的词数之和。用户n的词语i的逆向文件频率可以表示为:
  (3)
  (3)式中N表示所有的用户文档数,mi表示词语i所出现过的文档数。则用户a的词语i的权重可以表示为;
  (4)
  本文分词采用的是ICTCLAS分词包,去除了如逗号,句号,顿号等标点符号,去除了停用词如“的”,“地”,“在”等词语。   2.4特征简化
  2.4.1归一化
  为了消除不同变量量纲之间不一致带来的影响,加快机器学习算法分类速度,本文采用了归一化处理的方法,将特征映射到一个区间:
  (5)
  (5)式将数据映射到区间[0,1]之间。
  2.4.2特征選择
  由于词典内的词语较多,从而获取的语言特征向量维数较大,在后续的分类模型设计过程中,过大的特征维数可能会影响分类效果,并有过拟合的情况产生。因此本文从以下三个方面进行特征选择;
  (1)去除特征列全为0或大部分为0的数据以及经过权重计算后权重较小的词语的特征。
  (2)采用卡方检验[]的方法进行特征选取,卡方检验主要通过赋予特征权重来表示特征与类别间的相关度,通过定义阈值筛选特征权值,选取排名靠前的特征。
  3分类预测模型的建立
  3.1评价标准
  提取特征后将特征矩阵利用机器学习的算法进行建模可以获得分类预测的模型。本文采用精确率(Precision),召回率(Recall),F1值作为判定分类器分类效果好坏的指标,即
  (6)
  (7)
  (8)
  其中TP为P个标签为1的样本里,TP个被分类器判定为1的样本数;FP为标签为O的样本被判定为1的个数;FN为标签为1的样本被判定为0的个数。
  3.2构造分类器
  为了减少分类可能产生的过拟合以及充分利用数据集,本文采用十折交叉的方法获取实验的分类结果,并求取均值作为最终的实验结果。十折交叉法是指将处理好的特征文本划分为10份,每次选其中9份作为训练集剩下的1份作为测试集。总共处理十次,将每一次分类器训练得到的精确率,召回率和n值的均值作为该分类器的最终结果。
  本文采用神经网络,支持向量机以及逻辑回归的方法进行分类预测,并计算出了三种方法的分类结果。
  本文基于扩展的抑郁词典的方法,在F1值最高达到了83.369%。由于F1综合考慮了召回率以及准确率,所以综合考虑,SVM获得了最好的分类效果。本文选取SVM作为抑郁分类的分类算法。
  基于本文构造的模型,对于待识别用户进行检测,如果该用户分类结果为消极则表示该用户可能存在心理障碍,因而可以联系这些用户建议他们去医院做跟深入的心理检测,从而减少用户心理障碍的发生以及帮助有心理障碍的用户更早接受治疗。
  4结论
  本文针对微博用户可能存在心理健康问题的情况,通过使用爬虫获取微博用户信息及微博文本,进行特征分析及提取,利用SVM以及逻辑回归,神经网络的方法建立分类器模型,对未知用户进行分类预测。本文根据词向量间距离从获取的微博语料中挖掘了种子抑郁词汇的相关词,并根据这些相关词建立了分类用的抑郁词典。实验结果表明上述的方法是可行的,对于有心理障碍的用户有着良好的分类效果。当然可以通过改进分类模型获得更好的分类预测效果,比如采集更多的用户数据,获取更细致的特征,更精确的特征选取等,同时也可以尝试其他的分类方法。这是未来需要进行改进的地方以及努力的方向。
其他文献
今年,农二师三十团工会大力开展"当好主力军、建功十二五"主题竞赛活动,充分调动了各方面积极因素,今年全团7万亩棉花、4万亩果园丰收在望,好于历年。该团农林单位以阶段性劳
今年43岁的奴家合、37岁的阿依古丽,是农四师七十一团九连一户普普通通的哈萨克族人家。多年来,夫妻俩互敬互爱,相敬如宾,尊老爱幼,积极参加连队各项工作和"文明生态小康连"
巨噬细胞迁移抑制因子(MIF)是肿瘤微环境(TME)中重要组成和调节者,在肿瘤的形成与发展过程中起着重要作用。MIF已被发现数十年,然而关于MIF对TME中免疫细胞及基质细胞的作用
<正>方,依法而立。学一方,需知其立方之法。不知立方之法而徒守所立成方,方即死方,无法应对变化之证。尽管有"执一法不如守一方"之说,但所守之方一定是有法之方,且用方者必须
<正>习近平总书记强调,加强和规范党内政治生活,必须抓住领导干部这个"关键少数"。哈尔滨市直机关工委围绕"发挥领导班子成员在党的组织生活中示范带动作用",在市直机关95个
对保定市国槐主要害虫进行了无公害防治技术研究,找出了无公害防治技术方法,有效减少了城市农药污染问题。 The main pests of Sophora japonica in Baoding conducted a po
校园网公共教学区域计算机维护问题一直困扰着网络管理员。本文介绍校园网内通过使用桌面云技术,对公共教学区域计算机进行集中化管理,提高了计算机使用安全性,使得应用更加环保,后期维护的成本大大降低。
共产党员蔡大刚是兵团这块土地上成长起来的第二代军垦战士,1988年参加工作,曾18次获得过师团"先进生产者"、"优秀共产党员"、"青年致富能手"、"行业标兵"、
党的思想政治工作是经济工作和其他一切工作的生命线,是我们党和社会主义国家的重要政治优势。国有企业作为经济组织是建设中国特色社会主义的主要力量,事关国家建设和国计民
农三师四十五团党委坚持把平等协商集体合同工作摆在重要位置,团妇联把依法维护妇女儿童合法权益,作为"组织起来、切实维权"的重点工作,强化各部门的协调合作,形成党政工齐抓