你“说”我来“猜”

来源 :科学家 | 被引量 : 0次 | 上传用户:hhtui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  看过美剧《犯罪心理》(Criminal minds)的人经常会为这样一个情节而感到半信半疑:联邦探员们仅仅通过罪犯的日记或者书信就能判断出他们的性别,年龄,社会地位,甚至人格特征与童年经历。很多时候,我们都把这些当作影视文学作品对于主人公的一种神化和茶余饭后的谈资,很少有人会把这些经验之谈当作真正的科学。然而,随着信息科学的发展,情感词库,情感分析工具,文本挖掘技术为心理学领域中研究心理和语言的关系提供了一定的技术支持。
  德克萨斯州大学的心理学教授James Pennebaker(2008年)曾说过,人们说话的方式以及词语可以泄露他们的所思所想,他们与事物之间的关系。近年来,随着社交网络的流行,人们会在各种平台上发表状态,例如微博,QQ空间,微信朋友圈等等。“死了的人才被挂念,不曾记起,就相忘于江湖吧。”“想找一个地方大声哭出来。”当我们看到这些状态时,是否能感受到发起者强烈的负性情绪,是否能感受到他们的无助感?
  微博作为一个公开的社交平台,可以从中获取大量的文本资源,中科院心理研究所的人员针对中文微博的文本分析与行为预测进行了开创性的研究。
  简体中文版心理语言分析词典的建立
  文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,通过文本内容分析,可以推断文本提供者的意图和目的。在许多关于社交媒体的文本分析中,基于计算机的文本分析软件被普遍使用,语言获得与词汇计数系统(LIWC)就是其中一种,该软件的核心是拥有一个词库,分为不同的维度,如“心理过程词”“语言过程词”等。对于一段输入的文本,每个单词会与词库中的词语进行比对。
  英文版的LIWC被广泛使用。由于中文相对于英文更加复杂,所以很有必要建立一个简体中文版的LIWC。之前已经有繁体中文版的LIWC词典,中科院心理研究所的社会与工程研究室的朱延劭团队(2013年)就基于此建立了一个简体中文版的LIWC词典,该词典不仅有正式常规的词语,还加入了微博中的高频词,因此该词典既可以用于正式文本的分析,也可以用于微博文本的分析。
  首先,研究人员找到了21个中国科学院大学的毕业生,他们的母语都是简体中文。这21个人被分为3个组,每个组的每个人都独立地将繁体中文版LIWC词典里的词汇一个个过一遍,然后找到最合适的简体中文词来代替它。例如用“它们”代替“它們”。对于组内的分歧,所有人进行讨论,采取少数服从多数的原则。这样,每个组都生成了一个词库。接着,再请来3个评分者,对这3个组生成的词库进行检验,如果这3个组的词库有分歧,评分者再进行讨论,然后继续采取少数服从多数的原则得出一个更为合理的最终版本的简体正式中文版LIWC词典(SCLIWC)。
  接下来,为了添加微博中的高频词到词典中,研究人员首先获取了99925821个新浪微博用户,并按以下原则来过滤掉一些研究价值不大的用户:1.在近3个月内没有发表状态或者用户发表总状态数少于512条的;2.每天发表状态在40条以上的(广告用户)。过滤掉之后,留下了1953485个活跃用户,将他们发的文本状态全部下载下来。然后,从所有活跃用户当中随机选取20000个用户,从这20000个用户发表的状态中提取词频前5000的词,再将20000个用户随机分成两个组,分别从这两个组用户发表的状态中提取出使用频率前5000的词,研究者发现从这几个样本中提取的高频词重合率是非常高的,说明这些词确实经常在微博中被使用。最后,剔除了停用词和SCLIWC中已有的词汇,获得了新浪微博中使用率排在前5000的词,这样就构成了简体中文版微博词典(SCMBLIWC)。
  这样,将SCLIWC和SCMBLIWC这两个词典融合到一个应用程序中,就可以同时分析正式文本和微博文本。中科院就基于此开发了一个公开的网络平台“文心”(TextMind)http://ccpl.psych.ac.cn/textmind/。通过“文心”,可以便捷地分析文本中使用的不同类别语言的程度、偏好等特点。
  自杀者和潜在自杀者的语言风格
  中科院的研究者首先将他们开发的简体中文版词典应用到了自杀的研究中。量表作为一种传统自杀可能性评估方法,在时效性上有所欠缺,有自杀可能的人尽管很多不会主动寻求专业帮助,但其在言语中往往存在对于自杀倾向的流露。朱延劭管理等人(2015年)在线招募微博用户参与问卷调查,根据个体自杀可能性量表中文版得分情况将982名受访者分为446名高自杀可能组和536名低自杀可能组,分析2组在微博提取的10类行为特征和88类语言特征上的差异。结果发现,高自杀可能组的用户与其他用户相比社交活跃度低,夜间更加活跃,关注别人更少,使用更多表达否定、死亡的词语,使用更少指向未来的词语。
  也许这样的结果仍然会引起别人的质疑,因为人毕竟没死,我们有对结果进行自圆其说的嫌疑。其实不然,该团队(2015年)接下来进行了更直接的研究,他们经新浪微博认证用户提供的信息,收集31 名网络识别自杀死亡用户(自杀死亡组);邀请微博用户填写自杀意念相关筛查量表,收集30 名无自杀意念用户(对照组)。比较两组用户在10 种微博行为和88 种语言特征方面的差异。结果发现,自杀死亡用户的微博互动更少,更加关注自我,更频繁地使用表达排除意义的词语,从情感层面上有更多负性表达,使用更多与死亡、宗教相关而更少与工作相关的表达。
  我们可以看到,无论是潜在的高自杀可能性用户,还是已经自杀的用户,他们在语言特点上都更多使用负面,与死亡有关的词,并且不会提及他们的工作和未来,在行为层面上更加关注自我,较少与别人互动。
  如果我们哪一天看到自己身边的人喜欢在夜晚发类似这样的状态:“呵呵,真落寞,永远只是一个人”,并且开始频繁散播负能量,他的状态也没人点赞和评论,他也几乎不会给被人点赞和评论,那么我们应该意识到问题的严重性。如果我们在平常的生活中能及时给予这些人关爱与支持,而不是一味地指责他们矫情,那么也许会防止一条生命的陨落。
其他文献
从风雨中走来,在期待中成长。蓦然间发现,《汽车运用》今年30岁了。30岁,多少读者见证她成长;30年,多少官兵与她结下不解之缘;30个春秋,多少人为之付出心血和汗水。
努力工作而又能快乐地工作,是一种智慧。这种智慧能使人在枯燥的工作中发现乐趣,使工作不再是一项苦役,而是一种人生创造。这样的工作态度往往能塑造出优秀的人才。
详细介绍了一例由机械原因引起的洗衣机脱水电机不工作邦联的检查处理过程,并提出了预防措施。
【正】没有情绪的生活,或许会淡得如一杯白开水,但情绪过于饱满的生活,虽然可能精彩纷呈,却也会因为过度的情绪表达,而带来意想不到的后果。愤怒便是这种过激情绪中的一种,美
文章以圆形双层袖级模板设计为例,在分析其传统制作方法的基础上,探究了服装工艺模板的开发和应用。服装缝制工艺模板技术在企业中的应用日趋广泛,有效地降低了生产难度,提高
【正】周恩来曾提到过"三钱",分别是指钱学森、钱三强和钱伟长,但其实在科技界还有所谓的"小三钱",其中有工程力学专家钱令希、水力学家钱正英,还有为中国科学事业呕心沥血的
新形势下,提高驾驶员队伍的整体素质,提升科学预防车辆事故水平,要做的工作非常繁重。客观上讲,军车数量庞大,动用频率和动态化程度高,影响行车安全的不确定因素多,防控难度
玉兔号是中国首辆月球车,和着陆器共同组成嫦娥三号探测器。玉兔号月球车设计质量140千克,能源为太阳能,能够耐受月球表面真空、强辐射、摄氏零下180度到零上150度极限温度等极端环境。月球车具备20度爬坡、20厘米越障能力,并配备有全景相机、红外成像光谱仪、测月雷达、粒子激发X射线谱仪等科学探测仪器。
期刊
【正】赵忠尧,这个名字或许对于很多人来说是陌生的。但是,对核物理研究史略知一二的人,恐怕不会不知道这位在中国乃至世界核物理研究史上举重若轻的开拓者。赵忠尧一生致力
12月1日-3日,由创新中国智库与湘西土家族苗族自治州委、州政府、州政协共同主办的“第七届创新中国论坛·精准扶贫湘西典型经验研讨会”,在湖南省湘西州吉首市举行。第十