论文部分内容阅读
人格是对人类个体特征的高度概括,是区分人与人之间差别的量化标准,能够描述个体的独特性。人格在个体的遗传、环境、学习等因素的共同作用下形成,具有较强的稳定性。因此各研究领域经常将人格作为对“人”研究的重要指标。人格不仅与人类在现实生活中的情绪、语言、行为息息相关,也与人类在网络空间中的行为密切相关。网络空间行为的易记录性、以及快速发展的数据挖掘等技术,使得网络空间中的用户人格分析具备了可行性,并逐渐成为当前的研究热点。利用网络空间中的数据进行人格分析,对传统心理学的人格分析而言具有借鉴意义,并且借助机器学习技术构建的人格分析模型,在获取用户数据的情况下,能够短时间内产生大量的用户人格信息,为后续提升用户个性化等服务的质量提供支持。因此,网络空间中的人格分析具有重要的现实意义。本文中人格分析的研究将以社交网络为切入点。近年来,社交网络数据已成为人格分析的一个重要数据源,其中社交网络状态文本包含了丰富的用户语言信息,与用户人格之间存在很强的关联性,因此过去许多的研究都利用社交网络用户发布的状态来分析用户的人格,但由于获取有标签数据的成本较高,过往研究都是在少量有标签数据的基础上进行的,影响了人格预测模型的准确性。为了探索无标签数据在人格分析中的应用,本文提出了一种基于半监督学习的人格分析方法,通过结合少量的有标签数据和大量低成本获取的无标签数据,构建了人格分析模型。另外,为了充分提取社交网络状态中的语言信息,本文结合了多种文本特征提取方法来提取语言特征,包括LIWC,N-gram以及LDA主题模型,并且一定程度上解决了特征稀疏性的问题。实验结果表明,本文中提出的半监督学习方法可以利用未标记的数据,提高预测模型的准确性。在人格分析模型的基础上,本文搭建了网络空间中的人格分析系统,包括离线系统和在线系统,离线系统完成人格分析模型的构建以及相关性分析,并将结果存入数据库,用于在线系统的人格分析和相关性分析结果展示。用户可以登录在线系统,通过提供社交网络中的文本内容,对自身人格进行分析,并且查看用户语言特征与人格特质的相关性分析结果。