论文部分内容阅读
社交网络数据自动化分析是自然语言处理、社交网络分析等领域的重要研究课题。其中,微博用户性别识别是一项基本研究任务。该任务旨在利用社交平台用户产生的数据对用户的性别进行预测。虽然基于微博的性别分类已有一定的研究,但是针对中文文本的研究还比较缺乏。因此,本文首先探索了关于中文微博文本的单用户的性别识别方法。其次,受微博用户彼此之间的交互机制启发,我们定义了一个新的任务,即交互式性别分类,其可以同时对某个交互中参与的两个用户的性别进行分类。此外,值得一提的是,本文最终提出了一个联合推理方法,其不仅能稳定的提升交互式性别分类任务的性能而且能同时提升单用户性别分类的性能。具体而言,本文的研究内容主要包括以下三个方面:首先,针对中文文本微博用户分类问题,本文提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如:字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明本文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。其次,社交网络平台中的用户不是孤立存在的而是彼此之间相互联系的。因此,用户生成的文本一般被许多用户共享而不单单只属于一个用户。鉴于此现象,本文定义了一个新的任务,即交互式性别分类,致力于通过利用某两个用户之间交互的文本同时对这两个用户的性别进行预测;并且为了解决这些交互式文本间存在的相同用户性别标签依赖关系,本文提出了一个两阶段方法。具体而言,第一阶段,我们采用一个标准的四类别分类方法来获得一个初步的分类结果。第二阶段,我们提出了两种不同的优化算法,即标签驱动和概率驱动优化算法,来获得全局最优的性别预测结果。最后,不仅仅交互式性别分类任务中的样本间存在相同用户性别标签依赖,而且交互式性别分类与单用户性别分类两个不同任务中的样本间也存在该依赖关系。鉴于此,本文提出了一种包含样本间标签相关性的联合推理方法。具体的,我们利用整数线性规划算法(ILP)来处理各种内部任务约束(交互式性别分类任务中的约束)和外部任务约束(单用户性别分类任务中的约束),并进行全局优化。实验结果表明我们的基于整数线性规划模型的交互式性别分类算法能同时在单个用户性别分类任务和交互式性别分类任务上都取得较好的分类性能。