微博用户性别识别方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：wangwangge

【摘要】

：

社交网络数据自动化分析是自然语言处理、社交网络分析等领域的重要研究课题。其中,微博用户性别识别是一项基本研究任务。该任务旨在利用社交平台用户产生的数据对用户的性

【作者】

：

王晶晶

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2016年01期

【关键词】

：

性别分类文本分类社交网络整数线性规划

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

社交网络数据自动化分析是自然语言处理、社交网络分析等领域的重要研究课题。其中,微博用户性别识别是一项基本研究任务。该任务旨在利用社交平台用户产生的数据对用户的性别进行预测。虽然基于微博的性别分类已有一定的研究,但是针对中文文本的研究还比较缺乏。因此,本文首先探索了关于中文微博文本的单用户的性别识别方法。其次,受微博用户彼此之间的交互机制启发,我们定义了一个新的任务,即交互式性别分类,其可以同时对某个交互中参与的两个用户的性别进行分类。此外,值得一提的是,本文最终提出了一个联合推理方法,其不仅能稳定的提升交互式性别分类任务的性能而且能同时提升单用户性别分类的性能。具体而言,本文的研究内容主要包括以下三个方面:首先,针对中文文本微博用户分类问题,本文提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如:字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明本文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。其次,社交网络平台中的用户不是孤立存在的而是彼此之间相互联系的。因此,用户生成的文本一般被许多用户共享而不单单只属于一个用户。鉴于此现象,本文定义了一个新的任务,即交互式性别分类,致力于通过利用某两个用户之间交互的文本同时对这两个用户的性别进行预测;并且为了解决这些交互式文本间存在的相同用户性别标签依赖关系,本文提出了一个两阶段方法。具体而言,第一阶段,我们采用一个标准的四类别分类方法来获得一个初步的分类结果。第二阶段,我们提出了两种不同的优化算法,即标签驱动和概率驱动优化算法,来获得全局最优的性别预测结果。最后,不仅仅交互式性别分类任务中的样本间存在相同用户性别标签依赖,而且交互式性别分类与单用户性别分类两个不同任务中的样本间也存在该依赖关系。鉴于此,本文提出了一种包含样本间标签相关性的联合推理方法。具体的,我们利用整数线性规划算法(ILP)来处理各种内部任务约束(交互式性别分类任务中的约束)和外部任务约束(单用户性别分类任务中的约束),并进行全局优化。实验结果表明我们的基于整数线性规划模型的交互式性别分类算法能同时在单个用户性别分类任务和交互式性别分类任务上都取得较好的分类性能。

其他文献

基于体绘制的医学图像反分割方法研究与应用

医学图像分割是获得人体组织、器官以及病变体的三维图像、仿真手术等后续处理的基础，它在医学影像处理与分析中具有特殊重要的意义，是医学图像处理的关键一步，是跨越医学和计算

学位

医学图像分割置信区间体绘制蒙特卡罗积分三维种子点

基本遗传算法的改进研究与应用

遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法，具有通用性强、适应面广、鲁棒性强，易于并行化等优点，已被广泛用于函数优化、组合优

学位

基本遗传算法比例选择最优个体保存基因库

本体查询及自动完善系统研究

由于计算机科学与技术的发展,使得计算机越来越融入现代人的生活。从实现最简单的计算功能到人工智能,人们对于计算机的要求变得越来越复杂。其中最常见的要求之一就是从互联

学位

本体语义本体完善本体还原

可拓检测的可测物元与不可测物元的可拓变换

随着计算机科学和信息技术的飞速发展,检测技术已经成为了一种关乎经济发展和科技进步的关键技术。信息的检测是基于信息可测的基点上,而目前信息可测直接依赖于传感器和环境

学位

可拓检测不确定推理计算机技术人工神经网络

分布式互斥请求集生成算法的研究

算法运行的高效性是衡量算法优劣的一个重要标准。分布式互斥请求集的长度、对称性以及生成的难易程度都直接影响着生成该请求集的分布式扶持算法的时间复杂度、对称性和算法

学位

互斥请求集初始化三角形网格

基于机器视觉的太阳能电池外观检测技术研究

随着能源需求的不断增长,太阳能作为一种清洁环保的可再生资源,逐渐开始被广泛利用。太阳能电池在制作过程中通常需要通过严格的质量检测,如是否存在物理破损、表面划痕,是否存在断栅,印刷图案是否清晰正确等问题。传统工业模式下,这些检测工序需要检测人员人工目测,人工检测不仅检测效率低下而且容易出现因视觉疲劳和主观臆断造成检测错误情况。近年来随着计算机技术和数字图像处理技术的快速发展,使得利用机器视觉对太阳能

学位

太阳能电池机器视觉缺陷检测图像分割相机标定桶形畸变

基于XML的社区电子服务VPN网络管理系统的设计与实现

社区电子服务通过建立在公共网络上的虚拟专用网(VPN),为社区用户提供简便、快捷的综合服务,它凝聚了电子商务、网络安全、网络管理、通信技术等领域的高科技成果。在社区电

学位

XML-SNMP管理模式XML/SNMP网关XML/关系数据库转换器XML模板Web服务

基于混合方法的电子商务推荐系统的研究与应用

随着互联网的普及和电子商务的快速发展,电子商务系统提供更多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己所需商品。电子商务

学位

推荐系统电子商务混合推荐协同过滤数据稀疏性数据挖掘

面向医保基金风险防控的数据准备技术研究与实现

医保基金风险防控平台要系统地识别和衡量医保基金管理过程中存在的各类风险,并通过选择和运用适当的管理手段避免及应对这些风险。它本质上是一个决策支持系统,是知识发现与

学位

数据准备空缺值处理ETL元数据管理数据清洁数据质量

基于特征的轨迹数据集化简研究

随着位置获取技术、移动计算和传感器网络的不断发展,越来越多的移动对象轨迹数据被人们所获得。利用这些轨迹数据,各种基于位置的服务应运而生,为人们的生活和出行提供了巨

学位

时空数据库轨迹压缩轨迹数据集化简

微博用户性别识别方法研究

与本文相关的学术论文