社交网络中用户年龄识别方法研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:yu23344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络数据的自动化分析是自然语言处理、社交网络分析等领域的重要研究课题。用户年龄属性识别是社交分析中的一项基本研究任务,该任务旨在通过用户在网上发布的文本信息或者用户社交信息确定用户准确的年龄或者所属的年龄段。准确识别用户的年龄属性,可以帮助很多社交应用,例如:智能营销、在线广告宣传以及用户个性化分析。虽然目前用户年龄分类已有一定研究,但是针对用户年龄回归的研究还比较匮乏。本文主要将年龄识别任务建模成回归问题进行研究,具体研究内容包括以下三个方面:首先,本文提出了一种基于主动学习的用户年龄识别方法。其核心思想是:首先,将整个特征空间划分为几个不相交的特征子空间,并利用这些特征子空间训练回归器委员会;其次,基于以上回归器委员会利用委员会投票方法从未标注样本中挑选不确定样本进行人工标注,并将标注好的样本加入到已标注样本集中;最后,使用扩展后的已标注样本集构建最终的年龄回归模型。实验结果表明,本文提出的主动学习方法可以有效的减少人工标注代价,同时获得较随机挑选样本更好的年龄识别效果。其次,本文提出了一种跨社交媒体的用户年龄识别方法。其核心思想是:首先,基于源社交媒体中的已标注样本集利用随机子空间生成方法,得到协同训练方法中的两个特征视图;其次,基于以上特征视图分别训练回归器,自动标注目标社交媒体中的未标注样本,利用委员会投票方法选择标注最确定的样本加入到已标注样本集中;最后,利用扩展后的已标注样本训练年龄回归器预测目标社交媒体中的用户年龄。实验结果表明,本文提出的半监督学习方法能够有效缓解不同社交媒体的文本适应问题,从而提升跨社交媒体的用户年龄识别性能。最后,本文提出了一种混合分类/回归模型的用户年龄识别方法。其核心思想是:首先,利用长短期记忆神经网络(Long Short-Term Memory,LSTM)分别构建年龄分类模型和年龄回归模型用于年龄识别,充分学习输入值之间的长相关联系;在此基础上,将年龄分类的结果与年龄回归的结果进行线性融合作为年龄识别的最终结果。实验结果表明,本文提出的混合模型能同时利用分类模型和回归模型的优势,相比于基于LSTM的年龄分类与年龄回归模型,能够获得更好的年龄识别效果。
其他文献
白鹤芋又名白掌、一帆风顺、异柄白鹤芋、银苞芋,为天南星科苞叶芋属多年生常绿草本观叶植物。白鹤芋叶片翠绿,佛焰苞洁白,清新幽雅,是重要的观花和观叶植物。白鹤芋无茎或茎
实行“科技兴贸”战略以来,高新技术产品出口取得了很大成绩:同时也存在如地区发展不平衡、出口市场过于集中、加工贸易比重过大,出口企业主体失衡等问题;针对企业自主创新能力和
简单介绍了关联理论,及关联理论中的一个重要模式:明示—推理模式。从珍妮·凯利和茅国权所合译的钱钟书的代表作《围城》——Fortress Besieged中,选取部分实例,运用明示—
在科技进步和环境需求驱动下,世界能源正加速向清洁、低碳方向转型,而中国已经成为全球能源清洁转型的引领者。国际能源巨头、BP集团在上海最新发布的《BP世界能源统计年鉴》
我有了一个异想天开的想法:在家里搞分餐制。我把定量的主食、肉菜和蔬菜、鱼等均衡搭配,每人分到自己的一份,并且坚持让儿子把每一样菜都吃完。这样做,不仅能够更准确地掌握
对于实际工程的管理者和决策者来说,工程整体费用和工期之间如何达到均衡以及工程所处环境的不确定性是两个必须要面对和考虑的问题.基于相关机会规划的思想,针对随机性和模
中药作为慢性胰腺炎(chron ic pancreatitis,CP)的治疗药物之一,对CP的临床症状和某些实验室指标都有改善作用,其有效性和特色优势已得到肯定。迄今的实验研究,已建立起各种C
中国民间故事中的"巧女"故事是以巧女形象为中心的民间叙事,是社会底层广大民众生活现实的反映。以汉中地区巧女故事为研究对象,把"巧女"置于符号学视野下,既能看到其中的真
为了提高光通信系统对光信号的探测和传输性能,降低通信系统的相干性干扰,提出基于光相干探测技术的光通信系统设计方法。采用VXI总线作为光信号传输的触发总线,功能模块包括