基于深度学习的中文微博作者身份识别研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ie_down
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线交互技术的发展和越来越多社交网络平台的兴起,人们将越来越多的闲暇时间花费在社交网络平台上。在线社交网络用户的隐匿性和匿名性为网络不法分子提供了可乘之机。社交网络中用户发布的文本内容包含大量的文本特征,通过文本特征建模来构建作者无意识的写作习惯,从而自动映射匿名文本作者的身份,成为当前学者和专家们的研究热点。本文研究基于深度学习的中文微博作者身份识别,通过对大量的中文微博账号的基本信息、博文等数据进行分析,采用深度学习算法自动提取特征,识别博文作者。由于深度学习方法需要大量的样本数据,而微博平台上的实名作者仅发布了数量有限的文本用作正样本,但负样本的数量是正样本的几万倍,因此会出现严重的样本不均衡问题,从而影响作者身份认证的精准度。针对此问题,我们提出了一种数据增强作者身份认证方法,使用Wasserstein生成对抗网络为样本量少的正样本生成与负样本等量的正样本,有效解决了样本不平衡问题,提高了身份认证的准确度。我们爬取了新浪微博数据构建了实验数据集,实验结果表明,与基准线相比本文提出的新方法能够将作者身份认证的准确度提高14%,证明了本文提出方法的有效性。在此基础上,本文设计并实现了一个中文微博作者身份认证系统。中文微博作者身份认证系统主要包括数据采集模块、特征处理模块、模型训练模块、微博作者身份认证模块及数据存储模块。本文详细介绍了各模块的主要功能以及流程。通过对中文微博作者身份认证系统进行测试,验证了系统功能的可用性及稳定性。结果显示,本系统能够对中文微博作者的身份进行有效的认证。
其他文献
随着云计算技术的快速发展,云数据中心的规模在不断扩大,高能耗已成为云平台一个突出的问题。以往的研究是通过虚拟机的迁移聚合来降低云平台能耗,但是当虚拟机部署到物理机后短期内不会进行迁移,此时可以考虑通过任务调度进一步降低云平台能耗。然而,目前的云平台任务调度方法大多以减少任务执行时长为目标,针对不同计算性能的异构节点构成的异构云平台时,这种任务调度策略可能导致较高的能耗。另外,云平台上的计算任务大多
近年来,随着复合板带材料市场竞争的日益激烈,开发出一种生产成本低、产品质量高的板带生产工艺显得尤为迫切。连续碳纤维增强铝基Cf/Al复合材料作为一种具有高比强度及高比模量,高抗疲劳强度,轻质,耐磨性强,高导电性能及高导热性能等优点的理想新兴复合材料,受到了广泛的关注,并在交通运输、军工产业及航天航空材料等方面的研究和应用越来越深入。本文主要通过对双辊铸轧成型法制备连续Cf/Al复合材料的成型工艺及
2008年席卷全球的金融危机引发了全球经济的大动荡,也引发了国内外诸多学者对货币政策调控与金融市场稳定间相关关系的关注。Borio&Zhu(2008)提出货币政策传导的风险承担渠道,指出扩张性的货币政策不仅能够直接影响银行的信贷规模,还能够通过刺激金融机构的风险容忍度进而促进信贷投放,最终影响宏观经济稳定。作为连接宏观调控和实体经济的重要桥梁,商业银行对政策的反应关系到宏观干预手段的传导效
利益是人们生存发展的重要因素,是人们开展实践活动的动力。高校思想政治教育作为有目的、有计划、有组织的社会实践活动当然也离不开利益,大学生作为思想政治教育开展的对象也受到利益的影响。因此高校思想政治教育要想顺利开展就需要从利益视角出发,本文运用文献研究法、系统分析法和理论研究法对高校思想政治教育进行了全面深入的剖析,建构起了比较完整的框架。在深入研究利益相关概述的基础上,阐释了利益与思想政治教育存在
随着全球经济格局的不断变化,创新在经济发展中的地位愈发显现,世界各国都将提升科技创新能力视作稳定经济发展的良方。在“大众创业,万众创新”的时代背景下,中小企业的科技
随着互联网化程度逐步加深,Web应用以其易用性和便利性,广泛使用于各行各业和日常生活中,成为当前信息时代不可或缺的一部分。而面临日益增长变化的需求和开发迭代敏捷化的现状同时,Web应用质量也成为开发测试人员和用户极为关心的核心领域。然而,现有Web应用质量检测手段,主要还是依靠手工测试或者脚本测试,不仅人力和时间成本消耗较大,而且测试效率也较低,且可重复性差。另一方面,作为回归测试,这些测试手段虽
对于移动用户,卸载部分任务到移动边缘计算(MEC)服务器能够有效降低用户完成任务的能量消耗和时间消耗。在MEC卸载系统中,用户需要向MEC服务器支付租用计算资源的费用。对于
车辆再识别和追踪是智能交通系统(Intelligent Transportation System,ITS)研究的重点与难点。而密集交通场景在城市道路交通系统中出现的频率也在不断上升。提升密集交通场景下的追踪准确率对于提高车辆追踪系统性能起着至关重要的作用。但在该场景下车辆再识别和追踪存在着诸多挑战,如目标分辨率过小、跨摄像头车辆再识别以及由于遮挡造成的身份标签变换(Identity Switch
农地是人类必不可少的粮食生产基地,是务农者赖以生产、生活的物质基础。我国人多地少,又面临农地分布不均、后备农地不足等问题,在这样的具体国情下,农地的保护关系到国家的
悬架系统是隔离路面激励的重要总成,对车辆的乘坐舒适性和驾驶稳定性起着重要作用。随着车辆的广泛应用,人们对车辆的舒适性、安全性及越野性等的要求越来越高,这些要求对悬架的设计提出了挑战。本文结合袋鼠跳跃速度快、立足面小、运动平稳等特点,提出一种双菱形仿袋鼠腿悬架结构,并对其进行静、动力学建模和特性仿真研究。主要研究工作如下:1、通过对袋鼠腿部结构和功能的研究,将三连杆式仿袋鼠腿悬架结构进行对称布置,改