基于NWD集成算法的多粒度微博用户兴趣画像研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:ebugdoor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的到来,微博等社交媒体平台异军突起,其连接的用户数以及用户产生的数据呈现出爆发式增长,由此而促成了社交媒体大数据的诞生。如何挖掘这一数据源中蕴含的宝贵信息和知识一直都是工业界和学术界研究人员关注的焦点,而用户兴趣画像则正是有效利用这一数据源的方式之一。对于企业来说,用户兴趣画像是其完成个性化推荐、精准营销和服务方式升级,甚至战略决策的基础;对于用户来说,用户兴趣画像则是其规避信息轰炸的有效手段。所以,研究用户兴趣画像不论是对于企业还是用户来说都具有非常重要的意义和价值。然而,在以微博数据为基础的用户兴趣画像相关研究中,由于微博文本中存在非正式性、简洁性和“信息过载”的问题,且微博数据难以获取,使得微博用户兴趣画像一直都难以有效构建。本文针对上述问题,主要做了如下三方面的工作来尝试解决或减轻这些问题,并得出了相关结论:(1)以网络爬虫的方式抓取新浪微博数据两千余万条,并通过hashtag构造原始微博用户兴趣画像标签数据集十万余条用于支持本文的相关实验,该数据集也可用于研究人员继续开展微博用户兴趣画像方面的各项研究;(2)针对微博文本的非正式性,提出了一种基于支持度视角的新词发现(New Word Discovery,NWD)算法,用于发掘微博文本中大量存在的网络用语和新词,从而实现更加准确的分词及语义把握。实验结果表明,本文所提新词发现算法的效果要优于现有主流基于点互信息(Pointwise Mutual Information,PMI)和邻接熵(Branch Entropy,BE)的新词发现算法;(3)在综合考虑微博文本特殊性的基础上(包括引入Simhash处理“信息过载”的问题,由双向长短期神经网络(Bidirectional Long Short Term Memory,Bi-LSTM)提取博文语义特征以应对微博文本简洁性的问题),提出了一种集成NWD算法的监督式组合算法框架——新词发现-双向长短期记忆网络-梯度提升(NWD-Bi-LSTM-XGBoost)算法框架。实验结果表明,粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macro-average F1 score,mF1)和受试者工作特征曲线下面积(Area Under ROC Crave,AUC)分别达到了88.1%、83.8%和74.5%、67.4%,说明NWD-Bi-LSTM-XGBoost算法框架能有效构建多粒度微博用户兴趣画像。而相对于基准模型,NWD算法的集成使得模型的mF1值和AUC值均能提升3%~5%,且其促进作用优于现有的新词发现方法。另外,相比于skip-gram算法训练得到的静态词向量,由BERT-Base生成的动态词向量在多粒度微博用户兴趣画像中表现更佳,其在mF1和AUC上的最大提升分别达到了4.5%和4.1%。
其他文献
超分辨率复原技术可以获取更高质量的图像,同时恢复成像过程中丢失掉的高频信息,在图像识别、目标检测等诸多领域具有广泛的应用意义。基于卷积神经网络的方法是当前超分辨率复原领域的主流技术,取得了显著优于传统算法的结果。但是现有网络通常是针对特定比例而训练的,难以同时支持不同比例的分辨率提升。本文针对这一问题,在对基于增强残差网络的超分辨率复原算法进行深入研究的基础上,开展了基于注意力机制的逐分辨率提升超
壳聚糖(CS),是从甲壳质中获得的天然高分子(β-1,4-N-乙酰氨基葡萄糖),其分子上具有丰富的氢键环境(由氨基和羟基这些极性官能团形成的),可以用作还原金属离子的温和还原剂和稳定剂
酒曲是一种用量非常大的糖化发酵剂,是中国酿酒技术中不可或缺的成分。传统人工制曲生产方法效率低、强度高、环境差,且需占用大量的场地,因此急需用高效的机械制曲设备来替
本文主要研究了神经网络算法在矩阵积和式估值问题上应用,分析了卷积神经网络和人工神经网络在预测矩阵积和式对数值问题中各自的优劣。深入探讨了在不同网络结构,不同的训练
国家空间数据基础设施建设的首要目标是构建多尺度矢量地图数据库,地图的多尺度表达能为众多领域的发展提供基础信息,而制图综合正是解决这一技术难题的重要手段。我国正面临着将传统静态的多库多版本的地理信息数据库升级为动态的一库多版本的空间数据库的挑战,这就涉及到对不同源不同尺度(比例尺)的矢量要素进行融合,以及利用制图理论与方法实现“无级比例尺”的目标——即让矢量数据能自适应比例尺的变化并对空间数据进行压
随着我国工业化步伐的日益加快,非线性设备接入电网的比例逐渐增多,由此造成的电能质量问题日趋严重。静止同步补偿器(Static synchronous compensator,STATCOM)拥有良好的动态性能和补偿效果,在治理电能质量方面有着不可替代的作用。H型级联结构的STATCOM有着模块化、补偿精度高、易拓展等优点,是当代学者研究STATCOM装置的一个主要方向。论文选取H型级联STATCO
随着时代的进步、社会信息化的发展,人与人之间的交往变得日益密切,口语交际成为社会生活的需要,也成为个人长久发展的必备能力。自2001年基础教育新课程改革以来,口语交际跃然纸上,随之语文课程标准也适时的对口语交际进行了规范和完善,使得口语交际的地位得到显著提高,也使越来越多的教育研究者和一线教师逐渐重视口语交际教学。但是在教育资源相对匮乏,教育理念相对落后的农村地区,口语交际并未受到应有的重视,口语
目的:采用激光散斑对比分析技术(Laser Speckle Contrast Analysis/LASCA),对在不同分期接受针刺治疗的周围性面瘫患者的眼区和面颊区的血流灌注情况进行监测;并对面神经功能进行评分。在此基础上,研究血流不对称性值(Pr值)和面神经功能评分的动态变化特点,分析血流不对称性值(Pr值)和面神经功能评分的相关性,进而对针刺治疗本病的疗效,以及在不同分期接受针刺治疗的疗效差异
随着对社会资源的不断开采,自然的生态平衡遭到破坏,自然灾害也随之产生.在探索自然界物种的种群自身动力学特征和与之相关的种群之间相互作用过程中,人们也越来越关注可持续发展的重要性,既满足人类需求又维持了生态平衡.在种群动力学中,两个种群间存在多种关系,但最值得青睐的是捕食关系.本文主要对一类带有简化Holling类型IV功能反应函数和非线性收获函数的捕食者-食饵模型进行研究,讨论在人为捕猎下捕食系统
图像修复是一项有着广阔应用前景的技术,作为数字图像处理的一个分支,它已成为计算机视觉、信息论等学科中的重要研究方向。图像在采集、传输和存贮的过程中,可能会有部分信