互联网用户行为分析中个体倾向预测与群体热点挖掘研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:yan2541023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的迅猛发展,网民数量和上网时长日益增加,特别是“互联网+”战略的推进,互联网已日益成为公众日常工作、生活、学习不可或缺的平台和助手,深刻地改变着人们的生活方式、行为方式和价值观念,随之产生了蕴含着丰富信息的用户网络行为数据。分析网络用户行为可以深入挖掘用户的行为偏好和性格特征,不仅对社会学、安全领域等有着理论价值,而且对于网络信息、动态监控和威胁预警等应用具有实际意义。现阶段,针对网络用户行为分析,很多研究者往往只侧重于个体用户行为或群体用户行为研究,而忽略了将两者相结合。本文基于用户上网产生的文本数据,围绕个体行为和群体行为两个角度展开分析,以便感知用户观点的情感倾向,同时挖掘群体用户的关注热点,进行话题追踪和检测。本文主要工作和创新如下:(1)针对传统模型文本特征提取不够全面、学习能力差的问题,提出一种基于BiLSTM(Bi-directional Long Short-Term Memory)的胶囊网络用户观点倾向性分析方法,称之为Caps-BiLSTM。本方法使用N-Gram卷积层提取文本特征,并将胶囊网络与BiLSTM相结合,融合词的上下文信息,实现参数自适应调整,更好地表示和学习文本的特征;引入BiLSTM能够改进传统胶囊网络模型,优化模型性能,提高用户观点倾向性分析的准确性。在IMDB、MR与NLPCC2014三个数据集上进行实验,结果表明所提出的Caps-BiLSTM模型能够有效对个体用户观点倾向性做出判断,其中IMDB数据集的准确率达到91.96%,比其他深度学习模型准确率至少提升1.16%。另外,通过控制变量分析与参数敏感性分析,验证模型各部分对实验结果的影响,并进行适用性分析,从而实现个体用户的观点倾向性判断。(2)针对传统方法在无监督条件下热点挖掘准确率不高、结果难以评估的问题,提出一种结合语义的用户关注热点挖掘方法。首先使用LDA主题模型提取文档的主题词来对文档进行表示,对语料实现降维处理;接下来采用Word2Vec方法将主题词转换成词向量表示,在文本表示层融合语义信息;然后利用K-Means算法对文本进行聚类,并使用结合簇内误差平方和与轮廓系数的K值选取方法得出最佳聚类结果,其中每一类代表一种热点话题。在搜狐新闻数据集上的实验结果表明,结合语义的热点挖掘算法可以找到最佳聚类结果,能够降低聚类误差,F1值对比基线模型至少提升3.30%,优于其他主流算法。另外,通过参数敏感性实验,验证各参数对结果的影响,并进行适用性分析,从而实现群体用户关注热点的挖掘。
其他文献
在科学技术不断进步的现代社会,人类追求更高效更舒适的生活模式,随着多种多样的柔性材料的出现与研究,对柔性材料的应用已经开始渗透到人们的日常生产和生活中,如软体机器人领域、汽车领域、水利工程等。柔性材料最主要的特征在于能够承受一定的外力作用后,产生伸缩、弯曲、扭转变形后而不被破坏,能够保持性能。相对于传统的刚性结构能够实现与复杂环境的良好交互。由此看来,优异的力学性能对于柔性材料至关重要,柔性材料的
钢渣是钢铁炼制过程中的产物,具有广泛的应用前景,本课题将钢渣应用于沥青路面面层中,分别对钢渣集料工程特性、钢渣吸附沥青特性、钢渣沥青混合料性能、钢渣工程应用进行研究。首先,通过钢渣物理特性研究,发现钢渣具有与沥青黏附性好、降温延迟的特性,对钢渣进行力学特性研究,发现钢渣拥有优秀的抗压碎和抗磨耗能力;对钢渣膨胀性研究发现,级配组成偏粗的钢渣膨胀量较小。其次,通过钢渣吸附性试验发现,随着沥青温度升高,
随着生物与医疗技术的发展,对生物分子的分离、捕获和聚集等提出了更高的要求,从而对介电泳操控技术的操控准确度要求越来越高,因此作为介电泳操控技术核心的介电泳频谱受到了广泛关注。但当前介电泳频谱的研究存在明显不足——因(?)|E|2在空间分布的不均匀及缺乏对速度获取过程中影响因素的分析,而导致所获取的介电泳速度不准确,进而导致获取的介电泳频谱不准确。为弥补传统方法的不足,提出了单自由度介电泳的频谱获取
桩基础是液化场地建筑物基础的主要应用形式,液化场地中群桩基础动力响应规律一直是建筑物抗震领域研究的热点。本文通过研究国内外文献,结合国内对群桩基础在液化场地中的横向动力响应特性以及桩土相互作用的研究进展,避开目前研究模型与现实工程群桩受力过程中应力应变关系差距较大的问题,展开原型应力应变关系条件下对液化场地中群桩基础横向动力响应及桩土相互作用问题的研究,主要内容包括:在不同峰值加速度正弦波和EL-
锂离子电池具有能量密度高、循环寿命长等优势,在手机、笔记本电脑、规模储能等领域得到了广泛的应用。为了满足日益增长的应用需求,人们对锂离子电池的能量密度、安全性能和循环寿命等方面提出了更高的要求。一方面,科研人员致力于开发新型高能量密度的电极材料,如富锂锰基正极材料(LMR)、镍钴锰三元正极材料、硅碳负极材料;另一方面,碳酸酯类电解液体系在高压或高温下容易分解,与新型电极材料的匹配效果不佳,严重影响
人体动作捕捉技术是在三维空间下复现目标人体的动作信息。目前所应用的人体动作捕捉技术有可穿戴标记式动作捕捉系统和机器视觉无标记动作捕捉系统,但是两种捕捉技术都存在自身难以克服的缺陷与不足。本文将结合Delsys IMU和Kinect传感器各自的优势,研发一种人体动作捕捉系统。该系统发挥两种传感器在人体动作捕捉技术上的优势,具有数据采集简单、准确度高、直观性强、对时间与地点要求低等优点。本课题研发的动
近年来,风电作为一种绿色能源受到世界各国的青睐,随着风电机组装机容量的增加,风电机组所暴露出的多种故障问题不容忽视,对于其中的叶片故障问题,如果不能及时发现、维修,不仅会降低风电机组的发电效率,还可能引发严重事故。本文针对风机叶片的故障诊断问题,主要研究内容如下:一、对基于声频信号和振动信号的故障诊断国内外研究现状进行总结分析,选取梅尔倒谱系数法(MFCC)和原型聚类作为本文研究风机叶片声音信号特
近年来,随着住宅不断产业化,钢管混凝土结构得到了广泛的应用。作为关键部位的梁柱节点连接形式较为复杂、施工容错性小,在一定程度上限制了该结构形式的发展。为推广钢管混凝土结构的应用,有必要研究一种装配方便、施工容错性大的节点形式。为此本文拟通过上焊下栓的方式进行钢管混凝土柱与工字型钢梁的连接,并进行上焊下栓节点的抗震试验和有限元分析,为该类型节点的结构设计提供充分的参考依据。本文提出一种带外肋环板的隔
近年来,不断发展的脑成像技术为理解大脑特定区域与其功能提供了很大的帮助。多模态脑影像分析方法利用不同脑影像数据提供的多种信息,能够帮助医生分析脑疾病的病变机理。目前多模态脑影像分析还面临一定的困难,如多模态脑影像数据样本量少,脑影像的特征维度高、数据异构等问题,找出与疾病相关的特征,提高脑疾病诊断的准确率是目前多模态脑影像数据分析的重点。现有的脑影像分析方法通常只利用一种脑影像数据,或者将多种脑影
永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)的功率密度高且工作效率高,优点显著易于控制。因此在工业生产,新能源汽车等方面以及伺服控制系统等方向都大量使用,PMSM的控制已经成为众多学者的研究热点。目前PMSM控制系统已经比较成熟,然而在很多场合,控制系统需要对系统外可能存在的干扰、负载的变化以及电机本身参数的变化等具有适应修正能力。当电机在实际运行