网络用户行为分析关键技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:tonyyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网时代的到来,网络正深刻地影响和改变着人们的日常生活,网络用户数量也同时呈现出井喷式的增长趋势。特别是,“微信”、“微博”等自媒体社交工具的应用普及化,网络用户不仅是网络信息的消费者,更是网络信息的创造者。因此,如何为网络用户更好地服务,并对网络用户的行为进行有效的管理和监督,就成为当前政府、企业和学术界共同关注的热点问题。网络用户行为分析是指对用户上网数据进行统计及分析,从中发现网络用户行为的规律性。通过网络用户行为分析,运营商可改善网络服务质量,防范网络攻击;内容提供商可针对用户偏好提供个性化服务并提供社会舆情探测与分析等。目前,众多学者利用统计学方法、数据挖掘以及机器学习等方法开展了大量的相关研究工作,并取得了丰硕的研究成果。但是,随着网络应用环境的不断扩展和日益演化,网络用户行为分析的需求也呈现出多样化的特点,传统的采用孤立、静态属性来刻画网络用户行为的方法往往会导致用户行为及其属性特征被割裂分析,无法有效地适应日益复杂的网络应用环境。因此,本文从网络用户行为特点出发,深入探索网络用户行为与网络应用场景之间的内在关系、规律和统计学特性,并开展了如下方面的研究工作:(1)提出面向网络用户行为分析的标签自动生成聚类方法。对当前的用户行为聚类方法进行分析,指出其存在通用性不强、不能支持大规模动态数据以及聚类后生成的簇缺少语义特征等问题。针对上述问题,论文将用户行为数据的相关特征与聚类过程融合,并应用潜在因子模型(Latent Factor Model,LFM)、矩阵分解等方法,提出一种在用户行为数据聚类的同时可以自动生成语义明确的簇标签的方法。利用AP聚类算法和DP-means聚类算法,并结合用户行为数据进行测试。测试结果表明本方法无须事先确定用户行为数据规模,在聚类的过程中同时生成簇标签,且聚类的效果和标签语义的准确度也符合用户行为的实际情况,进而证明了本方法的有效性和通用性。(2)提出基于统计学方法的Web用户浏览行为预测模型。传统的网络用户浏览行为预测方法较少考虑数学模型、用户浏览行为、网站分层结构、预测准确率以及系统效率之间的多维关系,进而导致建模过程复杂、系统效率低以及不能很好地支持大规模动态数据等问题。为此,首先设计了基于Hash表的倒排索引结构(Inverted Index Structure based on Hash Table,IIS-HT),并利用IIS-HT来提高数据的预处理速度;分析Web站点的层次结构特征,利用分层思想来减少网页处理的数量,进而设计了基于Markov模型和Bayesian定理的Web用户浏览行为分层预测模型。描述了模型的设计思想、相关定义、模型框架以及核心构建方法等内容。最后,进行实验分析,实验结果表明在适当的预测准确率前提下,该模型能够在减少预测时所需的候选网页数量的同时提高系统效率,并可以有效地支持大规模数据分析问题。(3)提出基于主成分分析(Principal Component Analysis,PCA)的数据库用户行为异常检测模型。目前,针对数据库系统内部攻击与威胁的检测方法较少,且已有的方法存在检测准确率低,不能很好地支持数据库动态更新,以及通用性差等问题。为此,将数据库用户行为异常检测中的“基于语法”的方法和“基于语境”的方法结合,提出了一种更具通用性的基于PCA的数据库用户行为异常检测模型。利用过采样方法、LOO(Leave-One-Out)以及在线加速等方法对传统PCA方法进行改进,利用该改进的PCA方法对数据库用户的行为特征进行提取,以降低数据维度,进而实现提高检测效率和准确率的目的。给出模型的设计思想、系统框架和详细构建过程。最后,利用相关实验数据进行测试,结果表明本模型能以较高的准确率检测出数据库用户的异常行为。(4)提出基于用户行为的 HTTP DDoS(Distributed Denial of Service,DDoS)攻击检测方法。已有的HTTP DDoS攻击检测方法存在检测模型建模复杂度高和不支持用户动态行为模式等问题。为此,利用可变长度序列状态的离散时间马尔科夫链(Discrete-time Markov Chain with states of variable-length sequences,DTMC-SVLS)的建模复杂度可控和支持动态行为模式的特点,对HTTP DDoS攻击过程中的用户行为进行分析;将用户的HTTP请求序列作为行为特征,并利用DTMC-SVLS分别提取正常用户和待检测用户的行为特征,并对二者进行比较,如果二者的偏离程度超过了规定的阈值,则判定该行为是异常行为。为了验证该方法的有效性,模拟HTTP DDoS攻击数据,并进行实验测试。实验结果表明,本文所提出的方法,建模过程简单,并且在支持用户动态行为模式需求的前提下,有效地提高了检测准确率。
其他文献
随着控制系统的复杂度和规模日益增加,保证其长期可靠运转正变得愈发困难。尤其在严重关系人身和财产安全的领域(比如航空、航天、核电等),一个很小的故障如果未经恰当处理,即可引发灾难性事故。为使故障发生时整个系统的性能仍然在可接受的范围内,容错控制技术在上述领域中备受关注。在过去三十年间,基于解析冗余的容错控制方法得以迅猛发展。该方法无需任何硬件备份,而是用被控对象的数学模型,完成系统中各部件间的功能冗
随着机器人技术的快速发展,工业机器人已由早期的物料搬运、点焊、弧焊、涂胶密封、冲压压铸等简单操作越来越多地应用于加工领域,如:制孔、铣削、磨削以及搅拌摩擦焊等高精度金属切削加工,从而替代人工作业,极大地提高了产品的加工精度和生产效率。工业机器人相比于传统数控机床具有结构紧凑、灵活性好等优势,特别适用于航空航天、船舶、高铁等需要在装配现场开展大量钻孔、镗孔、磨削和铣削等切削加工的场合,由于需要装配的
近年来,智能材料的开发与使用,已经成为现代高技术与新材料发展的重要方向。智能材料是一种能够感知外部信号刺激,自身可执行动作的材料,可以作为新型驱动器应用在机器人领域。智能材料驱动器已经成为开发仿生、软体机器人等领域的重要驱动功能器件,其制备、建模、控制及应用技术吸引了越来越多不同学科研究者的关注。本文针对智能材料驱动器在机器人系统中作为末端执行部件的应用展开了研究,主要研究内容如下:(1)面向微操
硅钢材料主要用作电机、变压器、电器以及电工仪表中的磁性材料。随着机器视觉技术的发展,采用视觉检测与识别技术进行表面缺陷检测与识别表现出越来越大的优势。为了提高产品的质量,表面缺陷的精准定位与识别受到硅钢企业的重视,并投入开展相关研究,提高检测的精度和效率。本文利用图像处理和模式识别等相关技术对目前硅钢表面缺陷检测和识别任务中存在的问题进行分析。由于硅钢表面图像模式复杂,本文采用分级检测与识别的机制
随着机器人技术的快速发展,机器人越来越多地应用于加工领域。与传统的数控机床相比,机器人加工具有加工成本低、工作空间大、高柔性的优点,多应用于大尺寸的复杂曲面加工领域及大型工件的钻削加工领域。但是,由于刚度的限制,机器人加工主要针对低切削力和较低精度要求的零件加工领域。目前的机器人加工系统大多使用传统数控系统领域中的ISO6983标准(G/M代码)作为编程数据接口,首先使用CAD/CAM系统生成零件
在许多公共场合,仅依靠一种安全检测设备很难真正实现综合的多信息检测。要采用一套完整的技术对被检对象中的物质进行有效的分类以全面控制一个区域的安全,目前国内外仍无法有效实现。本课题通过对国家职能部门的调研,根据其对重点控制的违禁品和习惯采用的安检模式和需求,提出并设计了一个有针对性的多信息融合的整体方案。我们对几种常见违禁品的多信息数据进行了采集和重构,通过一系列的理论和实验研究,完成了一套综合性的
随着互联网技术的迅速发展和网络规模的持续扩大,多种多样的新型网络应用不断涌现,不仅网络应用的种类愈加纷繁复杂,而且用户对各类型网络应用的通信需求也呈现出越来越多样化和个性化的特点。另外,用户更加关注服务体验,即使对于同类型的网络应用,其通信需求在不同的地理因素、心理因素和行为因素下也有很大差异。这就需要网络在各类应用的通信路径上提供多种多样的网络功能,以独特的分组处理及转发操作满足差异化的需求情形
随着工业4.0时代的到来,对产品质量进行自动化检测已逐渐成为发展趋势。在各类自动化检测方法中,基于图像处理技术的检测方法被认为是未来自动化检测方法中的一项最重要的技术。实际上,工业生产中的大多产品缺陷(如钢板成型过程中的表面缺陷等)均可归结为某种具有特定视觉特征的目标,对这些目标进行精准分割可为后续处理提供目标位置、形状等基础且关键的信息。因此,通过分析并量化不同目标的主要特征,并针对该特征提出相
生物打印,是一种广泛应用于生物制造的快速成型技术。根据由计算机辅助设计获得的虚拟设计数据,生物打印可用于按层制造三维实物。目前按需滴化微喷射生物打印是一种非常前沿的生物打印技术,具有高输出和性价比高的特点。与传统的细胞种植技术相比,按需滴化微喷射生物打印可以打印三维组织结构,为细胞提供更适于生长的环境,并且可以直接在指定的空间位置打印多种细胞类型和生物材料。为了实现器官制造,生物墨水中的细胞必须被
疲劳驾驶是造成交通事故的重要因素之一,驾驶疲劳问题引起了全球各国的广泛关注。对此,世界多国学者开始了对疲劳驾驶检测与预警系统的研究,希望构建具有驾驶疲劳检测、和谐人机交互的高级安全辅助驾驶系统(Advanced Driver Assistance System,ADAS)。ADAS的前端判别子系统可分为感知层和判别层两个结构单元。其中,感知层如何获得可靠的多模态生理信息?判别层如何及时准确地判别出