基于数据流挖掘的网页热门主题获取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gongjuntao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,舆情研究面临着新的问题和挑战。网络舆论提供了一个更为全面更为集中的民意反映,且由于其匿名性等特点,能更真实地反映大多数民众对事件的看法。对网络舆论进行研究,需要收集网络上发布的信息并对其进行挖掘,属于Web挖掘的研究范围。Web挖掘是以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、可视化、自然语言处理等技术,将传统的数据挖掘技术与Web结合起来的一门新兴学科。传统的分类方法根据挖掘对象的不同将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。为了能够更容易地对应用进行分类,本文介绍并完善了一种从应用的角度出发的分类方法。该方法将Web挖掘分为基于生产者的挖掘,基于消费者的挖掘和基于增值服务提供者的挖掘,文中进行了详细的介绍。通过对用户所频繁访问的网页主题进行研究,可以了解一段时间内用户关心的事件,掌握舆情的动向。针对这一需求,本文对实际的网页传输过程进行了研究,总结了网页传输的特点,并针对这些特点对网页的URL的提取及网页的主题的提取进行了相应的处理。网络流量中提取出的主题流可以看作是一个无限的数据流,统计其中频繁出现的主题可看作是数据流的频繁项挖掘问题。由于内存的限制,进行频繁项统计时所使用的算法需要具备只扫描一遍即可发现频繁项和低空间开销及低时间开销的特点。改进的LC算法提出了一种不同于原算法的数据结构和处理流程,进一步减少了算法的时间开销,能够满足处理要求。为使改进算法能够适用于输入数据为相似字符串的情况,增加了对输入数据的处理。基于以上理论基础,本文最后实现了一个基于数据流挖掘的网页热门主题的获取系统,属于基于增值服务提供者的Web挖掘应用。该系统对局域网出入口的网络流量进行捕获,过滤出其中的HTTP连接,记录网页的URL和标题等信息,采用改进的LC算法对频繁出现的主题类进行统计,并将频繁出现的主题类提交给用户。对该系统进行的实测实验表明,系统能够发现主题数据流中的频繁主题,实现了系统的设计初衷。
其他文献
系统建模语言(Systems Modeling Language,SysML)的提出使得模型驱动开发(Model Driven Development,MDD)可以应用于系统工程领域。由于模型驱动开发对自动代码生成的支持,使
组件复用技术中COM(ComponentObjectModel,组件对象模型)是当今解决可复用性最有效和最前沿的技术。它不仅仅采用了面向对象程序设计方法,还体现了组件化的程序设计思想,在整个
本文针对C/C++程序中资源泄漏安全漏洞的静态检查进行了研究。为了达到查找C/C++程序中的安全漏洞,提高软件安全性的目的,本文设计并实现了一种静态检查资源泄漏的方法。该方法以
过去几十年来软件生产率一直在稳步增长,但是仍然不能弥补用户对软件的需求和当前软件生产能力之间的鸿沟。经过大量的软件工程和人工智能领域的研究工作以后,人们发现为了满足
时钟同步是分布式系统中经典的问题,是分布式计算中的核心技术之一。随着计算机技术和网络通讯技术的迅猛发展,人们对该问题给予了更多的关注和研究。分布式系统内事件因果顺序
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前
人脸识别技术以其潜在的应用广泛性,在过去的几十年中得到了迅速的发展。但是,由于人脸非刚性、表情多变等诸多因素,使得人脸识别在实际应用中面临巨大困难,人脸识别已经成为
进入二十一世纪以来,供应链管理在企业战略管理中的地位越来越突出。供应链表现也逐渐变为由市场和客户需求驱动的“需求链”。从供应链的拓扑结构来看,供应链是一个网络,即自主或半自主的企业实体构成的网络,本文首先从企业供应链网络性特点出发,抽象出一种体现供应链本质的供应链模型——供应链集成网络模型,该模型基于Meta图建立,很好的描述了供应链的本质。然后,本文对供应链网络中的子网络分销网络的优化模型进行了
本文以图灵四级安全操作系统为项目背景,描述了对安全操作系统隐蔽通道分析的研究。本文依据相关信息系统安全评估标准中对安全操作系统隐蔽通道分析的要求,在分析了各类型隐
简单来说,数字签名是附加在数据单元上的一些数据,是对数据单元所作的密码变换。这种数据用以确认数据单元的来源和数据单元的完整性,防止伪造或者抵赖。数字签名是当前网络安全