大规模异构环境下的文本分类算法研究及应用

来源 :河北科技大学 | 被引量 : 1次 | 上传用户:baino1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以网络为重要组成部分的计算机应用走到了一个空前繁荣的时代,各种新的应用环境、应用需求纷纷出现,在一些如搜索引擎、社交网络等大规模应用中,数据每天都在以极高的速度增长。如何能在有效时间内快速地对这些数据进行处理,获得其中的应用价值,是业界正在努力解决的问题。同时,多数的数据都是以异构的形式存在,使得对其利用的过程变得更加具有挑战性。文本分类作为一门比较重要的技术,在大规模的数据环境下也同样很重要,它使得我们能够快速地获得未知文档的类别,对于信息的处理是非常有益的。传统的分类算法固然有诸多优点,但是速度多存在限制,这对一些高数据流量的环境是不相称的。对于如何解决这些问题,论文中作者做了以下几点尝试:1)基于一些传统分类领域的优秀思想,提出了一种基于单字计算的快速文本分类算法;2)为了能够快速抓取网页,设计出一种简洁、可扩展的分布式网页爬虫;3)对如何利用XML技术对异构数据进行整合做了研究,在网页处理环节里,设计出了一种利用网页的DOM结构快速抽取网页正文的算法;4)实现了一个可运行的通用检索系统,整合了按分类检索的功能,方便用户对搜索结果进行进一步的过滤细化,提高检索质量。
其他文献
协同过滤算法是迄今最为流行的推荐算法之一,但是传统的协同过滤算法都面临着数据稀疏性的问题。现有的系统主要是通过辅助信息来缓解这一问题,但是这些方法并没有充分挖掘各
目前,细胞神经网络(Cellular Neural Networks,CNN)的应用在很大程度上取决于其动力学行为,如在图像处理、模式识别和控制中的应用往往需要网络收敛于稳定的平衡点。本文算法中的
随着精细农业技术和人工智能技术的发展,农业机器人已经开始出现并运用到实际农业生产中,既有效的缓解了农业劳动力不足的问题,又极大地提高了劳动生产效率。为了提高小麦播种精
随着Web技术的进步和网络应用的普及,越来越多的企业或组织将自己的业务功能单元以Web服务的形式发布到网络上;另一方面,普通用户对网络服务提出了更高的要求。他们己不再满足
在设计三维模型初期,设计师会构建一些概念模型,利用透视绘图等方法绘制专业的二维草图,但是深度信息的缺失降低了二维草图对三维物体的表现力。幸而得益于计算机图形学和可
高光谱遥感图像包含同一空间位置较大数量的连续窄波段图像,是由二维空间信息和一维光谱信息组成的三维数据,在环境监测、地质调查等领域有着广泛的应用。噪声在高光谱图像获取的过程中不可避免地被引入,降低了图像质量并影响着之后图像处理应用的性能。因此,高光谱图像去噪是非常重要的图像预处理工作。最近,基于低秩近似和稀疏表达的高光谱图像去噪方法吸引了很多的关注。在高光谱图像中,全波段图像块(包含同一局部区域不同
三维无线传感器网络(Wireless Sensor Network, WSN)技术的瓶颈问题是能耗问题,而拓扑控制作为无线传感器网络的MAC层和网络层的运行平台,对无线传感器网络的能耗起着非常重
随着GPS设备的不断普及,基于位置的服务逐渐走进我们的日常生活。反向k最近邻(Reverse k Nearest Neighbor, RkNN)查询作为基于位置服务的支持技术之一,已经成为当前的一个研究
智能监视技术的广泛应用是为了防止异常行为的发生,而行人是这些异常行为的主要发起者。因受到衣着、光照、姿态等多方面因素的影响,行人检测是目标检测中的一个难点;同时,在目前
随着互联网的迅速发展和计算机应用普及,人们对IT产品的可信需求越来越高,其中软件安全性显得尤为重要。然而对于软件安全的研究多数集中在软件的实现过程中,致使软件需求阶