高频数据项统计新算法及其在中文信息处理中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:hangcheng8351
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高频数据项的挖掘问题属于不确定数据流处理1范畴的算法问题。在该领域的算法研究主要用于数据库Iceberg Query、服务器DOS攻击监测、搜索引擎热门搜索统计和社交网络热门话题挖掘等。早在1982年,Misra和Gries就提出了第一个解决该问题的确定性算法MG算法。30年来,用于解决该问题的算法也层出不穷,并且在时间、空间和准确率上都有良好的表现。  随着互联网数据规模的不断增长和需求的日益变化和中文信息处理的特殊性,用于解决该问题的一些经典算法应用到中文信息处理领域时,仍有较大的提高空间。本文提出了适用于中文信息处理的新算法——瓦片表算法,该算法利用了中文数据项之间的关联性,通过已统计的高频项信息推测当前数据流中的数据项是高频项的概率,从而做到高频项过滤的作用。该算法可以与其他已有高频项统计算法相结合使用,通用性很好。  本文首先对已有高频统计算法进行了相关的实验和对比,然后对瓦片表算法的参数选择进行了详尽的实验,并将瓦片表算法用于优化其他算法的结果。实验结果表明,瓦片表算法能够在同等空间耗费下将单纯使用其他算法所得到的结果的准确率提高0.1~0.3,并且能够让在很小的空间耗费下达到同样的结果准确率。  本文还将瓦片表算法用于高阶N-gram统计,未登录词识别,无监督中文分词,热门词汇/热门话题挖掘等领域,设计和实现了有针对性的相关算法和进行了相关的实验对比,实验结果表明,瓦片表算法拥有广泛的应用场景和良好的高频项过滤效果。  
其他文献
无线传感器网络(WSNs)是一种以现代传感器技术、微机电系统、嵌入式计算、分布式信息处理和网络通信技术等为基础的多学科综合信息获取和处理技术。大量低成本、低功耗的微型
代码复用是一种重要的软件复用方式。复用者需要理解软件代码实现的功能。近些年,如何辅助复用者理解代码功能成为了软件复用的研究热点之一。基于主题建模技术的程序理解方法
伴随着信息技术的高速发展,大规模信息网络在各个领域不断地涌现,如万维网、社交网络、即时通讯和生物信息网络等。这些由大量的相互作用的不同类型的个体组成的信息网络往往
快速傅里叶变换广泛地应用于数字信号处理(DSP),尤其是二维快速傅里叶变换(2D-FFT)在成像技术的光谱和频域分析中有重要的应用,如图像数字水印、指纹识别、合成孔径雷达成像
随着计算机技术的发展和互联网应用的普及,各个领域可获取的数据呈爆炸式增长的趋势。图作为一种常用的数据表示模型,能够表达更复杂的结构模式和更一般性的语义信息,因此与大图
在这个信息爆炸的时代,Internet带给人们丰富的资讯,提供方便的同时也推动了经济的发展。但是许多非法组织和个人通过传播计算机病毒来窃取信息并从中获取经济利益,给信息和
由于云计算提供的服务具有廉价性、灵活性和易于扩展等优点,越来越多的企业和个人选择租用基础设施即服务(IaaS)来支撑自己的业务。作为其他云服务的基石,IaaS在云计算中起着
随着Android操作系统在智能终端的爆发式增长以及Android对大屏幕尺寸的支持,用户对Android操作系统的操作体验要求日益升高。国内外的开发人员针对平板设备和PC电脑设计开发
随着互联网技术的快速发展,SNS(Social Network Service)呈现出多样化,渗入到人们生活中游戏、阅读、音乐等领域。然而,这些SNS服务虽然业务形式不同,但是其中的用户关系形式
格密码系统由研究人员在96年提出。由于它自身的优良性质:能抵御量子攻击,格上算法且困难问题容易理解,引起了研究人员的广泛关注。研究人员成功的用格解决了全同态加密和签名