N-gram算法相关论文
随着互联网的高速发展和办公自动化的日益普及,全球电子文档分发的开放式标准已经变为PDF(portable document format)文件,PDF文件是......
随着互联网的迅速普及,它已经成为我们生活中不可或缺的一部分,在它带给我们极大便利的同时,网络安全也越来越受到人们的关注。即......
随着计算机的发展和网络的普及,计算机犯罪呈现日趋严重的趋势,给国民经济带来了严重的破坏。打击和防范计算机犯罪已成为一个重大......
随着网络技术的不断发展和数据存储技术的广泛应用,每天都有大量的数据产生。在这大量的数据中,存在着许许多多的错误数据,尤其是......
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余......
随着信息技术进入新的时代尤其是5G技术的发展,信息传递进入高速共享的阶段。各种未知形式未知领域的恶意代码层出不穷,使得恶意代......
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gr......
特征提取是恶意代码检测研究的重点内容,传统恶意代码特征提取以单一特征为主,恶意代码检测时效性差,特征提取滞后于病毒数量的发......
工业互联网的快速发展,使得电子邮件的使用频率显著提高,与此对应的邮件病毒也不断更新,使得邮件病毒的防治变得日益复杂。针对日......
古籍文献普遍存在着引书现象,因而构建一套针对地方志引书的挖掘识别系统,对古籍的研究以及目录学史、藏书史、科技史,都具有重要......
针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利......
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者......
通过研究相似重复记录的数据清洗算法,在对N-Gram算法进行深入分析与研究后,指出其不足之处,并在此基础上进行改进并加以应用。实......
伴随着互联网技术和设备的普及,网络购物随之蓬勃发展。由于互联网展示产品和服务具有一定的局限性,为了帮助用户更好的了解产品,在线......
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特......