n-Gram算法相关论文
随着互联网基础设施和各种互联网应用的快速发展,多媒体内容如音乐、影视、图片等已经占据了互联网绝大部分的流量。在文字搜索的......
随着互联网的高速发展和办公自动化的日益普及,全球电子文档分发的开放式标准已经变为PDF(portable document format)文件,PDF文件是......
随着互联网的迅速普及,它已经成为我们生活中不可或缺的一部分,在它带给我们极大便利的同时,网络安全也越来越受到人们的关注。即......
随着计算机的发展和网络的普及,计算机犯罪呈现日趋严重的趋势,给国民经济带来了严重的破坏。打击和防范计算机犯罪已成为一个重大......
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余......
随着信息技术进入新的时代尤其是5G技术的发展,信息传递进入高速共享的阶段。各种未知形式未知领域的恶意代码层出不穷,使得恶意代......
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gr......
特征提取是恶意代码检测研究的重点内容,传统恶意代码特征提取以单一特征为主,恶意代码检测时效性差,特征提取滞后于病毒数量的发......
工业互联网的快速发展,使得电子邮件的使用频率显著提高,与此对应的邮件病毒也不断更新,使得邮件病毒的防治变得日益复杂。针对日......
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法......
古籍文献普遍存在着引书现象,因而构建一套针对地方志引书的挖掘识别系统,对古籍的研究以及目录学史、藏书史、科技史,都具有重要......
针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利......
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者......
在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的......
伴随着互联网技术和设备的普及,网络购物随之蓬勃发展。由于互联网展示产品和服务具有一定的局限性,为了帮助用户更好的了解产品,在线......
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特......