重复串相关论文
随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突......
移动互联网的发展使得人人都可以随时随地地制造信息,而微博作为国内使用人数最多的社交平台,每天都会产生海量的信息。社交网络的......
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判.本文提出了一种改进的算法,核心思想是......
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对......
为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次......
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的......
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实......
针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特......
提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始......
中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多......