重复串相关硕士博士期刊学术论文

重复串相关论文

随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突......

会议

短文本文档聚类特征提取重复串

移动互联网的发展使得人人都可以随时随地地制造信息,而微博作为国内使用人数最多的社交平台,每天都会产生海量的信息。社交网络的......

学位

话题检测词嵌入重复串文本聚类微博

目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判.本文提出了一种改进的算法,核心思想是......

期刊

网页去重 STC算法重复串

目前文本去重算法主要以基于信息指纹去重、特征码去重为主，用上述算法去重时容易产生误判。本文提出了一种改进的算法，核心思想是对......

期刊

为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次......

期刊

频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料，提出了一种实用的......

期刊

基于重复串构造候选词集合是未登录词识别（UWI）的重要方法,目前有两种策略用于重复串提取：基于字符和基于分词。该文针对这两种策略实......

期刊

针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战，该文提出一种基于重复串的特征提取方法，可以从文本中提取有意义的特......

期刊

提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始......

期刊

中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分......

期刊

中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多......

学位

新词检测重复串子串归并最大熵模型