一种基于后缀数组的无词典分词方法

来源 :吉林大学学报:理学版 | 被引量 : 0次 | 上传用户:pickbaobei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.
其他文献
采用计算向量之间相似度的方法,通过实验分析验证了表格信息在主题爬行中的重要性.研究结果表明,与整个网页相比,表格所能提供的与用户相关的信息占整个网页信息总量的80%以上,因而
给出四参数Conway元胞自动机的翻转规则及演化结果. 通过增加相邻元胞数量发现, r=1的规则中没有Wolfram第四等级; r≥2中存在Wolfram第四等级.