一种基于后缀数组的无词典分词方法

来源 :吉林大学学报：理学版 | 被引量 : 0次 | 上传用户：pickbaobei

【摘要】

：

提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地

【作者】

：

【机构】

：

吉林大学计算机科学与技术学院

【出处】

：

吉林大学学报：理学版

【发表日期】

：

2004年4期

【关键词】

：

【基金项目】

：

国家自然科学基金

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.

其他文献

采用计算向量之间相似度的方法，通过实验分析验证了表格信息在主题爬行中的重要性．研究结果表明，与整个网页相比，表格所能提供的与用户相关的信息占整个网页信息总量的80％以上，因而

期刊

给出四参数Conway元胞自动机的翻转规则及演化结果. 通过增加相邻元胞数量发现, r=1的规则中没有Wolfram第四等级; r≥2中存在Wolfram第四等级.

期刊