论文部分内容阅读
摘要:针对目前最常用的分词算法——最大匹配算法效率低,长度受限等缺点,在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的词库数据结构。它支持首字Hash和标准二分查找,而且不限制词条的长度。然后介绍了基于该词库设计的一种快速的分词算法,并给出了算法的实现过程。
關键词:中文分词;二分查找;Hash;词库;搜索引擎
中图分类号:TP391 文献标识码:A 文章编号:1009—3044(2007)08—20435—02
關键词:中文分词;二分查找;Hash;词库;搜索引擎
中图分类号:TP391 文献标识码:A 文章编号:1009—3044(2007)08—20435—02