论文部分内容阅读
传统的语料检索的不足主要为:(1)无法模糊匹配检索;(2)存在跨行词问题,无法保证查全率;(3)难以对检索结果缩检和扩检.为了克服这些不足,该文提出了基于Rough Set批处理汉语语料的词句.根据Rough Set和汉语语料的特征,给出了模糊检索算法(AMTRT).通过与单汉字索引检索算法比较验证了AMTRT的有效性.AMTRT在实现各种模糊匹配,节省空间开销且不降低精确匹配查准率基础上,将词句的查全率提高近50%.