论文部分内容阅读
分析了少数民族语言文字网站的特殊性,综合采用基于特殊字符、网页标签属性和N-gram的方法对传统蒙古文、藏文、阿拉伯字母体系的维吾尔文、哈萨克文和柯尔克孜文以及彝文、新傣文、朝鲜文、俄文和壮文等10种少数民族语言文字网站进行了自动识别研究。所提方法对10种少数民族语言文字网站的平均正确识别率达到95%以上,效果令人满意。