论文部分内容阅读
根据多文种信息处理中双向文字所存在的问题,提出了一种面向信息处理、具有自描述能力的双向文字处理算法IBidi。该算法首先对字符流进行预处理,主要对数字等特殊的字符进行标注;然后分析字符流,添加各种定义好的标签,用于描述字符的特性,供信息处理系统使用;最后,IBidi利用一个重新排序算法输出处理结果。该算法在典型测试样本上正确率达到96.7%,比Unicode的双向文字处理算法高出约17个百分点。另外,在随机样本测试中,IBidi的正确率也比Unicode的双向文字处理算法高5%左右。