论文部分内容阅读
数据平滑是统计语言建模的关键技术,它不仅可以改进语言模型的性能,还可以提高语音识别、文字识别等应用领域的系统识别率,不同的数据平滑方法之间的对比应在各种不同规模的训练集上操作。各种平滑算法中,以Good-Turing估计、线性插值平滑、Katz’s回退式平滑最为典型和常用。该文对各种数据平滑方法进行了经验性对比,并讨论了影响这些数据平滑方法性能的有关因素。