【摘 要】
:
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭配时无法进行概率折扣的问题,利用词性信息构
【机 构】
:
哈尔滨工业大学计算机科学与技术学院
【基金项目】
:
国家自然科学基金重点资助项目(60435020),国家高技术研究发展计划资助项目(2002AA117010-09).
论文部分内容阅读
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭配时无法进行概率折扣的问题,利用词性信息构造了新的折扣系数.新的折扣系数使词频越大,折扣越小,后接词越多,折扣越大,满足平滑算法对折扣系数的期望.试验结果表明:新的Katz平滑算法降低了N-gram模型的交叉熵,在汉语分词中应用改进的平滑算法也提高了分词结果的F量度.
其他文献
针对网壳结构特点,引入敏感模态的概念,提出利用模态置信准则确定局部损伤所对应敏感模态的算法,推导了剩余模态力的表达式,利用敏感模态进行损伤位置识别.采用最小秩摄动理论定量
沟通是人际之间传递信息的过程,对于电子政务建设项目取得成功是必不可少的,由沟通问题引发的一系列问题在电子政务建设项目中显得非常典型,而这些问题的解决需要借助有效率和有
煤矿矿压显现强弱,关键是对直接顶和基本顶的岩性、厚度和稳定性判断,大部分煤矿判断的准确性差。本文通过利用钻孔窥视仪,对三元王庄煤业3045工作面进行窥视分析,准确地得到