利用词性信息改进Katz平滑算法

来源 :哈尔滨工业大学学报 | 被引量 : 0次 | 上传用户:qqqqqqwer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭配时无法进行概率折扣的问题,利用词性信息构造了新的折扣系数.新的折扣系数使词频越大,折扣越小,后接词越多,折扣越大,满足平滑算法对折扣系数的期望.试验结果表明:新的Katz平滑算法降低了N-gram模型的交叉熵,在汉语分词中应用改进的平滑算法也提高了分词结果的F量度.
其他文献
针对网壳结构特点,引入敏感模态的概念,提出利用模态置信准则确定局部损伤所对应敏感模态的算法,推导了剩余模态力的表达式,利用敏感模态进行损伤位置识别.采用最小秩摄动理论定量
沟通是人际之间传递信息的过程,对于电子政务建设项目取得成功是必不可少的,由沟通问题引发的一系列问题在电子政务建设项目中显得非常典型,而这些问题的解决需要借助有效率和有
煤矿矿压显现强弱,关键是对直接顶和基本顶的岩性、厚度和稳定性判断,大部分煤矿判断的准确性差。本文通过利用钻孔窥视仪,对三元王庄煤业3045工作面进行窥视分析,准确地得到