基于统计方法与依存特征的汉语语言模型建模方法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:neoin123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该论文采用统计的方法,对如何提取远距离依存特征,建立特征依存模型,以及如何将基本统计语言模型和依存模型结合建立联合模型等问题进行了研究.首先,在基本模型框架的选择上,我们选择了统计语言模型中最具有代表性的N-gram模型,它以其有效性和易于计算的特点在不同领域中得到了广泛应用,并取得了显著成功.为了克服由于数据稀疏带来的零概率现象,采取了Katz平滑技术对模型进行了平滑.接着,由于汉语中有一些词具有明显的主题相关特性,这些词在一些题材中出现的概率比在另外一些题材中出现的概率大的多.这些词可看作为主题相关词.我们将IDF特征处理后,用其提取主题相关词.然后根据MLE准则对这些主题相关词建立了相应的依存模型.基于上述两种模型,我们建立了联合模型.结合两大模型有不同的方法,可以用最大熵方法,也可以用线性插入法.由于最大熵方法在用于语言建模时存在计算量过大和系统内存要求过高的问题,我们用线性插入法建立了联合模型.利用自建的语料数据库,对不同的模型进行了实验测试.
其他文献
南朝宋宗炳在《画山水序》中提出“夫理绝于中古之上者,可意求于千载之下;旨微于言象之外者,可心取于书策之内”的美学观点,五代后梁荆浩《笔法记》也提出了“度物象而取其真
期刊
CORBA是一种开放的、分布式对象计算的标准工业体系结构。具有平台独立性和语言无关性,以及在分布式异构环境下的互操作性。用CORBA开发的软件既具有面向对象又具有可重用性、
该论文的设计工作来源于国家863预研项目(863-SOC-Y-2-16),研究视频通用数字信号处理器的IP软核设计,其最终成果为设计研制了视频通用数据信号处理器芯片XY-VDSP的IP软核.论
期刊
为了研制高Q微波陶瓷材料,该论文选用ZrO-SnO-TiO(ZST)作为研究系统.对(Zr,Sn)TiO系统的结构和介电性能,以及添加剂含量和工艺过程对系统的影响进行了详细的探讨.(Zr,Sn)TiO具有α-
美人蕉(Canna indica L.)是一种常见的姜目观赏类植物,属美人蕉科美人蕉属。姜目各科植物按可育雄蕊的数目进行合轴演化,其进化的主线是雄蕊数目按(6)5-1-1/2依次减少,而瓣状退化
该论文结合一个实际的TCD系统,对其中关键的超声多普勒积压流信号分析方法进行曲一些研究,主要有:1.简述了TCD血流分析系统的基本原理,给出了一个实际TCD系统的完整框图;2.指
骨组织工程学是应用工程学和生物学原理,联合或单独使用生物材料、细胞和因子等,研究开发能够修复、维持和改善受损骨组织功能的骨替代物的一门交叉学科。其中生物支架材料是
该文围绕机顶盒这一用户终端设备的实现,从理论和实践上对其进行了系统的研究.理论上,分析了以太网回传综合业务信息系统运行的协议.按照网络分层模型,首先依次分析了以太网
油画在中国发展过程中,经历了不同的阶段,从早期全面学习西方的绘画技巧到新中国成立后与本土化文化结合的尝试,再到如今不断创新的油画语言,油画创作在中国出现一种蓬勃发展
期刊