基于二元语法的N-最大概率中文粗分模型

来源 :计算机应用 | 被引量 : 7次 | 上传用户:bxybown
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果。在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有可能的词切分构造成一个有向无环图(DAG),利用噪声—信道模型和二元语法来计算概率,通过插值平滑技术来解决数据稀疏问题,目的在于更好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,提高后续分词质量。通过理论分析、模型建立和初步实验验证了模型
其他文献
本文运用评价系统中的评价介入理论对大学体验英语第四册中的Majoring in English for Fun and Profit这篇文章进行研究,分析作者如何运用介入手段一步步说服读者来赞同自己
通过对古往今来的文艺文本的解读,发掘其中所蕴含的正反两个方面的生态启示,以期为当前全球面临的生态危局的解决给予文化支持是生态批评的主要任务之一。我国哈萨克族的神话
用线性扫描溶出伏安法测定松花蛋中铅的含量。采用三电极系统,银基汞膜电极为指示电极,饱和甘汞电极为参比电极,铂丝电极为对电极,使用LK98BII微机电化学分析系统对松花蛋中痕量
传统聚类方法将对象严格地划分到某一类,但是很多时候边界对象不能被严格地划分。基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法,利用粗糙集理论将数据对象划分到一个簇的上近似集或下近似集当中,提供了一种新的处理不确定性的视角,很好地解决了这种边界不确定问题。但其缺点是不能处理混合属性数据,聚类结果对初值有明显的依赖性。针对这些算法存在的不足,给出了一种适用于混合属性数据的距离定义,
两汉以来官方关于西域的历史文献有其特殊的书写模式,在这种书写模式下所记录的西域,是中央朝廷对西域的一种官方历史记忆,它们是在某个特殊群体的主观“意图”下被创造并保存下