一种基于Bi-gram和HMM的中文未登录词辨识方法

来源 :第六届中国信息和通信安全学术会议(CCICS'2009) | 被引量 : 0次 | 上传用户:fuyao698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上,提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息,引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布,并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91%以上的精度和90%以上的召回率,具有较强的推广能力。
其他文献
企业集团如何实施对子公司的财务管理,是当前企业集团财务管理工作面临的一个十分重要的问题.本文主要分析了当前企业集团财务管理模式,重点论述了如何采用电子商务建立企业
提出了一种在DCT域中嵌入多重水印并可以篡改定位的实现方法。在嵌入水印认证信息后,通过只反量化修改过的系数,提高了水印作品的PSNR值。在定位篡改方面,把DC分量分为4级,以2bit
移动网络的内容审计系统需要在复杂、海量的网络环境中实时采集各种协议数据,通过协议解析获得所需内容,并中断需要过滤的服务请求。因此,审计系统能否正常过滤敏感字段和非法请
信息技术的飞速发展为高校传统的财报销模式带来了新的契机.本文以N学院为例,分析其传统财务报销模式存在的问题,并结合该学院实际优化财务报销流程,提出采用网上报销模式.最
本文提出了一种基于非负矩阵分解(NMF)的数字水印新方法。本方法首先对载体图像进行子采样变换,然后对子采样后的样本数据进行NMF分解,水印隐藏在NMF分解后的基矩阵中。实验结
随着旅游环境的改善,民众物质及精神水平的提升,游客对于旅游的需求越来越高,人们旅游品味逐渐提高.菩提岛作为著名旅游景点之一,其旅游经济发展从2016年至2019年发生了翻天
特征选择是文本分类系统的关键环节,本文针对不同类别主题重叠情况下提出了一个两阶段式的多词级别辅助特征选择模型。第一阶段分析文本获取多词索引项,第二阶段根据其统计分布
会议
网络隐蔽通道的存在给网络系统造成了严重安全威胁,网络隐蔽通道中的信息传递速率则揭示了其安全威胁程度。本文分析基于报文时间间隔的网络隐蔽通道中的信息传递特性,在此基础
随着信息网络的发展,对各行各业都产生了一定的冲击作用,各行各业发生了翻天覆地的变化.同时,结合我国优惠政策,旅游成了区域经济发展的新增长点.在互联网背景下,为了能够更
近年来,湖北祥云(集团)化工股份有限公司的快速发展,在全国磷复肥行业中产生了较大的影响,企业的知名度、信誉度不断提升。从一个地方小磷肥厂到全国磷复肥行业的佼佼者,祥云