一种基于EM非监督训练的自组织分词歧义解决方案

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：mm1234567mm

【摘要】

：

本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想，每个句子所对应的所有（或一定范围内）的分词结果构成训练集，通过这个训练集和初始的语言模型可

【作者】

：

王伟钟义信等

【机构】

：

北京邮电大学智能中心181＃

【出处】

：

中文信息学报

【发表日期】

：

2001年2期

【关键词】

：

EM算法分词歧义非监督训练分词语言模型歧义消除汉语处理训练算法分词算法 EM algorithm segmentation ambiguity u

【基金项目】

：

国家自然科学基金资助! (6 9982 0 1)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想，每个句子所对应的所有（或一定范围内）的分词结果构成训练集，通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法，对于每个句子至少带有一个歧义的测试集的正确切分精度达到85．36％（以句子为单位）。

其他文献

中文商务名片识别系统的实现

本文介绍了一个实际应用中的中文商务名片识别系统，分析了系统的结构。该系统首先结合实际中的一些具体问题对名片图象进行预处理，然后在传统版面分析技术的基础上针对名片版面

期刊

名片识别系统图象处理版面分析中文名片Chinese business cards recognition systemImage manipulatio

海洋石油管理的特征

改革开放以来,在利用外资和国外先进技术上,海洋石油企业取得了成功的经验,它的以吸收外资、引进国外先进技术和管理经验,开拓国际市场为核心内容的管理模式具有以下五个特征

期刊

对外合作中国海洋石油总公司石油企业企业管理先进技术惠州油田利益最大化勘探开发管理经验核心内容

五十六个民族

<正>~~

期刊

民族

石油成人继续教育生存发展探讨

石油成人继续教育是对石油企业在职专业技术人员和领导及管理人员的知识、技能进行补充、更新、拓宽和提高的一种追加教育,其目的是为了不断提高这些人员的业务素质,以保证生

期刊

成人继续教育石油企业重组改制存续企业知识经济时代生存专业技术人员业务素质劳动者发展探讨

基于伪MMX技术的并行识别算法及其应用

本文提出了一种通用的并行算法模型。这种模型可以适用于许多多数据块处理系统。该算法可以成倍提高系统的处理速度。算法的核心采用了伪ＭＭＸ技术，对机器硬件没有特殊要求，保证了程

期刊

并行算法手写汉字伪MMX技术汉字识别Parallel algorithmRecognition of Chinese charactersFake MM

基于Web中文检索系统SEARCH2000的设计与实现

本文详细介绍Ｓｅａｒｃｈ２０００中文检索系统的设计思想及实现方法。与传统的全文检索系统相比，基于ＷＥＢ的信息检索系统，具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内

期刊

信息检索中文信息处理Search2000页面WEBinformation retrievalrelevant scoringchinese inf

在国际石油合作中加强人力资源开发

人力资源开发是企业人事管理的重要组成部分和关键职能之一,是企业人力资源增值的重要途经,在企业实施国际化经营战略中发挥着举足轻重的作用。一个企业能否跻身于竞争激烈的

期刊

人力资源开发国际石油合作人力资源增值国际化经营战略重要组成部分石油天然气企业合作项目企业人事管理综合素质开发中心

基于变帧率训练的HMM汉语人名识别

本文针对语音识别中HMM模型需要大量训练 ,而在某些实际应用中不可能训练多次的问题 ,提出一种基于余弦整形变换的变帧率训练方法 ,并在人名声控拨号系统中进行实验 ,在训练一次的条件下 ,系统识别率提高 4.2 %。实验表明 ,该方法对解决语音识别系统中训练数据少的问题具有明显效果

期刊

语音识别HMM余弦整形变换变帧率训练隐马尔可夫模型汉语人名识别识别率speech recognitionHMMpattern transfor

电力电子技术发展概况

本文通过介绍电力电子器件的发展状况，从而展示了整个电力电子技术的发展历史。

期刊

电力电子技术发展

汉字输入法码本自动更正设计研究

本文主要研究了在汉字输入法设计中的码本自动更正的设计与实现,提出了码本规则库的概念及设计思想,阐述了更正系统的工作原理,详细讨论了基于规则库的自动更正设计方案及工

期刊

汉字输入法码本规则库自动更正设计思想更正系统工作原理inputmethodcodetablerulebaseverify check

一种基于EM非监督训练的自组织分词歧义解决方案

与本文相关的学术论文