无指导学习下基于修正词频库的分词方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理中的一项基础性课题,同时也是智能化中文信息处理的关键所在。与此同时,随着WWW的蓬勃兴起以及电子出版物的大行其道,对汉语自动分词研究又提出了一系列新的课题。如何增强分词系统在开放环境下的适应性和健壮性,则成为主要的研究目标。无指导学习下基于修正词频库的分词方法研究,正是针对这一问题而提出的。本文主要研究内容及取得成果包括如下几个方面:①通过引入修正词频库,提出了一种词频参数无指导自动学习机制,突破了传统基于词典或训练语料的词频参数获取的束缚,增强系统在开放环境下处理真实文本的能力,实现了对知识静态的重组和动态的学习,使系统实现自适应地最优化。并给出了一种新的分词系统模型框架。②采用基于修正词频库的学习机制,并引入训练语料和待切分文本的词频信息,提出了一种基于上下文的n-最大概率切分方法。该方法采用了统计模型,克服了传统词典和训练语料的局限性,增强了系统处理真实文本的能力;同时能更有效地得到数量较少、召回率较高的候选切分结果集。③针对未登录词识别问题,在传统的互信息统计量和t-测试差统计量的基础上,将二者通过线性与非线性组合,提出了一个新统计量mt(组合统计量),并给出了一种子图提取技术。实验表明,mt统计量与子图提取技术有利于未登录词的有效识别。进而结合mt统计量及子图提取技术,提出了一种未登录词识别方法。④将未登录词识别方法与基于上下文的n-最大概率切分方法结合,提出了一种新的分词算法。并且基于国内普遍采用的语料库(人民日报98年1月与97年3月10日全部内容)对该分词算法进行了验证。初步实验表明,能够有效地提高分词正确率。本文提出的无指导学习下基于修正词频库的分词方法,是对开放环境下仍能保持健壮的分词系统的探索,具有一定学术意义和较好的实用参考价值。
其他文献
随着时代的发展,人们的生活方式和实践方式发生了巨大的改变。特别是随着和谐社会理论的提出,构建和谐社会成为重大历史任务。人们实践能力的提高和实践方式的发展,迫切需要与之
为有效保证乳酸双歧杆菌在生产、消费及贮藏过程中的菌体活性,利用喷雾干燥法制备双歧杆菌微胶囊,深入研究了喷雾干燥过程中的工艺参数。通过壁材选择及相关工艺参数的正交分
目的:研究乌头桂枝汤对类风湿关节炎镇痛的药理作用机制。方法:选取类风湿性关节炎患者109例,分治疗组和对照组,比较用药前后血浆血管紧张素Ⅱ(ANG-Ⅱ)、强啡肽(DYNA)、P物质(SP)、6-酮前列环素(6-keto-PGF1α)、血栓
本文阐述了科研院所技术创新能力的具体涵义以及影响科研院所技术创新能力的四个主要因素,并依据影响因素构建出评价科研院所技术创新能力的指标体系,应用可信度分析方法和SP
<正>时下,乳品行业进入了打造品牌、提升附加值的行业发展阶段,这与乳品行业激烈的市场竞争、产品同质化严重等行业现状是息息相关的。而同时,我们也发现,真正在市场上立得住
目的观察中西医结合治疗急性前壁心肌梗死合并急性左心力衰竭(以下简称心衰)患者冠脉支架植入术后的临床疗效。方法将急性前壁心肌梗死合并急性左心衰并完成冠脉支架植入术患者
根据二期课改提出的语文教学的新理念,针对当前阅读教学存在的问题,本篇论文提出了整体阅读的教学观念。 整体阅读教学就是指在阅读教学中,建立整体意识,把文本看成一个生命统
<正> 刘××,女,29岁。1974年11月25日初诊。患者于三年前,因暴怒突致昏厥,救治苏醒后,唯觉手足冰冷,未加在意,后渐致手足麻木,汗出不已。经包头某医院诊断为神经官能症(植物
人多地少,是我国的特殊国情。随着城市化进程的快速推进,城市规模迅速扩大,由此引发的与城市用地相关的问题越来越多,越来越突出,引起了社会各界的普遍关注。在我国,以城市用
针对黑社会性质组织犯罪日益猖獗的严峻形势,近年来,国家加强对其的打击力度。2001年,公、检、法等部门组织开展“打黑除恶”专项斗争,破获了一大批影响恶劣、危害严重的黑恶势力