基于字位的中文分词方法研究与实现

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户：stacy_sj

【摘要】

：

自动分词是中文信息处理领域的一项基本技术，也是智能化中文信息处理的关键，它在机器翻译、信息检索、文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用。本文

【作者】

：

张金柱

【机构】

：

中国科学技术信息研究所

【出处】

：

中国科学技术信息研究所

【发表日期】

：

2008年期

【关键词】

：

中文分词字位自动分词中文信息处理机器翻译最大熵条件随机场机器学习模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动分词是中文信息处理领域的一项基本技术，也是智能化中文信息处理的关键，它在机器翻译、信息检索、文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用。本文在分析中文分词技术现状和问题的基础上，采用和试验了一种基于字位的新的分词方法。此分词方法以中文字在词中的位置分布为依据进行切分，平衡地看待词表词和未登录词，因此在未登录词识别方面有比其它方法更优秀的表现。本论文分别使用最大熵和条件随机场这两种机器学习模型来实现并通过实验得出结果的比较分析。最后对本文的研究工作进行总结，并对未来的继续研究方向和发展前景做出展望。本文的贡献和创新主要有以下五个方面：(1)探索研究了最新的基于字位的中文分词方法：此方法通过确定每个字在词中的位置来确定分词，把分词问题转变为分类问题。(2)运用试验了最大熵和条件随机场两种具体的处理方法在字位分词中的应用。(3)对特征模板选取和训练模型进行了较为深入的研究：分别使用最大熵和条件随机场比较6特征模极和10特征模板的分词准确率，并对两种模型进行比较。(4)汉字位置标记集选择：对Bakeoff十二种语料库进行分析最终选用6字位标记。(5)未登录词的处理：对汉字位置进行标记，平衡地看待词表词和未登录词，较好的处理未登录词，同时也兼顾切分歧义。

其他文献

宋人“尚意”书风的形成

宋人“尚意”书风的形成是一个复杂的过程，既有历史的继承性，也受其时代政治文化的影响，也必有其哲学基础，当然最重要的还是书法家自身的才学胆识和敢于创新的精神。 The format

期刊

宋人尚意书风渊源

论流动人员人事档案管理——以个人信息保护法原理为研究视角

随着市场经济体制建设不断完善，人事制度改革逐步深化，流动人员人事档案管理面临着一些新问题。本文在对流动人员人事档案与传统人事档案比较分析的基础上，以个人信息保护法

学位

流动人员人事档案管理个人信息权人事制度改革个人信息保护保密制度

公共图书馆参考咨询网站的用户交互特性关键因素研究——以国内8家公共图书馆参考咨询网站为分析对象

在知识经济时代，网络的出现给图书馆开展参考咨询工作带来新的契机，促使新型的参考咨询服务——数字参考咨询服务的出现。数字参考咨询突破时间和空间的限制，实现用户和咨询馆员

学位

公共图书馆参考咨询网站用户交互特性关键因素数字参考咨询服务

晋北晋中晋南地区冬季舍饲羊场真菌气溶胶差异分析

应用Andersen 6级空气生物采样器和AGI-30液体采样器于冬季分别采集晋北、晋中、晋南3个地区的9栋半封闭式羊舍内、外环境的空气样本,测定并分析气载真菌浓度、组成和粒径分

期刊

舍饲羊场真菌气溶胶粒谱特征优势菌菌群多样性

月亮意象与张爱玲

张爱玲的小说以其丰富的月亮意象而著称，这与她的女性意识有关，张爱玲认为，只有回归女性本质的女人才是真正的女人，才是具有神性的女人，女人的悲剧就在于她身上神性的缺失，而这种缺

期刊

月亮意象女性意识回归本真悲剧感

《仇生·仇维·仇池山》

甘肃南部为早期华夏文化的重要发祥地之一,同伏羲、炎帝部族和秦人祖先的历史与传说相关,还有很多应该着力挖掘的文化蕴藏.本文探讨了所载商周时仙人仇生同仇池山及有关神话

期刊

列仙传仇生仇池山原始道教

信用档案管理与社会信用体系建设研究

信用(Credit)问题是目前社会普遍关注的热点。随着社会主义市场经济的逐步完善,人们普遍认识到市场经济就是一种信用经济,与之相关的法人、组织和个人的行为也就是一种信用行

学位

信用档案管理社会信用体系建设政府主导市场化运作

从大地湾遗址文物看伏羲对人类的贡献

大地湾遗址的存在年代和出土的纺轮坯、尖状骨锥、大型灶炕、灶台、火塘、碳化的植物种子、小型和大型厅屋房址、彩陶、原始符号、地画等文物，不只说明天水是伏羲的出生地，而且

期刊

大地湾文明证明伏羲贡献

从1920年甘肃大地震看人祸天灾的嬗变

１９２０年发生的甘肃大地震，虽然是不可抗的自然灾异，但由此所引发的社会问题是复杂的。透过灾异的表象去发掘由人为造成的后灾害现象，有着十分重要的社会意义。因为人为的祸害要比自然

期刊

大地震天灾人祸嬗变

多校区高校图书馆的信息资源建设

随着我国高等教育管理体制改革的逐步推进,很多高校形成了多校区办学模式。图书馆是高校办学的基本条件之一,是一个大学的精神所在,文化氛围的主宰,是高校的文献信息中心、咨

学位

高校图书馆多校区格局馆藏资源优化整合共享配置

基于字位的中文分词方法研究与实现

与本文相关的学术论文