基于字位的中文分词方法研究与实现

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:stacy_sj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词是中文信息处理领域的一项基本技术,也是智能化中文信息处理的关键,它在机器翻译、信息检索、文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用。 本文在分析中文分词技术现状和问题的基础上,采用和试验了一种基于字位的新的分词方法。此分词方法以中文字在词中的位置分布为依据进行切分,平衡地看待词表词和未登录词,因此在未登录词识别方面有比其它方法更优秀的表现。本论文分别使用最大熵和条件随机场这两种机器学习模型来实现并通过实验得出结果的比较分析。最后对本文的研究工作进行总结,并对未来的继续研究方向和发展前景做出展望。 本文的贡献和创新主要有以下五个方面:(1)探索研究了最新的基于字位的中文分词方法:此方法通过确定每个字在词中的位置来确定分词,把分词问题转变为分类问题。(2)运用试验了最大熵和条件随机场两种具体的处理方法在字位分词中的应用。(3)对特征模板选取和训练模型进行了较为深入的研究:分别使用最大熵和条件随机场比较6特征模极和10特征模板的分词准确率,并对两种模型进行比较。(4)汉字位置标记集选择:对Bakeoff十二种语料库进行分析最终选用6字位标记。(5)未登录词的处理:对汉字位置进行标记,平衡地看待词表词和未登录词,较好的处理未登录词,同时也兼顾切分歧义。
其他文献
宋人“尚意”书风的形成是一个复杂的过程,既有历史的继承性,也受其时代政治文化的影响,也必有其哲学基础,当然最重要的还是书法家自身的才学胆识和敢于创新的精神。 The format
随着市场经济体制建设不断完善,人事制度改革逐步深化,流动人员人事档案管理面临着一些新问题。 本文在对流动人员人事档案与传统人事档案比较分析的基础上,以个人信息保护法
在知识经济时代,网络的出现给图书馆开展参考咨询工作带来新的契机,促使新型的参考咨询服务——数字参考咨询服务的出现。数字参考咨询突破时间和空间的限制,实现用户和咨询馆员
应用Andersen 6级空气生物采样器和AGI-30液体采样器于冬季分别采集晋北、晋中、晋南3个地区的9栋半封闭式羊舍内、外环境的空气样本,测定并分析气载真菌浓度、组成和粒径分
张爱玲的小说以其丰富的月亮意象而著称,这与她的女性意识有关,张爱玲认为,只有回归女性本质的女人才是真正的女人,才是具有神性的女人,女人的悲剧就在于她身上神性的缺失,而这种缺
甘肃南部为早期华夏文化的重要发祥地之一,同伏羲、炎帝部族和秦人祖先的历史与传说相关,还有很多应该着力挖掘的文化蕴藏.本文探讨了所载商周时仙人仇生同仇池山及有关神话
信用(Credit)问题是目前社会普遍关注的热点。随着社会主义市场经济的逐步完善,人们普遍认识到市场经济就是一种信用经济,与之相关的法人、组织和个人的行为也就是一种信用行
大地湾遗址的存在年代和出土的纺轮坯、尖状骨锥、大型灶炕、灶台、火塘、碳化的植物种子、小型和大型厅屋房址、彩陶、原始符号、地画等文物,不只说明天水是伏羲的出生地,而且
1920年发生的甘肃大地震,虽然是不可抗的自然灾异,但由此所引发的社会问题是复杂的。透过灾异的表象去发掘由人为造成的后灾害现象,有着十分重要的社会意义。因为人为的祸害要比自然
随着我国高等教育管理体制改革的逐步推进,很多高校形成了多校区办学模式。图书馆是高校办学的基本条件之一,是一个大学的精神所在,文化氛围的主宰,是高校的文献信息中心、咨