中文分词算法的研究与实现

被引量 : 0次 | 上传用户:sidney1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程。作为自然语言处理基础性任务,中文分词已经被广泛应用在相关领域中。因此,研究中文分词算法具有重要的理论和现实意义。为了满足上层应用对分词实用性要求,本文将机械分词和基于统计的分词法有机结合,提出了基于词典和统计规则的中文分词算法。该算法首先使用切分速度快的机械分词法对预处理后的文本进行初步切分,采用改进的双向最大匹配检测法检测出歧义字·段,并运用基于二元统计模型的全切分消解歧义。其次,采用基于角色的命名实体识别方法识别出未登录词。最后,引入规则库对分词结果进一步修正。本文的研究工作主要有:1)采用二次索引的词典结构,提升词典查找速度,使用Java对象序列化技术实现词典文件的加载(反序列化)和词典对象的序列化。2)在歧义检测方面,提出了改进的双向最大匹配检测算法,不仅能检测到链长为奇数的歧义字段,而且能检测出所有同时满足链长为偶数且交段长度为1的歧义字段。在歧义字段上,采用全切分法消解歧义。3)在未登录词识别方面,将隐马尔科夫模型中解决编码问题的前向Viterbi算法用以角色标注,采用角色模式集上的模式串匹配出中文专有名词。使用一个小型校正规则库进行分词碎片的修正。4)目前中文分词软件包大都以C++语言开发,而作为主流开发语言之一的Java,其中文分词组件相对较少。因此,在分词算法的研究基础上,设计并实现了支持Java语言的中文自动分词系统。实验表明,该中文分词算法在CPU3.0GHZ,内存2GB的环境下,切分速度约为21000字/秒,分词准确性指标F-1值达到了95%左右,基本能够满足大部分上层应用的要求。
其他文献
分析了导热油锅炉用于印染业中的定形机的节能案例。用导热油供热系统代替蒸汽锅炉供热,可节约热能,提高热效率。论述了热油炉选型、导热油供热系统工艺流程设计、热油系统工
随着信息时代的快速发展,软件已经被广泛应用到社会的各个领域,但软件开发工程中存在的软件危机越来越受到人们的重视,为了解决这种危机,软件度量被应用到软件开发过程中进行
满族是我国古老的少数民族之一,在历代的传承与发展中,积淀了多姿多彩的文化遗产资源。这些遗产资源民族特色鲜明,地域分布广阔,是中华民族文化遗产的瑰宝,具有极高的旅游价
改革开放30多年来,混凝土外加剂在土木木建筑工程领域得到迅速发展。混凝土技术的发展趋势是大力发展高强度、高工作性能、高耐久性的高性能混凝土。混凝图高性能外加剂是为
面对金融危机,大量失业的恐慌正不断扩散,面对失业的人群,我们国家和个人如何应对,已是众说纷纭。本文特运用经济学的分析方法从一个非主流的另类思维来讨论应对金融危机的出
分析了海相碳酸盐岩的形成环境、成岩作用以及烃类形成环境,阐述了海相碳酸盐岩的油气成藏条件和机理。
民族自决权又称民族自决原则或是民族自决权原则,是国际法上的基本原则之一。它起源于西方资产阶级民主革命时期的民族自决思想,后来在全球范围内的非殖民化运动中,民族自决
随着经济的发展和教育体制改革的不断深入,招聘大学生逐渐成为企业人力资源外部招聘的重要渠道之一。在就业市场上,由于企业和大学生之间存在着不同程度的信息不对称,大学生
注册会计师行业的法律责任问题,自二十世纪八十年代后,从理论上和实践上都成为一个热点和难点。本文以法理学法律责任部分的内容为理论基础,从法学的角度界定注册会计师法律
医疗纠纷一直是困扰中国医疗卫生领域的顽疾,是当前突出的社会矛盾。有效处理医疗纠纷,直接关系到医患双方合法权利的保护和社会的稳定,因此如何构建有效的医疗纠纷解决机制