【摘 要】
:
中文分词是根据特定的规范将文本中连续的字序列切分成有实际意义的词语序列。作为自然语言处理领域的底层研究,中文分词已经广泛用于搜索引擎、机器翻译、语音识别等应用中。因此,对中文分词算法的研究具有理论和现实意义。本文将基于词典的分词方法和基于统计的分词方法进行相应的结合,提出了基于动态词库构建的概率模型分词算法,首先采用基于自由度和凝合度的未登录词识别方法对语料库中的出现未登录词进行提取,并将其加入到
论文部分内容阅读
中文分词是根据特定的规范将文本中连续的字序列切分成有实际意义的词语序列。作为自然语言处理领域的底层研究,中文分词已经广泛用于搜索引擎、机器翻译、语音识别等应用中。因此,对中文分词算法的研究具有理论和现实意义。本文将基于词典的分词方法和基于统计的分词方法进行相应的结合,提出了基于动态词库构建的概率模型分词算法,首先采用基于自由度和凝合度的未登录词识别方法对语料库中的出现未登录词进行提取,并将其加入到改进的词典结构中,作为动态词库;其次,采用基于逆向最大匹配的切分算法对预处理后的文本进行初步切分,然后采用朴素贝叶斯模型对切分后的结果进行概率计算,同时选择概率最大的切分结果,从而实现分词歧义消解。最后以隐马尔可夫分词模型进一步改进了朴素贝叶斯模型在分词过程中存在的不足。本文主要的研究工作有:第一,在解决中文分词领域中的未登录词问题上,通过分析传统的基于词频的中文分词算法在处理未登录词问题上的不足,提出了一种基于凝合度和自由度的未登录词识别算法。第二,对词典结构进行了改进,通过对整词二分法词典结构在搜索时间和空间消耗上的分析,发现整词二分法词典中在收录未登录词时,词典的查询时间也随之增加,原因是在查询词典正文时,进行了无效的遍历,因此,提出了一种基于完全二叉树的词典结构,用完全二叉树代替了传统整词二分法的索引表层和词典正文层,通过实验证明,有效的减少了分词时间。第三,在处理中文分词歧义问题上,在综合分析传统的歧义消解算法之后,提出了一种基于动态词库构建的概率模型分词算法,首先用分词精度高的基于词典的最大逆向匹配方法对待分词句子进行初切分,然后使用有向无环图表示所有切分结果的切分路径,再用朴素贝叶斯模型进行切分路径的可能性计算,选出概率最大的路径同时完成了歧义消除。在分析朴素贝叶斯模型在分词过程中面临的问题时,并设计了隐马尔可夫分词模型。基于上述的理论及改进算法,本文采用Java语言设计并实现了一种中文分词系统,集成了本文主要的研究内容和创新点,在实际使用中,可以高效的对中文句子进行分词处理。
其他文献
高速铁路具有高速、低污染、低能耗、客运能力强、安全性能好、舒适度高、全天候运行、占地少、社会效益好等优点,因此高速铁路是我国目前交通运输发展的主题。2016年7月13日,发布了最新修订的《中长期铁路网规划》文件,从该文件可以看到未来我国铁路线路覆盖面积将大大增加,同时高速铁路网也将更加趋于完善。根据两会期间李克强总理的报告,全国高铁运营里程已达到2.98万公里,比2008年增加近42倍。然而随着高
自动化立体库作为现代物流科技高速发展的产物,融合了自动化机械和计算机控制技术,它的使用大大提高了物流企业的运作效率和现代化水平,降低劳动力成本,提高仓库空间利用率。
【目的】在昆虫基因功能等相关研究中,通常需要利用单对交配策略来筛选纯合突变品系,如何在配对前确定个体基因型同时又不对昆虫造成损伤,显得尤为重要。本文旨在探讨利用末
随着我国对水电资源的重视,开发利用投入的加大,兴建了许多重要的水利水电枢纽,这些工程对国家建设、经济增长居民生活等起到重大作用。由其是水工建筑物,水工混凝土长期处于
生态移民是被赋予了具有扶贫和生态建设双重功能的特殊的人口迁移过程,其实质是区域空间重构的过程,是各种空间要素在迁入区地域范围内的重新组合与再结构化的过程,也是国土空间上谋求区域可持续发展的过程。人文地理过程是人类活动与自然环境之间相互作用的空间结果,是人地关系的外在表现形式。生态移民过程中各要素的重新组合和再结构化过程显著地改变着区域陆地表层系统的物质与能量循环,在一定程度上约束和影响区域人文地理
粗糙集理论是一种研究不确定、不完整知识的理论方法,并被广泛应用于数据挖掘、人工智能和模式识别等诸多领域。属性约简,即在不影响原有决策表分类质量的情况下,通过最少属
交通流模型一直是交通系统中最基本的研究内容。适当的交通流模型可用于路网交通流预测和信号控制。以北京环形快速路为背景,采用改进的元胞传输模型(modifiedc ell transmissi
研究目的:本临床研究主要是为了观察笔者导师的经验方疏肝健脾方治疗非糜烂性反流病(肝郁脾虚证)的临床有效性,通过调查问卷积分的形式来评估疏肝健脾方对本病的临床疗效率,为临床上提供新的治疗手段。研究方法:1、研究是通过收集绵阳市中医医院门诊中就诊符合非糜烂性反流病的西医诊断和肝郁脾虚型中医证候诊断的患者一共109名,通过电脑随机分配生成受试者号,将其分为试验组与对照组,其中试验组55例,对照组54例。
本文主要研究时标动力系统的最优控制问题。时标动力系统的最优控制问题是时标领域孕育和发展的一个重要分支。通过研究时标动力系统的最优控制问题不但可以统一连续与离散系
随着时代的发展和科技的进步,汽车极大的方便了居民的生活,汽车保有量也在稳步增加,但汽车导致的交通事故问题也逐步进入公共视野,汽车安全问题也随之成为众多学者研究的热点