搜索引擎中文分词技术研究

被引量 : 37次 | 上传用户:sunzhiqiang7310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词不仅是各种中文信息处理技术中使用最广泛的手段,也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度上对中文信息进行切分。但由于汉语本身的特殊性和复杂性,目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别两个难点。因此,一个好的中文分词方法不仅需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。论文对搜索引擎的中文分词技术进行研究,具有一定的理论价值和实际意义。论文在分析研究现有中文分词算法、词典机制以及歧义词和未登录词处理策略的基础上,提出了一种改进的中文分词方法,该方法以人工切分和标注好的《人民日报》语料库和专门的人名地名语料库为基础,对中文信息进行处理。一方面,论文针对现有中文分词算法和词典机制存在的不足,提出了基于最大逆向匹配的概率分词算法和基于有限自动机的中文分词词典机制,力求在完成分词功能的同时降低算法的时间和空间复杂度;另一方面,对于目前普遍存在的歧义词和未登录词识别两个难点,论文首先通过最大正向匹配、最大逆向匹配以及基于最大逆向匹配的概率分词算法提取分词碎片,然后结合构词规则和特定的人名地名语料库进行纠错处理,以进一步提高分词准确率。以改进的分词方法为基础,论文设计实现了一个中文分词原型系统,该系统包括提取文本、训练语料库、分词处理、性能测试四个部分。同时,利用人工切分和标注好的《人民日报》语料库对原型系统的分词速度和准确率进行测试,实验表明,系统的切分速度约为1 200字/秒,分词准确率达到了96%以上。论文从分词算法、词典机制、歧义词处理和未登录词识别四个方面分析研究了中文分词技术,并设计实现了一个中文分词原型系统。在设计实现的过程中,论文对分词技术从理论和实验上所做的探索都会对该领域的研究提供一定帮助。
其他文献
公路交通的建设作为一项国家重点建设项目,其建设质量的优劣将对国家的经济建设产生重要的影响,为保证公路工程建设的质量性、科学性和规范性,减少不必要的施工成本和资源的
针对本企业空气压缩机大量余热散失浪费的现状,提出了一种余热利用方案。压缩机压缩空气产生大量的热能,通过冷却系统散发到大气中。如果回收利用,可帮助企业节约能源消耗,又
熔铝炉是利用铝熔炼工艺开发出来的一种新型高效的节能炉,此炉保证了铝溶炼工艺中的各项要求,并具很降低消耗、溶化率高、噪音低、生产效率高等多项优点,同时此炉在排放过程
公路资产管理系统(China Pavement Management System,Cpms)是交通运输部公路科学研究院公路养护管理研究中心在国家重点科技攻关项目和国家重点新技术推广项目。为我国国省
随着科学技术的快速发展,我国矿山测量技术也得以大幅度的进步,无论是测量设备还是测量方法都得到了较大的改善。特别是在当前信息化技术和自动化技术的发展带动下,传统的测
在我国企业组织的发展过程中,由于受到多方面因素的影响,往往会产生一定的冲突。企业组织内部冲突不仅对整个企业组织的发展会产生一定的负面影响,而且还会带来一些建设性影
<正> (一)墙挂。由于城乡居民对室内装饰的要求越来越高。精雕细刻的各种动物,景观、头像因其别有特色而备受人们青睐。(二)树根盆景。目前,树根盆景方兴未艾,地处山区.林区
期刊
随着超宽带技术的飞速发展,超宽带天线的研究受到人们越来越多的关注。在点对多点的超宽带通信系统中,水平方向上信号的全向覆盖被要求,进而要求辐射或接收天线拥有超宽频带
品牌战略的新时代即将来临,感官的识别作用在品牌营销中发挥着愈加重要的作用,并潜移默化地影响着消费者的最终购买决策。目前,一些知名品牌开始逐步重视品牌战略中的感官设
在近十年间,食品安全事件频繁发生,威胁着公众的生命健康,一些大的食品安全事件甚至直接影响到经济的发展、社会的稳定以及国家的形象,社会各界对此日益关注。作为信息传递渠