一种基于改进双字哈希机制的中文分词算法

来源 :第十一届中国人工智能学术年会 | 被引量 : 0次 | 上传用户：clisav

【摘要】

：

中文自动分词是进行中文信息处理的前提,分词词典机制是影响中文自动分词的重要因素.文中对目前典型的分词词典及分词算法进行了分析,并在此基础上提出了一种新的分词词典结

【作者】

：

姚建新郑宇

【机构】

：

上海大学计算工程与科学学院,上海,200072

【出处】

：

第十一届中国人工智能学术年会

【发表日期】

：

2005年期

【关键词】

：

双字哈希中文自动分词分词词典机制分词算法中文信息处理二分查找法匹配算法词典结构效率近邻基础

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文自动分词是进行中文信息处理的前提,分词词典机制是影响中文自动分词的重要因素.文中对目前典型的分词词典及分词算法进行了分析,并在此基础上提出了一种新的分词词典结构和相应的分词算法,即对现有的双字哈希机制进行了改进,使用二分查找法查找多字词,并在分词时使用改进的近邻匹配算法,从而提高了查找速度和分词效率.

其他文献

一种发现Bayesian网络结构的算法

Bayesian网络(贝叶斯网络)是一种进行不确定性推理的有力工具,它是一个有向无环图.本文提出了一种通过发现Bayesian网络骨架(在Bayesian网络中去除边方向的无向图),再确定边

会议

经皮经肝胆囊穿刺置管引流术治疗老年急性胆囊炎的疗效分析

目的观察经皮经肝胆囊穿刺置管引流术(PTGD)治疗老年(年龄＞60岁)急性胆囊炎的疗效.方法回顾性分析笔者所在医院2014年12月至2016年12月期间行PTGD治疗的36例老年急性胆囊炎

期刊

一种基于误差补偿的自适应模糊跟踪系统

文中研究一类非线性自适应模糊跟踪系统,提出了一种基于误差补偿的新方法.采用梯度下降法设计自适应模糊系统以辨识其非线性环节.一般的自适应模糊跟踪系统不考虑辨识误差对

会议

误差补偿线性自适应模糊系统跟踪系统跟踪误差非线性梯度下降法直接引入控制误差跟踪性能仿真研究新方法反馈回路辨识误差校正设计

基于全信息的网络文本信息去重算法研究

Web上存在着大量内容相同的页面,网络重复信息的有效去除已成为改善Web信息采集系统性能的关键技术之一.本文将全信息理论应用到网络文本信息去重算法的研究中,提出了一种新

会议

上腹部手术史患者行三孔腹腔镜胆囊切除术的临床研究

目的总结对有上腹部手术史患者行三孔腹腔镜胆囊切除(LC)术的安全性及经验.方法对解放军第451医院2011年6月至2015年6月期间收治的有上腹部手术史且行三孔LC术的98例患者的

期刊

语料采样中篇章平均使用度的可行性分析

从90年代开始,国际自然语言处理领域的主要特征之一就是转向对大规模真实文本的研究和处理.随着语料规模的不断扩大,统计中的数据稀疏问题、垃圾语料带来的统计垃圾问题、汉

会议

语料采样使用度真实文本垃圾自然语言处理语料统计数据稀疏实验分析量的数值建设理论处理方法语料库平衡性能分析转向征之加工汉语词频

基于语义Web的图像检索

传统的图像检索技术主要包括基于内容和基于文本描述两种.前者更多地利用了图像低层视觉特征,却存在难以逾越的"语义鸿沟";后者借助传统文本信息检索中的关键字匹配技术,仍存

会议

基于规则的中文语料库分词一致性处理研究

建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一.本文对150万汉字熟语料进行了统计分析;定义了语

会议

规则中文语料库分词一致性中文信息处理质量统计分析结构类型汉字正确率语境校对建设基础工程策略测试标准

基于文本倾向性的邮件过滤系统设计

传统的基于统计的文本过滤技术对具有倾向性的文本进行过滤效果不好,原因在于基于统计的方法忽略了文本中的词序等语义约束,无法有效识别倾向性信息.本文提出一种基于文本倾

会议

文本倾向性语义匹配邮件过滤

CCD名词概念组成的调整与优化

语义知识库的构建与不断改进是文本内容理解的基础.本文针对CCD名词概念数据的特点,根据当代中文真实文本信息的词汇特征,提出了CCD名词概念的优化规范以及可行的优化方法,完

会议

名词概念组成语义知识库中文优化规范优化方法文本信息文本内容词汇特征准确性完备性数据基础化工构建

一种基于改进双字哈希机制的中文分词算法

与本文相关的学术论文