【摘 要】
:
提出一种支持多语言的分词算法,该算法可以按照以下层次来理解:首先,对不同编码的源词库文件编码转换,生成Unicode编码的源词库文件;然后,用Unicode编码的词库文件生成Unicode
【机 构】
:
西安电子科技大学计算机学院,华北电力大学计算机学院
论文部分内容阅读
提出一种支持多语言的分词算法,该算法可以按照以下层次来理解:首先,对不同编码的源词库文件编码转换,生成Unicode编码的源词库文件;然后,用Unicode编码的词库文件生成Unicode词库索引;最后,将待分词的自然语句转换成Unicode编码的语句并按照索引倒序分词。该算法已经用C++语言实现,基于此算法实现的分析系统能够自动探测词库的更新并确定是否需要更新索引,能够支持多种编码方式,其编码转换和分词代码与平台无关,分词效率在9MB/s以上,正确率在90%以上。
其他文献
改革开放三十多年来,我国经济取得了令人瞩目的发展,城乡居民的生活水平也有了极大的提高。然而.随着我国社会经济改革的逐步推进。收入分配差距拉大的现象开始现象.并有进一步扩
目的通过观察瑞舒伐他汀对冠心病患者内皮功能的影响,探讨他汀类药物对内皮功能和一氧化氮合酶(eNOS)的作用机制。方法将30例冠心病患者随机分成A、B两组,另择20例非冠心病患
目的比较倍他司汀与葛根素治疗眩晕的疗效。方法倍他司汀20mg加入5%葡萄糖注射液250ml,ivgtt,qd;葛根素注射液500mg加入5%葡萄糖注射液250ml,ivgtt,qd。结果倍他司汀组总有效率94%,葛
传统的翻译理论认为译者的任务就是“忠实”和“通顺”,忽略了译者自身主体对于源文本的积极作用和创造性。本文以扬州大学博士生导师周领顺教授的“‘实践出真知’:翻译的不
针对翻译能力研究,绝大多数学者关注的是汉英翻译能力,而对英汉翻译能力的研究关注不够。本文运用翻译能力的相关理论,通过分析2019年“外教社杯”天津市高校翻译大赛的初赛
从农村剩余劳动力的转移现状入手,分析指出这已经越来越成为现阶段的重要问题,并对现阶段我国城乡社会的全面健康发展带来深刻的影响。
对中国科学院海北高寒草甸生态系统定位站地区的矮嵩草草甸植物群落进行了函数生长分析研究。叶面积和地上生物量采用三次多项式的指数方程拟合。研究结果表明 ,LAI的增长过程呈 S形 ,可分为 3个时期 ,与群落中莎草类植物的物候划分相一致 ;6月至 8月上旬 LAI的增长速率较高 ,约持续 70 d,最大 LAI为 3 .5左右 ;ULR与 LAI的变化趋势相反 ,受两者的共同影响 ,CGR在 6月下旬
众所周知,随着新课改的推行,语法教学该如何进行?大多英语教师感到非常困惑,笔者结合新课程标准与教学实践,浅谈自己对高中英语语法教学的做法:巧设背景呈现语法;创设语境感知语法。
目的观察腺苷预处理后大鼠局灶性脑缺血再灌注区脑组织的兴奋性氨基酸含量,探讨腺苷预处理对脑缺血再灌注损伤的保护作用及机制。方法制作大鼠大脑中动脉缺血2h后再灌注损伤模
葛兰西是西方马克思主义的先驱,他最为人所熟知的就是其文化霸权理论。本文主要从葛兰西的文化霸权理论入手,对文化霸权这一概念进行辨析,在此基础上介绍该理论产生的背景,进而主