基于分组hash与变长匹配的中文分词技术

来源 :计算机时代 | 被引量 : 0次 | 上传用户:echoifanfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是海量中文信息处理的基础任务,分词的准确性与分词速度是最为重要的。但是现有技术在分词时,准确性与分词速度却是无法调和的。为了提高中文分词的速度,同时又不因缩短初始字符串长度造成准确性降低,提出使用正则表达式进行变长字符串的截取与对词库进行分组散列的技术。通过理论分析,该技术在时间复杂度上从原来的o(n*n)下降到o(n),在精确度上又以句子长度作为动态变化的初始字符串长度,从而避免长词的丢失,保证了分词的准确性不受损失。
其他文献
概述了蓝莓的营养价值、医疗保健功能和产品开发利用情况,并展望了蓝莓的发展前景和发展方向,以期为蓝莓的进一步生产和产品开发提供参考。
研究两种剂量铈和两种染毒方法对雄性小鼠性腺的影响。结果发现 2 0 0和 80 0mg·kg-1·d-1的铈随饲料摄入 ,雄性小鼠精子畸形率均显著高于对照 ,且与摄入时间和剂量呈依赖性
随着现代信息技术的蓬勃发展,尤其在坐拥全球最大B2B、C2C电子商务平台阿里巴巴、淘宝网的中国,国际国内贸易的生产方式、贸易方式及竞争方式都在悄悄发生重大的变化。电子商
灾变的发生具有大强度、小概率、复杂性 (多因子相互作用 )、混沌性 (非常规趋势 )和突变性 (量变到质变 ,能量积累后的突然释放 )的特点 ,使得用于线性系统的常规预测方法 (
定结铁镁质麻粒岩出露于藏南拆离系和申扎-定结伸展构造系交汇处的高喜马拉雅岩系糜棱岩化片麻岩内,以不同规模的透镜状包体沿着糜棱面理分布,主要岩石类型包括退变石榴石斜
以西北农林科技大学核桃板栗试验示范站栽培的"西林3号"核桃为材料,通过物候观测和果实生长动态测定,采用Logistic曲线对其果实生长动态测定值进行了拟合,并计算出果实生长的
高中文言文教学“高投入,低产出”现象长期困扰着我们,文言文教学面临着无尽的尴尬。在新课程教育改革的背景下,文言文有效教学策略的探索是很具有现实意义的。本文从定义文
目的:通过对1例急性弥漫性腹膜炎病人的初始抗感染治疗方案进行分析与评价,探讨临床药师在药物治疗中发挥的作用。方法:对该病人的初始抗感染治疗方案,从抗菌药物的选择、用
本文利用分布滞后模型、协整、向量自回归等方法,研究了三种主要贸易方式的出口价格对人民币汇率变动的传递。结果显示.一般贸易出口价格的传递弹性大于进料加工出口价格。在其