中文分词中的正向增字最大匹配算法研究

来源 :微型机与应用 | 被引量 : 0次 | 上传用户:wy2720204445
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立了一套歧义处理方法。实验结果表明,该3种算法在分词速度和准确率上均有显著提高,错误率降低到了原算法的三分之一以下。当文本规模大于200 MB时,3种正向增字最大匹配算法的分词速度均比原最大匹配算法提高30%以上。
其他文献
在公路隧道工程施工期间,应根据实际情况全面探索隧道工程地质条件。尤其对可能出现山体坍塌、溶洞及突水涌泥等危险情况进行综合探究,并且采取有效的措施予以防范。公路隧道
针对微机电系统(MEMS)陀螺测量精度低、随机噪声复杂的问题,根据MEMS陀螺的实测数据,分析其噪声特性,研究MEMS陀螺的随机噪声模型。应用时间序列分析方法,采用时间序列分析(AR)模
无人机机载功率放大器的性能一直是限制无人机技术发展的主要因素,为此提出了将功率合成技术应用于无人机数据系统的方法解决上述问题。利用微带线技术结合系统性的电路调试
为筛选出由串珠镰孢菌引起的玉米苗期根腐病生防木霉菌,对分离出的木霉菌株,采用对峙培养及室内盆栽试验对木霉菌(Trichoderma spp.)进行了拮抗效果筛选及防效试验。结果表明:从
近些年来我国社会经济的高速发展推进了城市道路建设行业的进步,在此种背景下无论是道路施工工艺还是施工技术水平均大幅度提升。在城市道路建设规模和建设数量持续增加的背
利用六枝特区1988-2008年逐日的日照时数、降水、气温与水稻产量资料,采用对比、回归进行分析,结果显示:六枝特区的水稻产量在1988-1999年这一阶段与灌浆成熟期的日照时数成正相
针对基于 S3C6410嵌入式系统的低功耗设计问题,应用 TPS62402芯片设计了可以动态调节核心供电电压的超低功耗核心供电单元。给出核心单元电源部分的原理图和印制板设计要点及T
本文介绍了NAT技术的主要特性以及其4种分类,并对每一种分类的穿透策略进行了分析。针对目前主流的锥NAT,本文使用面向对象的方式封装实现了UDP穿透NAT,并用C++代码进行了具体实现。
在改革开放之后,我国路桥建设工作进入了快速发展阶段,促使路桥工程建设项目增多。而且,路桥工程在建设施工中,会遇到软土地基,这就要求施工人员要针对软土地基进行必要处理,
在水利工程建设过程,导流施工作为重要的施工技术,相关工作人员应该提高工作认识,要科学的分析水利工程施工导流施工工艺,从而才能确保施工质量。