【摘 要】
:
由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来.由此该文提出了渐进式丰富词
【机 构】
:
河北大学,河北大学,保定金融高等专科学校
【基金项目】
:
河北省科技攻关计划项目(05213573),河北省教育厅科研计划项目(2004406).
论文部分内容阅读
由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来.由此该文提出了渐进式丰富词典的分词方法,把那些不能正确分出来的字符串,利用统计词频的方法记录下来,如果词频达到一定阈值,就可以把它认为是新词,可以把它加入到词典中,使得词典动态的增加.实验证明,该方法在保证分词速度不受影响的基础上,可以提高分词的精度.
其他文献
网格计算利用互联网将分散在不同地理位置的高性能计算机组织成一个“虚拟的超级计算机”,从而实现计算资源共享和降低计算成本。基于校园网的网格计算模型CCrid以校园骨干网
目前进行网络性能测量所得到的只是一个基于模型的估计值,与其实际值有一定的误差,针对这个问题,设计了一个基于Linux的参数可控的网络数据包发生器,阐述了该数据包发生器的设计
巴西工程师近期发现了一种使用常用真菌从废弃柑桔残留物中提取黄烷酮的方法.黄烷酮是一种具生物活性的物质。近年来人们对黄烷酮的兴趣越来越大,营养行业人员从柑桔水果中发现
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法.当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集
新西兰一个以初级产业为重点的试剂公司向智利猕猴桃产业提供快速鉴定猕猴桃细菌性溃疡病的检测试剂盒。
常压塔四线350℃馏出含量是炼油厂常压蒸馏生产过程的重要质量指标,它与常压炉出口温度等多个变量之间存在严重的非线性关系,而且无法实时在线用仪表直接测量.论文提出了基于
哥斯达黎加菠萝生产增长过于迅猛,失去控制。农药及土地集中在少数大公司手里,是菠萝生产迅猛增长引发的两大主要社会影响。哥斯达黎加大学社会行动教区负责环境项目的地理学家
XML的结构完整性约束用来表示元素之间或路径之间的结构关系,它们在XML查询优化中有着举足轻重的作用.提出了基于元素的结构完整性约束和基于路径的结构完整性约束的概念,定
本刊讯近日,陕西省白水县全面启动“国家级出口苹果质量安全示范县”创建工作,今年计划建设符合欧盟标准的出口苹果示范基地3.17万hm2。欧盟标准是全球顶级的水果出口标准,陕西省
词类知识的粗糙和不完备是影响自动句法分析的一个重要因素。论文以“V+V”结构序列为切入点.彻底按照词的句法功能对动词进行分类,句法功能完全相同才给以相同的标记。这样可以