基于论坛语料识别中文未登录词的方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:hfghtyr56
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中。实验结果表明,该方法可以有效提高未登录词的识别效率。
其他文献
武汉理工大学的王艺峰等人以γ-甲基丙烯酰氧基丙基三甲氧基硅烷、丙烯酸丁酯、甲基丙烯酸甲酯为原料,烷基酚氧乙烯基醚、1-丙烯氧基-2-羟丙烷磺酸钠为复合乳化剂,采用半连续滴
瓦克将出席5月17~2013在广州举办的第二十五届中国国际塑料橡胶工业展览会(China—plas2011)。在展览会上,瓦克将推出满足最高防火安全标准的新型固体硅橡胶产品系列ELAS—TOSIL
主要介绍了无机层状材料的结构、插层的方法、插层产物的表征等.
Based on the experimental results that solute-depleted zone was observed in Cu-28Zn-4Al (mass fraction) at 523 K,△G is calculated as a positive according to th
硼酸钙氧钇 (YCa4 O(BO3) 3,YCOB)晶体是近年来发展起来的一种新型非线性光学晶体。它有较大的非线性系数 ,良好的透光波段 ,并可对一些常用的激光波段实现位相匹配而产生蓝
提出了一种新的行道线提取方法。该方法利用均值滤波对道路图像进行亮度估计,把均值滤波后的图像和原图像进行差分从而突出白色的行道线区域,并且采用多阈值方案,对得到的差图像进行二值化。对得到的包含行道线的二值图像进行干扰去除和细化处理,并运用基于加权的Hough变换求得多条候选行道线,基于空间约束从所得的候选行道线中挑选出合适的直线对作为左右行道线。实验结果表明,该算法在复杂路况的情况下能够快速准确地提
为高敏感的磁化大小(vibrating-sampie 磁强计,轮流出现的坡度磁强计,和 SQUID 磁强计) 的三台很普通的仪器被描述,他们的限制敏感被讨论。各个的优点和劣势被描述。用微机器的
期刊
A condition for local moment formation in metals derived by Stoddart and March (Ann. Phys.NY 1972 64, 174) is first used to discuss the ferromagnetism of body-c
期刊
Temperature dependence of tunnel magnetoresistance (TMR) ratio,resistance, and coercivity from 4.2 K to room temperature (RT), applied dc bias voltage dependenc
期刊
由于大容量直流输电工程、超/特高压交流输电网架规模扩大与迅速发展,大电网结构日趋复杂,交直流的耦合程度不断提升,交直流混联系统面临着因保护行为不当引发的换流站内部系