基于论坛语料识别中文未登录词的方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：hfghtyr56

【摘要】

：

为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具

【作者】

：

都菁熊海灵

【机构】

：

西南大学计算机与信息科学学院

【出处】

：

计算机工程与设计

【发表日期】

：

2010年3期

【关键词】

：

未登录词中文分词网络蜘蛛论坛语料 unknown word Chinese word segmentation web spider BBS corpus

【基金项目】

：

国家自然科学基金项目（40740420660）, 西南大学博士基金项目（SWUB2008073）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD（由Mutual Information函数和Duplicated Combination Frequency函数构造）对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中。实验结果表明,该方法可以有效提高未登录词的识别效率。

其他文献

壳层含硅的丙烯酸酯核壳乳液

武汉理工大学的王艺峰等人以γ-甲基丙烯酰氧基丙基三甲氧基硅烷、丙烯酸丁酯、甲基丙烯酸甲酯为原料，烷基酚氧乙烯基醚、1-丙烯氧基-2-羟丙烷磺酸钠为复合乳化剂，采用半连续滴

期刊

Γ-甲基丙烯酰氧基丙基三甲氧基硅烷核壳乳液含硅甲基丙烯酸甲酯羟甲基丙烯酰胺复合乳化剂壳层武汉理工大学丙烯酸酯乳液丙烯酸丁酯聚丙烯酸酯乙烯基

瓦克在国际橡塑展上展示创新型高性能硅橡胶

瓦克将出席5月17～2013在广州举办的第二十五届中国国际塑料橡胶工业展览会（China—plas2011）。在展览会上，瓦克将推出满足最高防火安全标准的新型固体硅橡胶产品系列ELAS—TOSIL

期刊

中国国际塑料橡胶工业展览会硅橡胶国际橡塑展创新型性能防火安全标准有毒气体铁路车辆

有机硅对无机层状材料的插层处理

主要介绍了无机层状材料的结构、插层的方法、插层产物的表征等.

期刊

有机硅插层层状材料siliconeintercalatelayered material

Nucleation Mechanism for Bainite

Based on the experimental results that solute-depleted zone was observed in Cu-28Zn-4Al (mass fraction) at 523 K,△G is calculated as a positive according to th

期刊

贝氏体转变成核作用金属材料钢铜基合金晶核Bainitic transformation Prebainitic phenomenon Solut

Nd:YCOB晶体光谱性质和强度参数

硼酸钙氧钇 (YCa4 O(BO3) 3,YCOB)晶体是近年来发展起来的一种新型非线性光学晶体。它有较大的非线性系数 ,良好的透光波段 ,并可对一些常用的激光波段实现位相匹配而产生蓝

期刊

Nd:YCOB晶体光谱参数JUDD-OFELT理论Nd:YCOB crystal optical spectra parameters Jud d Ofe

鲁棒的车辆行道线提取方法

提出了一种新的行道线提取方法。该方法利用均值滤波对道路图像进行亮度估计,把均值滤波后的图像和原图像进行差分从而突出白色的行道线区域,并且采用多阈值方案,对得到的差图像进行二值化。对得到的包含行道线的二值图像进行干扰去除和细化处理,并运用基于加权的Hough变换求得多条候选行道线,基于空间约束从所得的候选行道线中挑选出合适的直线对作为左右行道线。实验结果表明,该算法在复杂路况的情况下能够快速准确地提

期刊

行道线检测图像分割行道线细化HOUGH变换空间约束line detection refine line image segmentation Houg

High-Sensitivity Magnetization Measurements

为高敏感的磁化大小(vibrating-sampie 磁强计，轮流出现的坡度磁强计，和 SQUID 磁强计) 的三台很普通的仪器被描述，他们的限制敏感被讨论。各个的优点和劣势被描述。用微机器的

期刊

Magnetism of Metals, Alloys and of Clusters of Transition Metal Atoms

A condition for local moment formation in metals derived by Stoddart and March (Ann. Phys.NY 1972 64, 174) is first used to discuss the ferromagnetism of body-c

期刊

A Self-consistent Calculation and an Anisotropic Wavelength Cutoff Energy of Spin-wave Spectrum in M

Temperature dependence of tunnel magnetoresistance (TMR) ratio,resistance, and coercivity from 4.2 K to room temperature (RT), applied dc bias voltage dependenc

期刊

交直流混联电网场景下继电保护面临的新问题及对策

由于大容量直流输电工程、超/特高压交流输电网架规模扩大与迅速发展,大电网结构日趋复杂,交直流的耦合程度不断提升,交直流混联系统面临着因保护行为不当引发的换流站内部系

学位

交直流混联电网最后断路器保护信息融合超标短路电流短路电流预测柔性跳闸策略

基于论坛语料识别中文未登录词的方法

与本文相关的学术论文