基于语料库和网络的新词自动识别

来源 :计算机应用 | 被引量 : 0次 | 上传用户:Gsea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。
其他文献
分别建立了液相色谱-质谱法和高效液相色谱法测定大鼠血浆和组织中的埃博霉素B,并考察该化合物在大鼠体内的药动学及组织分布情况。大鼠按3个剂量(0.5、1和2 mg/kg)静脉给药
脉冲喷吹清灰袋式除尘器是一种常见的除尘设备,具有除尘效率高、清灰效果好、结构简便、运行安全可靠等优点。但是在实际应用中还存在着清灰不均匀、除尘器运行阻力过大等问
目的 总结预构皮瓣的实验研究进展及临床应用成果。方法 广泛查阅有关预构皮瓣的实验研究及临床应用的文献报道综述及研究成果,提出尚需解决的问题。结果 实验研究已证明,预
目的观察宁泌泰联合特拉唑嗪或吲哚美辛栓治疗Ⅲ型前列腺炎的疗效。方法将120例患者随机分为2组,给予口服宁泌泰胶囊(每次4粒,每天3次)联合特拉唑嗪片(每次2mg,每晚睡前服1次
<正>由《当代金融家》和《债券》联合举办的"债市变局"研讨会于5月16日召开,本次会议邀请来自金融机构的资深债市专家,就经济新常态背景下债券市场发展环境和市场自身所面临
目的观察阿奇霉素分散片与宁泌泰胶囊治疗慢性前列腺炎的疗效。方法选择慢性前列腺炎患者96例,随机分成两组,各48例。对照组给予阿奇霉素分散片0.25 g口服治疗,每日2次,饭后2
<正>原发性高血压又称高血压病,多归属中医学"眩晕""头痛""肝风"等范畴,大量临床及实验研究表明,高血压病存在以胰岛素抵抗(IR)为中心的多种脂质代谢障碍,IR是高血压病等多种
<正>一、国外金融仓储的理论探索金融仓储的概念由国内学者提出,国外没有直接对应的概念,但与金融仓储的核心业务即动产抵质押和仓单质押相关的研究开展已久,在供应链管理、
进入二十世纪以来,宗教在世界范围内发生了巨大的变化。曾经被认为即将退出历史舞台的宗教却越发活跃;宗教信徒的人数也没有减少,在一些地区还出现了非常迅猛的增长。宗教依