基于语料库和网络的新词自动识别

来源 :计算机应用 | 被引量 : 0次 | 上传用户：Gsea

【摘要】

：

汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有

【作者】

：

刘建舟何婷婷骆昌日

【机构】

：

华中师范大学,华中师范大学

【出处】

：

计算机应用

【发表日期】

：

2004年07期

【关键词】

：

抽取多字词页面解析动态语料库

【基金项目】

：

湖北省自然科学基金资助项目 (2 0 0 1ABB0 1 2 )

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。

其他文献

埃博霉素B的大鼠体内药动学及组织分布

分别建立了液相色谱-质谱法和高效液相色谱法测定大鼠血浆和组织中的埃博霉素B,并考察该化合物在大鼠体内的药动学及组织分布情况。大鼠按3个剂量(0.5、1和2 mg/kg)静脉给药

期刊

埃博霉素B药动学组织分布液相色谱-质谱高效液相色谱测定

袋式除尘器脉冲喷吹清灰技术研究

脉冲喷吹清灰袋式除尘器是一种常见的除尘设备,具有除尘效率高、清灰效果好、结构简便、运行安全可靠等优点。但是在实际应用中还存在着清灰不均匀、除尘器运行阻力过大等问

学位

袋式除尘器清灰效果喷吹压力喷吹时间

预构皮瓣的研究进展

目的总结预构皮瓣的实验研究进展及临床应用成果。方法广泛查阅有关预构皮瓣的实验研究及临床应用的文献报道综述及研究成果，提出尚需解决的问题。结果实验研究已证明，预

期刊

预构皮瓣皮瓣血管束植入

宁泌泰联合特拉唑嗪或吲哚美辛栓治疗Ⅲ型前列腺炎的疗效

目的观察宁泌泰联合特拉唑嗪或吲哚美辛栓治疗Ⅲ型前列腺炎的疗效。方法将120例患者随机分为2组,给予口服宁泌泰胶囊(每次4粒,每天3次)联合特拉唑嗪片(每次2mg,每晚睡前服1次

期刊

前列腺炎宁泌泰特拉唑嗪吲哚美辛栓临床疗效

新常态下债券市场面临的发展变化

<正>由《当代金融家》和《债券》联合举办的"债市变局"研讨会于5月16日召开,本次会议邀请来自金融机构的资深债市专家,就经济新常态背景下债券市场发展环境和市场自身所面临

期刊

债券市场收益率利率市场化存款基准利率杨德龙存款利率上限新常态下

阿奇霉素分散联合与宁泌泰胶囊治疗慢性前列腺炎48例

目的观察阿奇霉素分散片与宁泌泰胶囊治疗慢性前列腺炎的疗效。方法选择慢性前列腺炎患者96例,随机分成两组,各48例。对照组给予阿奇霉素分散片0.25 g口服治疗,每日2次,饭后2

期刊

阿奇霉素分散片宁泌泰胶囊慢性前列腺炎

原发性高血压伴胰岛素抵抗的中医药研究进展

<正>原发性高血压又称高血压病,多归属中医学"眩晕""头痛""肝风"等范畴,大量临床及实验研究表明,高血压病存在以胰岛素抵抗(IR)为中心的多种脂质代谢障碍,IR是高血压病等多种

期刊

胰岛素抵抗型糖尿病中医学高血压病原发性高血压

国外金融仓储的理论与实践

<正>一、国外金融仓储的理论探索金融仓储的概念由国内学者提出,国外没有直接对应的概念,但与金融仓储的核心业务即动产抵质押和仓单质押相关的研究开展已久,在供应链管理、

期刊

金融仓储第三方机构仓单质押存货质押融资仓单融资应收账款融资借款企业存货质押贷款存货融资仓储行业乌干达担保品物流仓储

当代宗教功能试探

进入二十世纪以来,宗教在世界范围内发生了巨大的变化。曾经被认为即将退出历史舞台的宗教却越发活跃;宗教信徒的人数也没有减少,在一些地区还出现了非常迅猛的增长。宗教依

学位

社会化宗教功能定性研究价值观社会角色社会关系张力

硝酸益康唑含量测定方法的改进

期刊

硝酸益康唑含量测定方法滴定曲线

基于语料库和网络的新词自动识别

与本文相关的学术论文