基于动态流通语料库（DCC）的汉语字母词语识别及考察研究

来源 :北京语言大学 | 被引量 : 18次 | 上传用户：beichensi

【摘要】

：

字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概

【作者】

：

郑泽芝

【出处】

：

北京语言大学

【发表日期】

：

2005年01期

【关键词】

：

自然语言处理 DCC动态流通语料库 ELWP 字母词语字母串

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则

其他文献

活化石百岁兰

干旱恶劣的沙漠除了让我们领略了自然的严酷之外,也孕育了一些稀有而顽强的植物奇珍,百岁兰就是其中之一。2010年上海世博会上,安哥拉馆外墙上悬挂的一条条宽而长的浮雕就是

期刊

百岁兰培养土安哥拉

CaCO3含量对不饱和聚酯树脂固化内应力的影响

分析了CaCO3填料的添加量对不饱和聚酯树脂（UPR）浇铸体拉伸强度的影响，采用应变片电测技术考察了CaCO3含量对其固化过程的影响作用并对固化内应力进行了粗略的计算与分析。结果

期刊

CaCO3填料不饱和聚酯树脂内应力固化应变片

数码摄像机市场调查报告

德国GfK数据调查公司日前在针对包含北京、上海、广州在内的国内30个城市的百货商店、大型超市、综合家电连锁店、IT产品专卖店等零售市场的调查之后,发布了国内数码摄像机市

期刊

数码摄像机市场调查报告

原来以为……

原来以为只是一个企业需要经营，现在看来一个国家也需要经营。原来意义上的国家是权力和治理的政治形式，现在看来一个国家也是经济和市场的经营组织。原来意义上的国家可以是相

期刊

以为

燕下都第22号遗址发掘报告

<正> 1964年3月,我队为配合农业生产和了解第22号遗址边缘部分的地层情况,进行了发掘。参加发掘的有孟浩、马端、陈应琪。发掘工作至4月1日全部结束。在这次发掘中,开2×10米

期刊

燕下都发掘报告盖弓帽

杉木人工林不同层次植被穿透水的水化学特征

通过对湖南会同3个杉木人工林集水区的大气降水及乔木层、灌木层、草本层穿透水的pH值、NH4＋—N、NO3-—N、P、K、Mg和Ca质量浓度进行测定,结果表明：各元素质量浓度的大小顺序

期刊

森林生态学杉木人工林穿透水化学特征养分质量浓度forest ecology Cunninghamia lanceolata plantations t

先锋戏剧的台词风格探究——以摇滚音乐剧《空中花园谋杀案》为例

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

先锋戏剧《空中花园谋杀案》台词风格

结肠机中药灌肠治疗慢性结肠炎40例

目的观察结肠机中药灌肠治疗结肠炎的疗效。方法选择结肠炎患者80例随机分为两组。治疗组进行结肠机中药灌肠治疗，每天1次，治疗周期为2周，达到治疗目的。对照组采用传统保留灌肠

期刊

慢性结肠炎结肠机中药灌肠

梧桐树下土生金——焦作供电公司服务地方特色产业发展侧记

<正>近年来,焦作依托其独特的地理位置和厚重的历史文化,各类特色产业如雨后春笋般不断涌现。而在特色产业日渐昌隆的背后,焦作供电公司履行社会责任,服务地方经济发展,有着

期刊

供电公司特色产业发展用电报装电网结构梧桐树地方特色产业土生金

基于动态流通语料库（DCC）的汉语字母词语识别及考察研究

与本文相关的学术论文