基于动态流通语料库(DCC)的汉语字母词语识别及考察研究

来源 :北京语言大学 | 被引量 : 18次 | 上传用户:beichensi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。 字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。 为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。 本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则
其他文献
干旱恶劣的沙漠除了让我们领略了自然的严酷之外,也孕育了一些稀有而顽强的植物奇珍,百岁兰就是其中之一。2010年上海世博会上,安哥拉馆外墙上悬挂的一条条宽而长的浮雕就是
分析了CaCO3填料的添加量对不饱和聚酯树脂(UPR)浇铸体拉伸强度的影响,采用应变片电测技术考察了CaCO3含量对其固化过程的影响作用并对固化内应力进行了粗略的计算与分析。结果
德国GfK数据调查公司日前在针对包含北京、上海、广州在内的国内30个城市的百货商店、大型超市、综合家电连锁店、IT产品专卖店等零售市场的调查之后,发布了国内数码摄像机市
原来以为只是一个企业需要经营,现在看来一个国家也需要经营。原来意义上的国家是权力和治理的政治形式,现在看来一个国家也是经济和市场的经营组织。原来意义上的国家可以是相
期刊
<正> 1964年3月,我队为配合农业生产和了解第22号遗址边缘部分的地层情况,进行了发掘。参加发掘的有孟浩、马端、陈应琪。发掘工作至4月1日全部结束。在这次发掘中,开2×10米
穴位埋线治疗哮喘,主穴常取肺俞、定喘、膻中,配以大椎、足三里、肾俞、丰隆、风门、中府、脾俞、天突、尺泽、心俞、膏肓、璇玑、关元等穴。穴位埋线治疗哮喘病的过程初为机
通过对湖南会同3个杉木人工林集水区的大气降水及乔木层、灌木层、草本层穿透水的pH值、NH4+—N、NO3-—N、P、K、Mg和Ca质量浓度进行测定,结果表明:各元素质量浓度的大小顺序
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的观察结肠机中药灌肠治疗结肠炎的疗效。方法选择结肠炎患者80例随机分为两组。治疗组进行结肠机中药灌肠治疗,每天1次,治疗周期为2周,达到治疗目的。对照组采用传统保留灌肠
<正>近年来,焦作依托其独特的地理位置和厚重的历史文化,各类特色产业如雨后春笋般不断涌现。而在特色产业日渐昌隆的背后,焦作供电公司履行社会责任,服务地方经济发展,有着