汉语新词语辅助识别系统的研制

来源 :中国社会科学院研究生院 | 被引量 : 0次 | 上传用户:sda_xiangwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章叙述了“汉语新词语辅助识别系统”的开发过程。该系统的主要任务是结合使用规则方法和统计方法,利用计算机自动从大规模电子文本中提取候选新词语,帮助现代汉语语文词典编纂者发现新词语。同时,本系统也可以用于处理中文信息处理中的未登录词识别问题。 语言学家多从意合的角度解释构词的规律,属于定性的方法,得到的结论难以形式化,在计算机上实现起来比较困难。迄今为止还没有一个关于“词”的完整、准确、令所有人认同的定义,语言学家在判断“词”时常常要依靠“语感”。目前也没有一套切实可行的标准和操作程序让计算机来判断一个字串是否是词。因此,本文力求从定量的角度描述某些构词规则,使它具有可操作性。 统计学方法试图以大量词语的统计特征反映构词的规律。但由于统计方法本身的局限性,无法全面正确地揭示这一规律。而且统计规律受统计资料的影响非常明显,对不同类别的语料统计所得到的结论往往不尽相同,甚至互相冲突。同时统计资料的规模也会影响统计结果。因此单用统计方法也不能很好地解决新词语识别和未登录词的问题。 本系统的一个特点是结合使用了以上两种方法。统计规则方法的可计算性强,易于在计算机上实现。但它也存在着自身不可克服的弱点,例如统计上的小概率事件在实际应用中变成了不可能事件,因为机器在识别时总是会倾向于选择概率较大的结论。这时就需要由语言规则来进行校正。语言规则越完善,可操作性越强,得到的结果也越准确。所以在这次实验中尽可能合理地使用语言规则,让尽量多的构词规律具有可操作性。 本系统开发的另一个特点是利用了大规模的语料进行训练。本系统使用《人民日报》电子版作为实验语料,经程序处理过的语料近七千万字。《人民日报》的特点是发行量大,流通度广,实时性强,使用语言规范。使用大规模语料的目的是为了保证实验的可靠性。在实验过程中,反复对大量语料的处理结果进行分析,不断调整使用各种规则和统计方法的时机,校正处理过程中的失误和偏差,得到了比较满意的实验结果。 另外,本系统在开放式规则识别方面作了一些尝试。在系统中的规则部分,把具体规则放入程序之外的文本文件,程序执行过程中,从不同文件中读取相应的规则进行处理。如果需要对规则进行改动,可以按照规则的格式,对文本文件进行编辑,加入、删除规则,而不需要改动程序本身。
其他文献
理想信念教育是高校思想政治教育的核心内容,党中央以及各高校都对此极为重视,并制订了许多相应的措施和办法,且取得了明显成效。但是,随着信息时代的来临,特别是网络的普及,
本文通过对山区农村适度规模养猪过程中出现的问题进行分析,旨在提出相应的解决措施,以保证山区农村养猪活动的顺利进行,促进农村居民的生活水平的提高。
为了满足飞行器的快速反应要求,根据飞行器载体磁干扰的产生机理,在实验室条件下采用磁场产生器生成飞行器的外部动态地磁环境,给出了飞行器载体磁干扰补偿模型涡流磁场系数
美国侵权行为法在19世纪中晚期才取得独立的法律地位,形成侵权行为法部门①。在长期的审判实践中,法官们对侵权法中的基本的或者重要的问题逐渐达成共识,形成了系统的判案原则和规
2002-2003年爆发的SARS危机深刻揭示了传染病在全球化背景下的巨大威力。这场危机已经过去7年,但是艾滋病、高致病性禽流感、甲型H1N1流感等各类新发和复发传染病依旧在不断
车载计算机在各种野外勘探、工程检测和军事车辆中正得到日益广泛的应用。在较为恶劣的车载工作环境下保证车载计算机系统稳定的工作状态已成为重要的工程应用需求。设备环境
本文以石家庄某污水处理厂二期工程A2O+MBR工艺为例,结合现场调查,研究了A2O+MBR工艺中降低供氧能耗和节药的可行性。研究表明.通过调整鼓风机的风量来调节溶解氧、将储泥池变为沉
根据搜集到的史料,本文主要探讨中国古代某些历史时期,伴随着房屋、土地的买卖、典当、课税、租赁等活动,房地产估价活动应运而生,形成了与现代房地产估价方法类似的收益法、
《国家赔偿法》第35条指出,致人精神损害造成严重后果的,应当支付相应的精神损害抚慰金。在浙江"张氏叔侄案"中,法院考虑侵权机关及其工作人员的过错程度、侵害的具体情节以
美国司法部与联邦贸易委员会于2010年8月联合发布了新版《横向合并指南》,新指南进一步淡化了结构主义色彩,打破了1992年指南所创设的五步分析法,相关市场界定的重要性也被大