大规模动态流通语料库的构建

来源 :第二届全国学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:Ghost_D
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了北京语言大学应用语言学研究所在大规模动态流通语料库构建上的一些经验、相关的研究动向和开发流程.目前DCC语料库已经初具规模,在流行语研究、术语提取和字母词研究上都有很大进展,如何进一步提高利用率,为中文信息处理、对外汉语教学以及词典的辅助编撰提供资源和动力,将是我们今后努力的方向.
其他文献
我们的汉语统计句法分析模型从3个方面融合丰富的语言特征知识:1)利用非递归名词短语界的相对确定性重新标注树库中的名词短语;2)设计新的中心词映射表;3)引进上下文配置框架.这些语言特征知识使模型的性能提高了10﹪.
本文首先给出了模式合一的相关定义,并对合一的基本性质进行了证明.然后给出了模式合一的算法——"减首去尾"算法,并对算法进行了分析,对算法的正确性进行了证明.最后简要说明了本算法的应用.
本文对蒙古语基本名词短语进行功能分类的前提下,以蒙古语词类和词语形态变化特征为主要依据,归纳出相应的结构规则12条,并用带有复杂特征标记的PSG重写规则形式来进行形式化描述.在此基础上,用C语言编写了基本名词短语自动标注程序,对10万词级蒙古语语料库进行自动标注.目前条件还不太成熟的情况下,实验结果显示了较好的自动标注率.
基于实例的翻译和基于统计的翻译系统中实例库的建设至关重要,近年来对实例库的获取、标记等已经有了很多研究,但在实例库的优化上缺乏相应研究,本文从影响实例库质量的几个因素做了研究.减少了实际EBMT系统实例库的大小,且提高了译文质量.
当前,语料库在语言研究和自然语言处理领域中的地位越来越重要,资源共享也是计算语言学领域的一个热门话题.跟国外相比,国内在这两方面尚有许多工作要做.鉴于语料库的WEB检索在语料库资源共享方面的独特优势,本文从国内外语料库的WEB检索状况出发,探讨了语料库的WEB检索对于语料库建设和资源共享工作的意义,指出WEB检索是推动语料库资源共享的一条新思路.
本文首先基于hownet对多义词进行无导词语消歧处理,然后利用hownet建立的知识库获取文章中词语的概念,并对未登录词语进行概念标注.用概念统计代替传统的词形频率统计方法,选择出与主题相关的若干概念,建立主题概念向量空间模型;通过段落聚类的算法计算出段落重要度;利用段落重要度和主题概念向量空间模型计算出句子重要度,抽取文摘句.通过对抽取的语句进行句子相似度的计算来提高文摘精确度,设计并实现了一个
修辞结构理论(RST)是对文本进行结构描写的一种方法.本文概叙RST近20年的理论发展和工程应用开发,并结合相关研究展望了中文文本处理中要面对的一些问题.
"a+a"结构是一种例化后可能产生歧义的结构,本文在潜在歧义理论的基础上,重点分析其中两个动词的语义特性,并结合两个动词的语法关系和上下文语境对汉语中的"a+a"结构做了比较全面的研究,目的在于找到这种结构产生歧义的原因和消解歧义的策略.希望本文能为自然语言计算机处理中歧义的自动消解提供一定的参考作用.
本文工作是在建设双语对齐语料库及其检索平台的背景下提出.本文基于汉英双语语料库,利用固定译词表,对中文译词做了X统计实验;通过对其结果的分析给出了汉英双语语料库检索平台内嵌的中文检索词对应译词的识别方法,在对35个词的测试中获得了97.1﹪的准确率.最后,本文对中文词组对应翻译作了探索,给出中文词组对应翻译识别算法,在小规模语料的测试中得到87.7﹪的准确率.
专名识别是中文自动分词的重要任务.本文分析了目前流行的基本语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法.从我们对《人民日报》1998年1月、2000年12月(共约379万字)语料的开放测试结果来看,基于可信度的人名识别方法比SLM方法识别效果有较大的提高,同时比基于规则和知识库的分词系统具有更好的扩充性