标注语料相关论文
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,提供了一种对海量数据的有效的组织和管理方式。在当前的大数据......
提出一种基于Bootstrapping的汉语词义消歧模型。该模型采用贝叶斯分类器作为基本分类器,从小规模的词义标注语料出发,分类器通过......
本文以大规模经过分词系统标注后的真实语料的统计数据为依据,对名词特别是二元"名+名"组合的组合能力以及合法性进行了初步的统......
中文包含很多多义词,结合不同的语境可以表达截然不同的意思。词义消歧的概念是针对计算机在自然语言处理领域中的应用提出来的。期......
本文主要研究中文词性标注中异构数据问题。中文分词和词性标注是中文自然语言处理的基础任务,句法分析和语义分析建立在这些基础......
随着计算机技术及医学技术的进步,当前医学相关的数据正在呈“爆炸”式增长。大量的医学数据以文本的形式被记载在各种医学文献中......
在自然语言处理领域,高质量的标注语料在信息处理中有重要的应用价值,语料库质量的好坏直接影响到中文信息处理的各项后续工作的展......
所谓共指消解就是将对应同一实体的多个表述划分到一个等价类的过程。共指消解是信息抽取中的一个重要子任务,在自然语言处理和信息......
本文对已有的中文机构名识别方案进行分析,归纳出机构名识别过程中的关键点,提出基于首词进行机构名分类的观点。以1998年《人民......
语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,而且几乎所有的有指导语......
基于规则的现代汉语方位词的用法标注有助于文本内容的自动理解,由于人工制定的规则具有不完备性,为了提高准确率,往往需要人为考察错......
本文基于已有的HNC标注语料,考察辅语义块的结构特征,通过统计分析,明确辅语义块在句子中的分布及七类辅语义块在不同句类中所占的比......
本文介绍了作者在人民日报标注语料库分析上的一些经验,提供了相关的研究结果.采用统计技术对熟语料库进行研究,其目的是为了汉语......
本文讨论了标注语料校对的质量评价准则,并依此准则对经过机器标注和人工校对后语料的机器自动校对进行研究.利用预处理、基于统计......
词语搭配(特别是抽象词语的搭配)是汉语自动句法分析的一个重要知识源。我们从50万字词性标注语料中自动获取动宾组合实例。并且将未经......
开始于80年代初的新词语研究到目前已经出现了蓬勃发展的局面,近年来,语言学界的一些学者已经开始注意到了对词群的研究,但大多还只是......
随着我国与柬埔寨的交流合作日益频繁,柬埔寨语的自然语言处理工作变得更为重要,针对柬埔寨语语料库资源有限、柬埔寨语组织机构名......
随着互联网的兴起,以论坛、博客等自然语言形式保存的知识以指数级的速度增长,对这些知识的挖掘和利用对自然语言处理技术提出了更高......
本研究运用语料库语言学的方法,以大学英语英汉翻译测试的译文语料及其正式人工评分为研究对象,通过语料标注和统计分析,揭示翻译......