基于模型组合训练机制的特定领域名词性实体识别

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:jinglwwb33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一个模型组合训练机制,用于建立特定领域名词性实体识别模型.该组合训练机制采用基于文本片段的语料库自动构建机制,从Web的搜索结果中挖掘所需要的领域数据,并充分利用已有的一般领域名词性实体识别模型、标注语料库及自动新建的小规模的特定领域名词性实体标注语料库,极大地降低了训练成本,为特定领域名词性实体识别模型的建立提供了一个简单易用的训练方法.
其他文献
基本词汇是词汇的核心,是汉语教学、语言本体研究及信息处理领域的基础.当前对基本词汇的研究还远远不够,还没有一个现实存在的基本词汇集,更没有对其量化测定的手段,本文介绍了基于动态流通语料库的现代汉语基本词汇研究的一项前期工作--现代汉语基本词汇先验集及特性的考察.这对实现基本词汇的计算机自动提取有十分重要的意义.
兼类词消解一直是中文信息处理句法分析的难点,对实际语料的研究发现,有些抽象名词和组织类名词对兼类词起着限定作用.本文通过程序设计提取了这些词,并对若干问题进行探讨,希望能对自然语言处理起到积极的推动作用.
互联网的迅猛发展使搜索引擎成为必不可少的工具,它能帮助人们在浩瀚的信息海洋中方便快捷地获取众多的信息服务.同时互联网正在提供庞大和丰富的语料资源,为中文技术研究提供强大助力.本文首先通过对各代搜索引擎,特别是中搜网络猪的介绍,揭示了搜索引擎正在从内容、形式和搜索范围等方面发生巨大的演变.接着以实例显示了代表搜索未来的网络猪因其搜索方式的改变,极大地改善了用户的搜索感受.最后基于中国搜索的搜索引擎结
针对分类词典中学科词条的获取和选择问题,本文利用文本分类中特征提取的方法在大规模分类语料库中进行词汇聚类,从而达到辅助词典编撰的目的.
存储空间的大小和cache的性能是影响串匹配算法速度的关键因素之一.随着关键词规模的扩大,巨大的存储开销导致现有的串匹配算法性能大幅度下降.本文提出了一种节约存储空间的串匹配算法,它以suffixtrie和双数组trie作为识别关键词子串的数据结构,既压缩了存储空间,又保持了快速的访问速度.该算法比较适合于关键词规模为10,000-20,000的应用环境.在15,000关键词规模的随机测试环境下,
查询空间与文档空间的不匹配是文本检索中的一大难题,在句子级别的检索中表现尤为突出.为解决这个问题而提出的查询扩展方法本身存在着难以解决的困扰.基于分类的方法绕过了这一难题,成为实现句子检索的一个可行方法.实际中使用分类方法碰到的一大难题是缺少正例数据.本文根据Rocchio方法利用反例从未标注数据中抽取出可能相关的文档,并采用文档长度进行加权,从抽取出的文档中挑选可信度较高的加入正例集,然后采用S
统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而且这种相似关系不能用作分类原则,因为它不满足传递性.为此,我们提出了一种解决方案:对于每个词,根据其在大规模语料库中的上下文分布特征,建立以该词为核心的相似词集合,用相似词的ngr
本文在潜在歧义理论的基础上,重点分析t+t(t为时间词)结构潜在歧义的类型,将时间词进一步细分次类(时点和时段)、并建立时点层级语义关系系统及基于语义约束的形式规则(条件→动作型知识)来消解t+t的潜在歧义,这有利于提高机器翻译的质量,该时点层级系统也适用于对外汉语教学及促进新闻语料加工和汉语时制、时态研究.
本文研究一种基于框架语义的汉语文本知识表示方法,该方法正在汉语框架网络工程(CFN)中实施应用.文章构建了表示禽流感新闻报道所需的部分框架及其关系,从已经建立好的禽流感新闻语料库中选取一篇报道,示范性地提取了文本框架语义信息;然后探讨实现这种文本语义框架需要解决的各层面语言分析问题,并针对这些问题提出了处理建议.
词语相似度的计算是自然语言处理领域中的关键问题之一.本文引入了一类改进的知网系统词语相似度计算方法.新方法首先从特定的语料库中抽取部分常用词语对,使用统计方法计算它们的词语相似度,然后将结果与基于语义分类体系的相似度计算结果相比较,获得两种方法计算结果的偏差率,并利用该值选择合理的知网系统词语相似度计算参数.实验表明本文的结果更趋合理,反映了语言实际应用的真实背景.