基于框架语义的汉语文本知识表示方法

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:ChinaKing1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究一种基于框架语义的汉语文本知识表示方法,该方法正在汉语框架网络工程(CFN)中实施应用.文章构建了表示禽流感新闻报道所需的部分框架及其关系,从已经建立好的禽流感新闻语料库中选取一篇报道,示范性地提取了文本框架语义信息;然后探讨实现这种文本语义框架需要解决的各层面语言分析问题,并针对这些问题提出了处理建议.
其他文献
非正规语言广泛应用于以网络为媒介的通信中,如聊天室,BBS,电子邮件和短信等.我们称在这些环境中使用的特殊语言表达为网络非正规语言(NIL)表达,例如中文ICQ中"偶"等同于"我".NIL表达处理需要非常规知识和技术,而目前面向正规语言的自然语言处理技术在处理NIL文本时效果并不理想.这一问题导致了NIL处理研究,即通过研制NIL处理系统,提高自然语言处理技术对NIL的适应性.研制开发了NILER
本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有效地弥补向量空间模型的缺陷.
基本词汇是词汇的核心,是汉语教学、语言本体研究及信息处理领域的基础.当前对基本词汇的研究还远远不够,还没有一个现实存在的基本词汇集,更没有对其量化测定的手段,本文介绍了基于动态流通语料库的现代汉语基本词汇研究的一项前期工作--现代汉语基本词汇先验集及特性的考察.这对实现基本词汇的计算机自动提取有十分重要的意义.
兼类词消解一直是中文信息处理句法分析的难点,对实际语料的研究发现,有些抽象名词和组织类名词对兼类词起着限定作用.本文通过程序设计提取了这些词,并对若干问题进行探讨,希望能对自然语言处理起到积极的推动作用.
互联网的迅猛发展使搜索引擎成为必不可少的工具,它能帮助人们在浩瀚的信息海洋中方便快捷地获取众多的信息服务.同时互联网正在提供庞大和丰富的语料资源,为中文技术研究提供强大助力.本文首先通过对各代搜索引擎,特别是中搜网络猪的介绍,揭示了搜索引擎正在从内容、形式和搜索范围等方面发生巨大的演变.接着以实例显示了代表搜索未来的网络猪因其搜索方式的改变,极大地改善了用户的搜索感受.最后基于中国搜索的搜索引擎结
针对分类词典中学科词条的获取和选择问题,本文利用文本分类中特征提取的方法在大规模分类语料库中进行词汇聚类,从而达到辅助词典编撰的目的.
存储空间的大小和cache的性能是影响串匹配算法速度的关键因素之一.随着关键词规模的扩大,巨大的存储开销导致现有的串匹配算法性能大幅度下降.本文提出了一种节约存储空间的串匹配算法,它以suffixtrie和双数组trie作为识别关键词子串的数据结构,既压缩了存储空间,又保持了快速的访问速度.该算法比较适合于关键词规模为10,000-20,000的应用环境.在15,000关键词规模的随机测试环境下,
查询空间与文档空间的不匹配是文本检索中的一大难题,在句子级别的检索中表现尤为突出.为解决这个问题而提出的查询扩展方法本身存在着难以解决的困扰.基于分类的方法绕过了这一难题,成为实现句子检索的一个可行方法.实际中使用分类方法碰到的一大难题是缺少正例数据.本文根据Rocchio方法利用反例从未标注数据中抽取出可能相关的文档,并采用文档长度进行加权,从抽取出的文档中挑选可信度较高的加入正例集,然后采用S
统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而且这种相似关系不能用作分类原则,因为它不满足传递性.为此,我们提出了一种解决方案:对于每个词,根据其在大规模语料库中的上下文分布特征,建立以该词为核心的相似词集合,用相似词的ngr
本文在潜在歧义理论的基础上,重点分析t+t(t为时间词)结构潜在歧义的类型,将时间词进一步细分次类(时点和时段)、并建立时点层级语义关系系统及基于语义约束的形式规则(条件→动作型知识)来消解t+t的潜在歧义,这有利于提高机器翻译的质量,该时点层级系统也适用于对外汉语教学及促进新闻语料加工和汉语时制、时态研究.