基于框架语义的汉语文本知识表示方法

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户：ChinaKing1

【摘要】

：

本文研究一种基于框架语义的汉语文本知识表示方法,该方法正在汉语框架网络工程(CFN)中实施应用.文章构建了表示禽流感新闻报道所需的部分框架及其关系,从已经建立好的禽流感新闻语料库中选取一篇报道,示范性地提取了文本框架语义信息;然后探讨实现这种文本语义框架需要解决的各层面语言分析问题,并针对这些问题提出了处理建议.

【作者】

：

赵园丁由丽萍张惠春谷波刘开瑛

【机构】

：

山西大学计算机与信息技术学院,太原,030006 上海师范大学对外汉语学院,上海,200234

【出处】

：

全国第八届计算语言学联合学术会议

【发表日期】

：

2005年6期

【关键词】

：

知识表示文本理解框架语义

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

中文网络非正规语言处理的方法与实践

非正规语言广泛应用于以网络为媒介的通信中,如聊天室,BBS,电子邮件和短信等.我们称在这些环境中使用的特殊语言表达为网络非正规语言(NIL)表达,例如中文ICQ中"偶"等同于"我".NIL表达处理需要非常规知识和技术,而目前面向正规语言的自然语言处理技术在处理NIL文本时效果并不理想.这一问题导致了NIL处理研究,即通过研制NIL处理系统,提高自然语言处理技术对NIL的适应性.研制开发了NILER

会议

网络非正规语言信息抽取语言处理自然语言

论系统相似的度量

本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有效地弥补向量空间模型的缺陷.

会议

系统相似度相似元系统相似函数系统相似模型

现代汉语基本词汇先验集的考察分析研究

基本词汇是词汇的核心,是汉语教学、语言本体研究及信息处理领域的基础.当前对基本词汇的研究还远远不够,还没有一个现实存在的基本词汇集,更没有对其量化测定的手段,本文介绍了基于动态流通语料库的现代汉语基本词汇研究的一项前期工作--现代汉语基本词汇先验集及特性的考察.这对实现基本词汇的计算机自动提取有十分重要的意义.

会议

基本词汇先验集动态流通现代汉语

抽象名词和组织类名词的限定作用

兼类词消解一直是中文信息处理句法分析的难点,对实际语料的研究发现,有些抽象名词和组织类名词对兼类词起着限定作用.本文通过程序设计提取了这些词,并对若干问题进行探讨,希望能对自然语言处理起到积极的推动作用.

会议

句法分析抽象名词兼类词

搜索的未来

互联网的迅猛发展使搜索引擎成为必不可少的工具,它能帮助人们在浩瀚的信息海洋中方便快捷地获取众多的信息服务.同时互联网正在提供庞大和丰富的语料资源,为中文技术研究提供强大助力.本文首先通过对各代搜索引擎,特别是中搜网络猪的介绍,揭示了搜索引擎正在从内容、形式和搜索范围等方面发生巨大的演变.接着以实例显示了代表搜索未来的网络猪因其搜索方式的改变,极大地改善了用户的搜索感受.最后基于中国搜索的搜索引擎结

会议

搜索引擎网络猪中国搜索中文自动分词

面向词典编撰的词汇聚类研究

针对分类词典中学科词条的获取和选择问题,本文利用文本分类中特征提取的方法在大规模分类语料库中进行词汇聚类,从而达到辅助词典编撰的目的.

会议

词典编撰文本分类特征提取词汇聚类

基于存储压缩的多模式串匹配算法

存储空间的大小和cache的性能是影响串匹配算法速度的关键因素之一.随着关键词规模的扩大,巨大的存储开销导致现有的串匹配算法性能大幅度下降.本文提出了一种节约存储空间的串匹配算法,它以suffixtrie和双数组trie作为识别关键词子串的数据结构,既压缩了存储空间,又保持了快速的访问速度.该算法比较适合于关键词规模为10,000-20,000的应用环境.在15,000关键词规模的随机测试环境下,

会议

多模式串匹配存储空间匹配算法存储压缩关键词

基于伪反馈与分类的文本检索

查询空间与文档空间的不匹配是文本检索中的一大难题,在句子级别的检索中表现尤为突出.为解决这个问题而提出的查询扩展方法本身存在着难以解决的困扰.基于分类的方法绕过了这一难题,成为实现句子检索的一个可行方法.实际中使用分类方法碰到的一大难题是缺少正例数据.本文根据Rocchio方法利用反例从未标注数据中抽取出可能相关的文档,并采用文档长度进行加权,从抽取出的文档中挑选可信度较高的加入正例集,然后采用S

会议

文本检索伪反馈Rocchio方法

相似词及其在计算机辅助校对系统中的应用

统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而且这种相似关系不能用作分类原则,因为它不满足传递性.为此,我们提出了一种解决方案:对于每个词,根据其在大规模语料库中的上下文分布特征,建立以该词为核心的相似词集合,用相似词的ngr

会议

统计方法数据稀疏相似词计算机辅助校对

利用时点层级系统消解t+t歧义结构及相关应用

本文在潜在歧义理论的基础上,重点分析t+t(t为时间词)结构潜在歧义的类型,将时间词进一步细分次类(时点和时段)、并建立时点层级语义关系系统及基于语义约束的形式规则(条件→动作型知识)来消解t+t的潜在歧义,这有利于提高机器翻译的质量,该时点层级系统也适用于对外汉语教学及促进新闻语料加工和汉语时制、时态研究.

会议

潜在歧义理论时点层级系统歧义结构

基于框架语义的汉语文本知识表示方法

与本文相关的学术论文