基于大规模语料库的英语从句识别

来源 :第一届学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:albeewang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英语从句识别对于英语复合句的分析至关重要.本文基于Penn tree bank语料库,通过分析从句的组成规律,利用统计规则,通过分析从句的结构,从句在主句中的位置以及与主动词的关系来识别从句的左右边界,在识别的过程引入了关键词,并考虑到从句嵌套的问题.测试结果表明,句首的封闭测试精确率和召回率分别为91.06﹪和94.07﹪,开放测试精确率和召回率分别为82.13﹪和85.05﹪.
其他文献
本文以《现代汉语新词语信息电子词典》的已有成果为基础,以大规模真实语料的统计数据为依据,用统计数字来描述动词的各项语法属性,说明新词语动词的特点.
本文简要介绍了R.C.Schank的动态记忆结构,详细阐述了HNC语境的定义及HNC语境的三要素:领域、情景和背景,并且给出了HNC语境形式化表述的具体例子和方法,最后通过对比动态记忆结构和HNC语境,指出了两者的异同.
作者依据自己在北大计算语言所CCD(Chinese Concept Dictionary)项目的工程实践,提出了CCD的构造模型.该模型强调双语词典(Bilingual Lexicon)构造中的继承(Inheritance)和转换(Transformation)的思想,希望从现有WordNet的英语单语词汇语义信息出发,通过词典编篡者的翻译和可视化操作(Visualized Operations)
本文从语句理解处理的角度出发,运用HNC理论的语言表述模式,对"得"字的各种意义和用法进行了探讨,考察了各义项在真实语料中的分布情况,并提出了对"得"的处理策略.
汉语中主语省略现象十分普遍,汉语主语省略句的处理对于汉英机器翻译十分重要,它需要基于篇章上下文语境进行分析,包括省略主语识别和省略主语恢复.本文首先介绍了汉英机译系统ICENT的句法语义分析,然后建立了汉语篇章上下文语境模型,制定了主语省略恢复规则,给出了基于汉语篇章上下文语境应用主语省略恢复规则恢复主语省略的算法,最后对小学语文课本实际语料进行了实验.
翻译词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义.为了解决基于汉英双语语料库的翻译词典获取问题,本文首先比较了四种常见的基于共现信息的词汇对译关系计算模型,并以对数相似性模型为基础,设计了一种迭代策略和词典相结合的汉英机器翻译词典自动获取的方法.初步实验表明,该方法的确能够提高翻译词典获取的正确率和召回率.
从各种自然语言文本中获取知识是自然语言处理技术的重要应用.本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统.具体工作包括:利用分词工具进行初步的词条分类;在词条分类的基础上,对处理范围内的词条文本进行观察,以人工方式归纳其中目标知识的基于语义特征的模式规则;利用YACC工具对模式规则进行解释,进而抽取目标知识.文中给出了试验结果及分析.
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向.本文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法.这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础之上,通过对网页的相关度的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源.
本文是写作中的《HNC语料库语言学》之第一章略加修改而成,全面介绍了黄曾阳先生关于建设HNC语料库的设想,重点阐述了语料库建设必须接受语言学理论指导的思想.
用户兴趣建模是互联网个性化信息服务的关键技术.本文中,提出一种基于加权概念网络的用户兴趣建模方法.该方法利用动态学习算法,挖掘蕴含在用户反馈文档中的概念及其概念关系,建立加权概念网络的用户模型,从而捕捉和表述用户兴趣偏好.基于加权概念网络用户兴趣模型,提出了检索提问个性化理解,以及文档个性化重评价的实现方法.为了检验提出方法的建模性能,设计了信息过滤仿真试验.测试结果表明:加权概念网络有较好的用户