中文缺省识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:uouopolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但大多数的研究都只停留在理论层面,并没有系统地来阐述中文缺省项的识别方法和实现具体识别系统。   本文主要对中文缺省项识别的方法和系统进行了研究,具体的研究内容归纳如下:   1)对OntoNotes3.0的语料进行了详细的统计和分析,归纳总结了常见的六类缺省类别;探讨了基于规则的缺省项识别方法。通过对句法分析树的分析处理,首次提出了基于最小IP子树的缺省项识别方法。在两种不同的句法分析树上的实验结果表明本文的方法具有可行性。   2)探讨了基于机器学习的缺省项识别方法。通过对句法分析树的分析处理,得到了5组缺省识别的特征值,并由此构建了基于机器学习的缺省项识别系统。实验证明,基于机器学习的识别方法性能要高于规则方法。   3)提出了一种新的层次结构的缺省项识别方法。首先,利用依存信息对输入的最小IP子树进行过滤;然后,对通过过滤处理的最小IP子树进行缺省项识别。实验证明,该方法比前两种方法具有更好的识别性能。实现了一个中文缺省项识别和标注应用系统(基于机器学习方法)。
其他文献
当今社会,互联网中所包含的种类繁多内容丰富的知识资源,为我们日常学习和工作中面对问题时寻求帮助和获取信息提供了很大的方便。目前的Google和百度等搜索引擎是人们从网络
随着物联网技术的深入发展,无线传感器网络(Wireless Sensor Network,WSN)和Internet的互联问题逐渐凸显,如何无缝地实现这两种网络的互联互通成为应用中的技术瓶颈。由于WSN
人脸识别作为生物特征识别的一个重要分支,近年来受到广大研究者的关注,取得了较快的发展。在一些实际应用中,每人只能获得一张图片作为训练样本,但大多数人脸识别方法在单个训练
半个世纪以来,随着研究的不断深入,已有多种模型用于基因调控网络的构建,包括布尔网络模型、贝叶斯网络模型、微分方程模型等,并取得了一些成果。20世纪90年代,基因芯片等高通量生
增强现实是将计算机生成的虚拟信息与真实世界的叠加,而全景视频是将拍摄到的视频拼接后可任意角度拖动观看的动态视频。在一些受到保护且不便让用户进入的场景(如文物古迹、
一直以来,自动语义分析是自然语言理解的主要目标之一,然而由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化的语义分析形式,它只分析与句子中谓词有关成分的
数据质量已被公认为是数据管理的首要问题之一。针对数据质量管理领域的数据记录不匹配及不一致问题,本文分别从记录匹配检测及不一致修复两个角度出发,提出了基于CON模型的
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档,这些文档
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程