基于中文的句法分析系统的研究与实现

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:javaname40
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理中的关键性问题之一,其主要任务是自动识别句子的句法结构。同时句法分析也是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。本文介绍了自然语言处理中句法分析的相关理论和相关技术,对现有的句法分析算法和模型进行了研究比较。在总结前人研究成果的基础上,对传统的基于Chart的句法分析算法加以改进,采用了自底向上与自顶向下相结合的线图分析方法,同时在规则的选取上采用了动态的排序方法,使得分析效率和分析结果的准确率有一定的提高。根据实际应用,确定了一套词性标记集和短语标记集,并根据常用的句型,设计了一套基于上下文无关的语法规则库。在此基础上,分析、设计了基于最大词长匹配算法的分词模块、基于隐马尔科夫的词性标注模块和基于改进的线图分析算法的句法分析模块,进而实现了一个完整的汉语句法分析原型系统。最后,针对复杂长句句法分析的困难,通过分析标点符号在长句构成上的作用和规律,给出了一种规则分层的句法分析方法。该方法把标点符号作为划分标志,根据这些划分标志将复杂长句分割为句子单元序列独立进行第一级分析,然后把第一级分析得到的结果作为第二级分析的输入,利用二次规则匹配,最终输出结果为完整的句法分析树。根据本文确定的词性标记集和规则库,分别使用北大计算语言研究所制作的PFR人民日报标注语料库和TCT973树库作为训练样本,从中抽取了若干文本进行小规模中文文本试验测试,验证了基于Chart的改进算法和长句规则分层句法分析可行有效。
其他文献
随着互联网和信息技术的快速发展,企业在运营过程中会产生大规模的数据,并且数据已成为重要的资产。但这些大规模数据呈现的是不完全的、有噪声的、模糊的、随机的状态,具有规模
自上个世纪九十年代以来,基于内容的视频检索便成为一个热门的研究课题。在信息爆炸的今天,如何使用计算机自动挖掘视频中的语义信息,并有效地利用高层特征进行视频检索,已经
方面化构件组装平台需要将横切关注点织入业务构件,其组装实现依赖于方面编织。同时,按需计算中间件平台要求按照用户或数据传输的需要,动态组合、编织计算模块,提高Internet
本文阐述了测试技术体系,自动测试工具的国内外发展状况和发展趋势,分析了回归测试的现状和存在问题,提出了一个基于C/S模式采用.NET开发的自动回归测试工具的解决方案。通过
当今社会己进入了信息时代,图形图像方面的需求不断增加。数字图像处理科学与技术逐步向其他学科领域渗透,并为其他学科所利用是科学发展的必然。在储层建模领域实现断层构造三
工作流管理系统是实现计算机辅助协同工作的工具,能够实现工作流程的全部或者部分自动管理功能。它不仅便于工作的规范化,而且便于人员与资源的合理配置、工作流流程的监督与
电信客户关怀项目是为了有效管理电信存量客户而建立的基于从属型数据集市的分析管理系统。ETL指数据抽取、转换、清洗、装载的过程,是建立数据集市最基本最重要的环节,是电
传统的分组密码分析技术局限于算法的数学结构,其攻击效果往往不佳。国内外密码学界都在加强基于算法实现的分析方法研究,边带信道分析技术作为一种新的密码分析方法迅速成为
在实际生产过程中,复杂不确定性系统内部关系复杂、外部影响因素多、数据量大较难建立简单函数方程来预测系统的未来发展趋势,制约了人们获取有用信息,采取有效行动的能动性
由于应用的复杂性,在很多情况下单个Web服务难以满足实际需求,对于复杂业务过程的处理需要采用服务组合的方法即由各个小粒度的Web服务相互之间通信和协作来实现大粒度的服务功