文本信息处理中汉语句法分析方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhu0756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和Internet的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高。汉语句法分析是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。 汉语作为自然语言的一种,具有自然语言所共有的最本质的特征,因此汉语句法分析有必要借鉴和吸收成熟的语言学理论。同时,由于汉语的特殊性,决定了汉语句法分析不可能照搬现成的方法,必须从汉语自身特点出发,以先进的语言学理论为指导,研究和开发适合汉语的句法分析技术。 本文的核心工作可以概括为以下三个方面: 1.对现有的一些句法分析算法和模型进行了比较、综合。在总结前人研究成果的基础上,对传统的汉语句法分析算法加以改进,采用了自底向上与自顶向下相结合的线图分析方法,提高了分析效率,也使得分析结果的准确率有一定的提高。 2.设计了一套常用的汉语句型库作为研究基础,根据实际应用,确定了一套词性标记集和短语标记集,并根据常用的句型,设计了一套基于上下文无关的语法规则库。 3.分析、设计和实现了一个汉语句法分析原型系统,实现了基于最大词长匹配算法的分词模块和基于相对频率训练的统计方法的词性标注模块;实现了基于改进的线图分析算法的句法分析模块。 本文使用北大计算语言研究所制作的PFR人民日报标注语料库作为训练样本,根据本文确定的词性标记集和短语标记集,以及本文设计的一套语法规则库,使用VC++6.0开发工具,实现了一个汉语句法分析原型系统,并进行小规模中文文本试验测试,验证本文改进的分析算法可行有效。
其他文献
随着全球能源短缺和环境污染问题的日益严峻,大力发展电动汽车已成为汽车工业实现可持续发展的重要措施。目前行业内公认磷酸铁锂电池是最具潜力的动力储能电池,研究磷酸铁锂
光纤布喇格光栅(FBG,Fiber Bragg Grating)具有体积小、重量轻、可集成、抗电磁干扰,并且能够实现传感信息波长编码等特点,它的性能优于光强编码或相位编码的光纤传感器。因
本文对恩施职院学生管理系统的设计与实现进行了研究。文章根据恩施职业技术学院对学生信息管理的需求,分析了该校的组织结构和学生管理业务流程,收集了与学生信息相关的第一手
本文以永磁同步电动机为研究对象,对交流伺服系统从数学模型、控制方法以及系统的硬件和软件设计等方面进行了系统的研究,提出了一种改进的单神经元PID控制方法,实现了交流伺
高速开关阀是20世纪80年代发展起来的一种具有响应速度快、抗污染能力强、与电子电路配合好等特点的一个良好的动力放大元件。高速开关阀的发展将加快液压系统的数字化。但是
随着计算机网络技术的普及和Web技术的广泛应用,“信息孤岛”问题日渐突出,如何集成交换来自不同部门、不同平台的数据成为目前信息交换中重要的研究课题之一。XML以其结构性、
人们用手势动作来表达思想,感知客观世界,完成各种操作。数据手套就是测量人手空间姿态的现实硬件,同时也是虚拟现实系统中的非常重要的设备,它可以跟踪手势动作,测量手指姿态信息
随着科学的迅猛发展,控制系统越来越复杂,控制精度的要求越来越高,需要尽可能建立控制系统更为精确的数学模型,所以研究非线性系统辨识意义深远。本论文的研究对象为哈尔滨工程大
被誉为第四代多媒体技术浪潮的三维信息技术,包括三维数字模型和三维场景技术,正在逐步成为影响人类生活、工作和娱乐的主流媒体技术。随着网络技术的广泛推广与运用以及三维建
随着人民收入的不断提高,长途的旅行成为假日里越来越流行的休闲活动。客运行业的服务也随之日益完善。目前,在很多的交通工具上都装备了多媒体设施,乘客可以在座位上收看主