面向中文信息处理的复句特征分析器的研究与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lylh0628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理作为一门与计算机科学、语言学、数学、信息学和声学多门学科相结合的交叉型学科,随着Internet的普及和信息处理技术的发展,近年来得到快速的发展。中文信息处理,对于汉语的信息处理包括字处理,词处理,句处理及篇章处理。但由于汉语的特殊性和复杂性,到目前为止,大部分的研究都只停留在“字和词的处理”阶段,对于汉语句子尤其是复句的处理进展非常缓慢。本文研究的复句特征分析器是复句工程中关系词自动标记系统的一个核心部分,主要负责对汉语复句的基本特征的抽取。复句特征分析器主要有七个功能模块:1句子结构相似计算,2句法成分分析,3字符串匹配,4词性标注,5分句标记和跨度计算,6语义关联度计算,7关系词处理。本文对复句特征分析器的若干关键技术进行了研究及探索:1、提出一种新型的汉语句子相似算法。这是一种基于汉语句子词类串的结构相似算法,它结合词类间的关联度寻找两个句子对应词类串的最长匹配串。2、提出一种分句标记的算法。该算法基本思想:根据实用高效的合并原则,将关联词单独成句,句子成分单独成句等独立分句归到相邻分句中,进而实现分句的合理标记。3、提出一种基于依存句法的句子成分分析算法。该算法利用句法成分分析的规则:谓核识别机制,主干识别机制,修饰成分识别机制和并列成分识别机制,对汉语复句进行语义分句的划分,每个语义分句主谓宾的划分,以及核心词,修饰成分和并列成分的划分。
其他文献
Web服务器在当今Internet服务架构中起着重要的作用,它负责接收和处理用户发送的请求。Web服务器是否合适、高效直接决定了Internet的服务水平。所以要确保网络服务能力,首先
关联规则是数据挖掘领域一个重要的研究课题,其目的就是在数据库中发现数据项之间的隐含关联。在研究正、负关联规则挖掘的基础上,将挖掘算法应用于社保审计领域,获得隐含在
图像拼接技术能够提供宽视角而且高分辨率的图像,与使用扫描相机和广角镜头相比,不仅快捷方便成本低廉而且获得图像质量高,在视频图像拼接、虚拟现实、航空航天、视频压缩和
对于SAR图像来说,相干斑抑制、边缘检测、分割等是在SAR图像处理研究中最基础的热点内容,而SAR图像去斑又是一个最基础和最重要的问题,因为SAR图像的斑点噪声直接影响了它的
无线射频识别技术(RFID)始于二战期间,现在已经广泛应用于物流、航空、供应链、医药等领域。由于其有条形码无可比拟的优点,如自动、快速、批量、远距离等等,电子标签(射频标
一直以来,由于传统中医舌诊缺乏现代医学理论依据,主观性强,其诊断结果比较容易受医生的自我经验积累和所处环境等因素的影响,缺乏客观和定量化的依据。另一方面,由于受传统
磁共振成像技术由于具有成像参数多、分辨率高、无电离辐射损伤、可任意层面断层成像等特点而在医学上得到广泛的应用。但是,磁共振图像也具有成像时间长、软组织对比度不高
复杂网络的研究已经成为互联网、社会学、生物学等多个领域的一个基础课题。节点的聚集现象是很多复杂网络具有的一个特性,被称为簇、社团或群。语义复杂网络的聚集现象可以
高维数据聚类是数据挖掘领域的重点、难点,特别是高维分类型数据的聚类。数据的稀疏性以及“维度灾难”等因素,使得传统的相似度度量方法在分类型数据之间的相似度都趋于无穷而
钱塘分布式文件存储系统是在国家重大科技攻关项目的支撑下,研制的面向云计算、互联网等高端应用的分布式文件存储系统。论文结合该系统的版本升级,研究了分布式文件存储系统