汉语介词短语的自动识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xiaofei3310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。由于自然语言的灵活性和复杂性,使得句法分析成为一项十分艰难的工作,因此,浅层句法分析成了当前的研究热点。浅层句法分析的优点是可以识别出确定性高的部分分析结果,减少句法分析中的歧义,从而降低句法分析的难度。尽管目前的浅层句法分析以组块识别为主,但是由于介词短语本身的复杂性和特殊性,所以依然有必要如前人单独讨论名词短语识别一样,分析和探讨介词短语的识别问题。语言学研究表明,介词短语的内部构成比较复杂,但有着显著的边界特征和上下文特征。本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,利用这些特征,构造了一个有效的汉语介词短语识别模型,尝试在浅层句法分析这个层级识别介词短语。即,在分词和词性标注的基础上,把介词短语作为一个整体识别出来,而不对其内部构成作分析。模型分为两部分:(1)根据介词和介词短语右边界经常出现固定搭配的特点,构造了两个搭配模板,从训练语料中自动提取可信搭配关系,并用这些搭配关系对介词短语进行初步识别。(2)考虑到介词对介词短语右边界的影响,把介词作为一元加入到Church提出的基于词性的二元边界统计模型中,构成了三元模型。又根据介词短语的上下文特征,加入了规则方法。用基于词性的三元边界统计模型和规则相结合的方法识别第一步无法处理的介词短语。对含有7324个介词短语的语料作交叉测试,精确率达到88.29%。实验结果表明,在浅层句法分析中识别介词短语是可行的。
其他文献
随着Intenet应用的快速发展,高性能核心路由器已经成为当前网络领域研究的热点和重点.而基于多协议标签交换技术的虚拟专用网系统又是核心路由器的一个重要组成部分.通过该系
说话人识别是利用说话人的语音特征对说话人的身份进行辨认或确认。在说话人识别系统中,最重要的是能够从语音片断中提取代表说话人独有特征的稳定参数。 针对短时傅立叶分
现在普通用户已经将拍摄数码相片作为每次旅游聚会和各种活动的重要组成部分,这使得家庭数码相片迅速增加。日益增多的数码相片对高效的相片管理和检索技术提出了迫切的需求。
随着用户对互联网服务质量要求的提高,随时随地能够享受高质量网络服务已经成为人们的迫切需求。在这种环境下下一代互联网NGI (Next Generation Internet)随之而出,它为更快
宽带网络(包括无线接入)的日益普及为人们远程访问企业内部资源,实现移动办公提供了基础。但如何帮助人们实现方便的远程接入却始终没有得到很好的解决。SSLVPN是一种新兴
PACS系统是现代计算机系统和网络运用于医学影像的信息系统,其主要作用是实现放射科无胶片化和规范流程。DICOM标准是PACS普遍遵守的国际标准。miniPACS是PACS的一种类型,它
在行业软件开发中,架构的选择成为关系软件产品成败的重要因素。过去行业软件的开发以两层架构为主,由于这种方式具有开发方便、快捷的优点,在一定程度上加快了行业的信息化
本文通过分析信息家电、家电网络的现状与未来发展趋向,以ARM技术和嵌入式uCLinux操作系统为基础,通过合理的软、硬件设计,提出了基于嵌入式技术的家电信息网络平台的设计思想,构
近年来随着信息技术产业的飞速发展,嵌入式系统集成的功能日益复杂,应用也愈发广泛,但同时受到系统体积、成本、能耗、利用率等约束。为了克服这些问题,在现代嵌入式系统设计
该论文的主要贡献点包括以下几个方面:(1)该文针对业务冲突动态检测的特点,提出了一种支持业务冲突动态检测的形式模型,该模型能描述传统意义上不同种类的业务冲突,为从一般