规则与统计相结合的兼类词处理机制

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:drygps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词性标注是自然语言处理中的一项基础性课题,词性标注的正误对汉语语料库标注、机器翻译和大规模文本的信息检索等都有重要的意义。 本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。在此基础上提出了规则和统计相结合的排歧策略。在规则方法中,改进了规则库的构建方法,用兼类词词性代替兼类词本身,并尝试使用统计辅助构建规则库;在统计方法中,在二元语法模型基础上引入了学习机制的概念,根据学习结果对词性概率和词汇概率的获取方法进行了修正。按照上述策略,实现了一个兼类词处理系统,闭式标注正确率达97.85%,开式标注正确率达96.71%。试验测试结果标明规则和统计相结合的兼类词处理机制可以有效地提高词性排歧正确率和词性标注正确率。
其他文献
无线资源管理是无线通信网络中的关键技术和研究热点。本文针对无线资源管理中的接入控制、功率控制和垂直切换,引入演化博弈,构建相应的无线资源管理形式化博弈模型,对网络性能
联机事务处理性能评测工具DM-TPCC是根据TPC-C基准的要求设计并实现的.它被划分为数据装载、事务处理、事务特性的测试、结果统计几个模块分别实现.在数据装载模块中根据数据
今天,随着信息时代的到来,存在着大量的数字信息.它们的存在增加了我们获得信息的方式.但也存在下列问题:(1)由于信息提供商的不同,导致信息格式、检索方式、访问方式的不同,
嵌入式实时操作系统和数据库是嵌入式实时系统研制开发中的两个重要软件,它们的研究和开发对嵌入式实时系统的发展具有重要的意义.然而,目前常见的通用操作系统是基于提高系
无线Mesh网络由于组网灵活、成本低等特点,成为了下一代无线宽带接入的新型无线网络技术。随着微电子技术的发展和硬件生产成本的降低,多射频技术成为了WMNs提高网络带宽的一种
作者在通用入侵检测框架(CIDF)的基础上,建立了一种新的网络入侵检测系统模型,即基于分布式代理的网络入侵检测系统(DA-NIDS)来解决以上问题.该系统主要由探测代理、分析代理
在线社会网络作为一种复杂网络,具备了复杂网络的一些拓扑特性,如小世界效应、无标度行为和社区结构等。为了揭示在线社会网络的拓扑特性、社区结构和演化规律,也为了更深刻地理
无线Mesh网络融合了传统ad-hoc网络和传统无线网络的技术特点,以多跳、自组织、自适应、自愈合的方式,为用户提供动态的接入服务。路由协议对于无线Mesh网络的性能影响巨大,是无
由国际OMG组织提出的CORBA体系结构是提出最早也是目前最完善的分布式体系结构,CORBA体系结构提供了良好的跨语言性,底层可用任何CORBA规范支持的语言如C++、Java、Pascal等
在对国内外无线局域网物理安全和协议安全研究进行综述的基础上,分析了IEEE802.11无线局域网存在的安全缺陷和典型无线局域网安全的改进方案,提出了基于IPSec VPN的无线局域