大词汇量手语词语分割的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:xlr9900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国手语环境下的自然语言处理是人工智能的一个重要分支,而手语环境下的汉语自动分词是中国自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,同时也是实现自然语言和手语语言互译的一个技术难点。 中国手语环境下的分词方法和通用的分词方法差异很大,本文在分析手语词汇和手语环境的基础上,进行了排歧问题、手语词语分割问题等方面的研究。 本文提出了一种基于统计模型和知识库相结合歧义消减算法,即一种基于词的二元模型的广度似然比GLR算法,该算法结合了互信息MI模型和似然比LR模型的优点,不但减少了排歧过程的计算量,而且解决了数据稀疏敏感的问题。实验表明,该方法可有效的进行歧义消减。 本文关于手语词语分割的问题主要做了两方面的工作: 手语词典重构问题:针对中国手语的特点设计了适应于手语环境的字典重构策略,首先根据词典中无重复的手语词的首字进行HASH散列,然后首字相同的词语聚类存储。此结构不但使首字相同的词语聚类,而且提高了词语查找匹配的速度。 手语词分割的算法方面:提出了一种渐进式长度优先的正向匹配和逆向匹配分词算法。该方法不仅极大缩减了词语查找范围,且大大的减少了手语词查找和匹配的次数,提高了系统的性能,保证了系统的实时性。 本文设计和实现了大词汇量手语词的“汉语自动分词系统”,该系统包括Web文本的抓取和解析模块、语料预处理模块、语料切分模块、歧义字段识别和消减等模块。通过用大量的不同类型的语料作为测试集,做了封闭式和开放式的实验,验证了系统的性能。与人工分词结果相比,系统的分词正确率达到了90.00%左右,分词速度在8000~12000个词/秒。
其他文献
近年来,基于对等结构(简写为“P2P”)的大规模分布式系统迅速发展起来,成为占用Internet带宽最多的网络应用。P2P是以建立一个覆盖于现行“万维网”的覆盖网络系统为目的,涉及网
网络和多媒体处理技术的发展使得媒体通过数字形式能够更方便地表征、存储、获取和分发,但是数字媒体可以低成本、高速度地被复制和传播的特点使几乎不用付出任何代价就可非
在集成电路(IC)芯片设计中,验证是芯片设计流程中最复杂、最耗时的环节之一。目前,集成电路功能验证约占整个开发过程投入的60%~70%,是项目成功的关键。如何使用新的工具和技
信息技术和生命科学被认为是21世纪的标志性学科。信息化、网络化、高科技化己成为社会发展的基本特征。建设医院信息系统、促进医院数字化是知识经济时代的必然选择,是医院管
随着市场竞争的日益激烈,顾客对住宅产品消费日益理性、成熟,需求日益多样化,居民住宅满意度评价研究已成为影响企业可持续发展的一个重要因素。 目前,居民住宅满意度指数测评
互联网技术的迅猛发展和B/S应用的强大诱惑,使得越来越多的系统都要求构造为一种简单、经济而高效的Web应用。这从根本上导致了近年来基于J2EE的应用开发方式逐渐从重量级转向
网络技术的广泛应用和企业自身发展的需要,使得网络应用系统在企业中得到广泛应用。许多网络应用系统将访问控制作为处理安全管理问题的有效解决方案。然而随着企业网络应用系
随着计算机应用的普及,我国绝大多数企事业单位实现了会计电算化,使得审计工作的对象发生了质的变化,对审计提出了更高的要求。目前的审计工作还不能适应这种变化。面对海量
软件框架技术是当今B/S系统开发的重要技术。本文对J2EE架构的框架技术作了较为深入的分析和研究,阐述了J2EE企业级软件开发架构、设计模式、软件框架及组件技术等相关技术;并且
审计系统是银行进行风险监督和风险管理的重要手段,如何将来自各业务系统的业务数据映射到最终的风险指标体系中的指标,是审计系统成功的关键。因此,设计一套灵活高效,可扩展的柔