基于中间语义的跨语言文本分类模型研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:zhilong217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络已成为人们获取信息的重要来源,同时,来自政府部门、学术领域和商业领域的信息也在急剧增加,这些信息涵盖的都是一种多语言的知识库,而普遍的情况是大多数人通常只习惯在自己的母语里查找相关的信息,所以人们能理解的互联网信息往往只是冰山一角。互联网信息的多语言性和人们所能熟练运用语言的有限性,使得语言已经成为人们进行信息获取和理解的主要障碍之一。应运而生的跨语言文本分类技术,作为组织和管理来自政府部门、学术领域、商业领域以及国际性组织内部的多语言文本的有力手段,正受到越来越多的关注。它可以克服语言障碍问题,使用户可以更加有效的管理和定位所需要的信息。基于辞典的模式和机器系统翻译的技术一度成为人们进行跨语言文本分类的热点研究技术。基于辞典的模式就是采用双语辞典来做翻译,这里主要的问题是词的歧义性,一个词汇可能有多重意义,因此产生类似一般机器翻译系统选词的问题。另一个问题是辞典本身的覆盖度不够,动态的专有名词如人名、地名、机构名称等日新月异,很有可能在翻译过程中在辞典中找不到。而机器系统的翻译主要是针对文献翻译进行的,文献翻译的缺点是在遇到大文本集合的时候执行效率不高,花费代价太大。目前不通过翻译进行跨语言文本分类的典型技术是Latent Semantic Indexing(LSI)[1],这是一种基于内容概念的技术。LSI技术虽然不需要翻译,但是SVD的计算比较花费时间, K值只能通过反复尝试来确定。针对上述问题,我们提出了一种基于中间语义的跨语言文本分类模型,该模型通过双语语料库的平行文档在统一框架下建模,提取双语之间的语义对应关系。本文较为详细的阐述了基于中间语义的跨语言文本分类模型的原理,研究了其在特征维数和潜在变量对对数变化的情况下的分类性能的稳定性。并把跨语言的文本分类与单语言的文本分类相比较,实验结果显示,基于中间的跨语义语言文本分类具有良好的分类稳定性和准确度。本文的创新之处有:第一,利用改进的偏最小二乘理论技术,提出了新的基于中间语义的跨语言文本分类模型;第二,建立了一定的中英文平行语料库,为以后扩充中英文平行语料库打下了一定的基础。
其他文献
随着电子商务的发展,数字现金系统由于匿名性将成为电子支付方式中一种不可替代的手段。起初,在数字现金系统中,人们对数字现金的设计是完全匿名的,后来证明这种数字现金有一定的
EDP系统在国内已有不少应用案例,但基于ODS的EDP系统在国内尚属首例。本文是在参与全国试点工程贵州省电信EDP/ODS基础上完成的。EDP/ODS系统是基于ODS数据平台的企业数据门户
近年来,Internet技术和移动通信技术的发展,大量移动终端设备的应用都为移动IP技术的发展提供了必要的条件,移动IP技术的研究也成为业界研究的热点。与移动IPv4相比,移动IPv6为IP
大家都知道,安全是信息技术的今天现场是一个非常重要的研究方向。根据计算机系统的分类,计算机安全可以分为硬件安全和软件安全性,这可以分为应用级软件安全,数据库安全性,操作系
VoIP是在IP网络中进行实时语音传送的业务。SIP是用于实时通讯的一种信令协议,是下一代网络的核心协议之一。目前,基于SIP协议的VoIP系统大部分是Client/Server结构的,这种系统
随着互联网的迅速发展,各种信息安全技术也快速发展起来。防火墙、入侵检测、蜜罐技术等安全手段日趋成熟,基于公钥基础的认证系统也得到广泛的应用。然而,上述这些技术仅是强调
学位
下一代网络(NGN)是电信网和Internet网络的融合,基于IP的话音技术得到了广泛的应用。本文主要介绍了SIP协议对移动性的支持问题。SIP协议是基于应用层的信令控制协议。它是构
IPv6将成为未来IP网络的核心协议,而IPv6对移动性的支持是它的关键特性之一,为此,IETF组织于2004年公布了移动IPv6协议。移动IPv6协议允许用户使用网络终端设备与外界通信,且不需
SIP(SessionInitiationProtocol,会话初始化协议)是由IETF组织提出的一个基于IP网络实现实时通信的信令协议。基于SIP可以开发VoIP系统以及文本或多媒体传输应用程序(例如,即时