分布式表示与组合模型在中文自然语言处理中的应用

来源 :东南大学 | 被引量 : 9次 | 上传用户:hahanikan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来词的分布式表示与组合模型在自然语言处理领域中取得了诸多突破性的成果。词的分布式表示使用实值向量对词进行建模,可以从无标记语料库学到词的语法和语义信息,而组合模型可以对词间或词内语义组合进行建模。在英文自然语言处理中,这些模型在语言模型、词性标注与文本分类等自然语言处理任务的性能超越了其他模型。受限于语言特性与语料资源,在相关中文任务中,这些模型并没有在性能上超越其他模型。本文针对中文分布式表示与组合模型中相关研究缺乏大规模无标注语料的情况,构建了基于新闻的大规模无标记语料库用于训练词的表示向量,并在此基础上结合中文的字没有明确语义的特点,对词内和词间的语义组合进行建模。具体来说,本文主要进行了如下工作:(1)针对中文没有公开的大规模语料供字词表示学习的现状,本文构造了一个大规模新闻语料库。该语料库规模大约是此前中文相关研究中使用的语料库规模的25~9000倍。使用该语料库训练得到的词的分布式表示,在词语类比推理任务上超过了此前相关研究的最好结果。(2)针对词向量不能很好表示未登录词和低频词的问题,本文结合中文的语言特性,提出了词的拆分模型和基于前馈神经网络的组合语义模型。词的拆分模型可以根据语料库中的统计信息对词的内在结构进行拆分,获得词的内部结构;而组合语义模型可以对词的内部结构间的语义组合进行建模。实验表明组合语义模型可以很好地对低频词和未登录词进行表示。(3)构造卷积神经网络对词间语义组合进行建模,并在多个文本分类和情感分析数据集上进行验证。模型在文本分类任务上接近了FNLP自然语言处理系统的分类正确率,并在情感分析任务中超越了该系统。实验表明卷积神经网络可以有效对词间语义组合进行建模,并验证了本文训练得到的词向量在文本分类和情感分析任务中的有效性。
其他文献
随着经济发展的加快,中国的金融市场和金融体制不断完善。在国民人均可支配收入不断增长的趋势下,证券作为一种主要的大众投资方式,在近几年的时间内,越来越受到人们的投资青睐。
描述逻辑作为一种知识表示的有效机制,已经成为构建形式化本体知识库的重要逻辑基础。基于描述逻辑的本体知识库被广泛地应用在智能体间的通信、异构信息源的集成、语义Web等
人体肤色检测已应用于如手势识别、数据库人物检索、网络敏感信息过滤等诸多领域。因而,设计一套有效并且性能稳定的肤色检测方法成为计算机视觉领域的一大研究热点。为了满
随着P2P技术的日渐成熟,越来越多的网络应用都使用了P2P技术,特别是在文件共享领域与流媒体播放领域,P2P技术的使用发挥到了极致。然而正是由于这种技术的出现,P2P流量占据了很大
随着云计算和大数据时代的到来,电子数据的存储量呈几何级增长。同时,近年来自然灾害和人为事故的频发导致数据中心存储设备损坏,给许多数据中心造成不小的损失,企业、高校、
随着计算机软件技术的发展,软件产品的应用功能和系统结构日趋庞大和复杂,软件测试过程中产生的运行剖面越来越多,这给计算机软件开发后期的软件可靠性测试工作带来巨大的挑
学位
教学管理工作是学校办学的重要工作之一,随着计算机技术和网络技术的发展,教学管理工作也从传统的手工处理解脱出来,采用现代化的办公自动化系统--教学管理系统来完成。教学
JXTA是用来解决P2P(Peer-to-Peer)对等计算的分布式网络计算平台,也是一个为P2P应用程序和服务提供标准协议的开放式资源项目。JXTA是juxtapose:并列)的缩写,这不仅说明网络中
钢结构节点设计是钢结构设计的重难点,采用传统的CAD(Computer Aided Design,计算机辅助设计)技术,很难灵活地进行钢结构节点设计。为此,将虚拟装配引入到钢结构节点设计中,
无线传感器网络是由部署在监测区域内大量的、廉价的、具有感知能力的微型传感器节点形成的一个多跳自组织网络。随着它的广泛应用和产业化实现,其安全问题日益突出。本文首