基于深度学习的短文本分析与计算方法研究

被引量 : 51次 | 上传用户:stillzhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动终端的广泛使用,用户能够便捷地在互联网和移动平台上表达情感、观点和评论,从而产生了海量的文本信息资源。在这些文本中,短文本已经成为用户传递信息的主要载体,因此短文本的分析逐渐成为自然语言处理领域的研究热点。然而,对于短文本表达方式多样化、文法结构不规范的特点,传统的文本处理方法会导致文本特征表示稀疏、语义信息丢失的问题,导致中文分词中词典匹配失败和出现未登录词的问题,以及导致中文字词缺乏语义表示的问题,使得传统方法不能完全适用于对短文本的分析和计算。随着深度学习技术的兴起,特征表示学习逐步成为机器学习的一个新兴分支。因此,结合深度学习的方法,从语义特征表示入手,研究短文本计算涉及的相关问题,对短文本的分析和应用具有重要意义。针对上述短文本计算中存在的问题,本文根据短文本的特点,利用深度学习技术理论,在短文本计算涉及的文本语义表示、中文分词以及文本相似度计算等环节进行了分析和研究,最终形成一个完整的短文本计算框架。论文的主要研究内容及创新性工作如下:(1)针对传统表示方法中,字词表示缺乏语义依存关系的问题,提出了一种基于局部上下文和全局上下文的语义向量表示方法,实现从文本中提取对中文字和中文词的语义表示。该方法通过字或词在其上下文中的语义依存关系,构建了语义单元向量表示的神经网络模型,该模型包含了针对语义单元局部上下文和全局上下文的语义神经网络。采用无监督的学习方式,对字和词的语义向量表示进行训练,使其在上下文语境中具有不可替代性。该方法通过对大量中文文本的学习,得到了两组覆盖全面的中文字和中文词的低维度连续向量表示。实验结果表明:该向量表示蕴含有效的语义依存关系,有利于本文表示和模型计算。(2)针对传统中文分词方法中词典匹配失败和出现未登录词的问题,提出了一种基于中文字语义向量表示的中文分词方法。该方法以字在词中所处的位置作为标注目标,将分词问题转化为文本中字的序列标注问题。通过构建神经网络模型作为字的标注分类器,经过对字的上下文语义分析,从而得到该字在词中所处位置的估计,根据文本中标注的位置序列实现中文分词。通过分词模型中不同参数对分词效果的对比实验,构建了一个由最优参数组成的分词模型,与中科院分词系统、哈工大云平台和庖丁解牛分词工具的对比实验结果表明:利用该方法进行的中文分词结果具有更高的准确率和召回率。(3)针对传统文本表示方法对短文本表示造成的特征稀疏和语义丢失问题,提出了一种基于池化计算和层次递归自动编码器的短文本表示方法,并进行文本相似度计算。该方法通过词的语义向量表示,分别针对目标文本和候选文本中的相似语义词,使用加权平均池化的方式分别进行特征向量表示,该方法在保留语义的同时提高了文本表示速度。另外,将该方法得到的特征表示与层次递归自动编码器对短文本计算得到的特征表示进行融合,构建了短文本相似度计算框架。文本相似度计算实验结果表明:该框架有效的提高了相似度短文本的检索结果。最后,针对“生物医学信息检索”任务的实际需求,为解决信息检索时因缺乏专业领域词典和同义词表造成扩展词不足的问题,将提出的文本语义表示方法和短文本表示方法应用于查询扩展和相似度查询中,实现了基于短文本计算的生物医学信息检索系统。在BioASQ生物医学检索测评竞赛中,该系统有效的提高了检索结果,分获文档检索任务的2组第一名和2组第二名,文档片段检索任务的4组第二名。该应用实例进一步验证了本文所提方法的有效性。
其他文献
<正>(括号内的数字,前者是期数,后者是页数)·政策指南·推进各级政府事权规范化法律化/楼继伟(1.2)全国财政会议部署2015年财政改革与发展/财政部新闻办公室(2.2)转变工作重
目的考察提取溶剂的pH值以及与三七共煎对丹参水溶性成分提取效果的影响。方法使用HPLC测定当溶剂pH值分别为4.0,7.0,8.2和9.2时丹参药材提取液以及丹参、三七合煎液中丹参素
基于单片机的电子秤系统采用单片机AT89C51作为核心控制器,外围附以称重传感器、V/F转换电路、键盘、LED显示电路等构成智能称重器,从而实现自动秤重系统的各种控制功能。
低压铸造作为一种生产效率、能源利用率更高的铸工艺对于铸造领域特别是汽车生产制造中具有显著的优势,为了进一步改进这一工艺的应用,文中对汽车排气管采用了这一技术进行设
白羊草幼穗在附加有2,4-D1.0mg/L、水解酪蛋白500或1000mg/L的N6或MS培养基中,在25±1℃,暗光培养条件下,两周时形成0.5cm2大小的愈伤组织块。愈伤组织的发生率为84%。培养3周后形成旺盛生长的愈伤组织。其分化是在含有NAA0.5mg/L、
分析了国内外耕整地农机作业的概况,指出了目前甘蔗产区耕整地作业的无序状况,研究了甘蔗耕整地农机作业技术并提出了作业技术规范。
"整体政府"公共服务模式是在反思和扬弃传统官僚制公共服务模式和碎片化新公共管理公共服务模式的基础上形成和发展起来的。本文介绍了该模式的缘起、特征与模式,认为这种模
园林植物配置与造景设计是园林景观设计的核心部分,是园林景观设计过程中最重要的环节之一,也是最终评价园林建设工程质量的重要标准之一.简单介绍园林植物与造景在园林绿化
茶卡-共和盆地及其毗邻地区位于青海省的东部,约处于北纬34°45′~37°00′,东经98°45′~101°30′。海拔2800~5305m,面积约38300km2,属于高原大陆性气候类型。本区共有野生种
川西深层气藏具有低渗致密、破裂压力高、裂缝非均质性强、气水关系复杂等特点,水平井完井面临储层保护、井壁失稳、改造工艺难以实施、段间干扰、边底水锥进等诸多难点。在