自然语言处理—中文词和短文本向量化的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jingqihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来计算科学飞速发展,尤其是计算机的计算能力大幅提升,机器学习和深度学习的应用越来越广泛,因此我们在自然语言处理领域的研究越来越多的运用了机器学习和深度学习的方法作为工具,在这样的情况下,自然语言处理也得到了大幅度的发展。在自然语言处理中,如何将词转换为计算机能够识别的语言是一项基础性的研究,因此词向量化和文本向量化方法的研究就显得尤为重要。传统针对文本数据的分析,往往基于词频、词频逆文本统计量作为文本的表示特征。这类方法往往只反映了文本的部分信息,忽略了文本的内在语义特征。尤其是对于短文本数据而言,关键词出现的频率通常较低,这给基于词频原理的统计模型带来了巨大的挑战。因而,本文提出了中文词语衔接的概率语言模型,其基本思想在于根据文本中词语出现的先后顺序进行建模分析,该模型在短文本数据挖掘中能够很好地针对文本语义进行量化分析。主要解决两类问题:一、如何合理地将中文词转化为数字向量,并且保证中文近义词在数字空间特征上的相似性;二、如何建立恰当的向量空间,将中文文本的语义和结构特征等信息保留在向量空间中。最后结合金庸小说人物验证中文词向量化的合理性;另一方面应用某城市房屋管理部门留言板的实际留言文本数据,借助BP神经网络和循环神经网络(RNN)两种算法,实现概率语言模型的求解。与传统文本处理方法的对比说明,本文的模型方法针对短文本语义挖掘问题具有一定的优势性。
其他文献
电力工业的发展水平是一个国家经济发达程度的重要标志。电力在我国国民经济中占有十分重要的地位,是国民经济发展的重要基础支撑,也是国民经济发展战略中的重要产业。“十三
应急管理能力和水平是国家治理现代化的重要标志之一。党的十八大以来,在习近平总书记的战略指引下,我国应急管理体系实现了里程碑式的发展。党的十九届四中全会做出的《决定
针对山西汉族民间虎头鞋制作工艺与纹饰色彩特征等问题,文章采用文献检索法、田野调查法、对比分析法与市场分析法等研究方法,基于对虎头鞋技艺传承与活态应用的角度,分析了
<正>酒店管理专业开展校企合作模式具有重大意义,是培养专业性人才的重要渠道,实现酒店、学校、学生的三方受益,这就需要构建告知院校酒店管理专业的校企合作长效机制,从而推
随着近年来嵩明县蔬菜产业规模的不断扩大,蔬菜废弃物即尾菜问题日益突出,同时牛栏江流域内保护生态安全的责任也重于泰山。根据在嵩明县建设农业废弃物资源化高效利用与持续
随着表面工程技术、新型材料及先进制造技术的快速发展,近几十年来发展起来的表面功能结构制造已成为新兴学科交叉研究的重要领域。表面功能结构制造最重要的发展趋势是按功
本文采用气相色谱法测定酒中的甲醇,色谱柱为HP-INNOWax毛细管柱(30m&#215;0.32mm &#215;0.25μm),进样分流比20:1.得到线性回归方程为Y=250.11X-13.03,相关系数r=0.9978.方
以潜江凹陷广华寺组热储层为研究对象。根据中石化最新勘探成果和油田勘探开发过程中积累的大量基础资料,结合区域地质构造条件,通过精细构造解释,查明研究区新近系广华寺组
本文介绍了机车车辆工艺汉语文献电子计算机检索技术研究中的一些有关问题,主要涉及计算机系统、主题词表的编制、文献标引、计算机程序的开发等几个重要环节。文章最后对机
<正>博物馆收藏的众多古籍是中华民族珍贵的文化遗产,对于古籍的保护工作是每个人应履行的义务。本文对博物馆古籍保护工作的要点进行讨论分析,并且在此过程中对古籍如何进行