基于语义的文本向量表示方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:cheayu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展和普及使得人们可以快速的获取信息,反过来人们获取信息的方式也越来越依赖于互联网。人们在互联网上获取信息的主要方式是通过文本,并且互联网中的文本数目也呈现爆发式的增长。为了使人们更方便准确的找到需要的信息,互联网服务提供商需要对文本进行分类、聚类以及排序等。这些任务通常需要将文本表示成向量形式以便应用不同的机器学习模型。从用户角度来说,需要根据文本的语义来对它们分类、聚类、排序等。语义是一种抽象的,高层次的特征,而现在广泛使用的文本的词袋表示将文本看成相互独立的字符的集合,而没有考虑这些字符的语义以及它们的关联,从而导致词袋表示不够泛化。在文本向量表示中包含进文本更高层次的语义信息成为很多学者的研究目标。基于语义的文本向量表示的优点是能够将文本用低维的稠密的向量表示起来,且这种表示更加泛化,也就是说即使两个文本在表达相同意思时使用了不同的用词,它们的基于语义的向量表示也是相似的,而词袋模型不能捕捉到这种相似。主题模型,包括LDA,pLSI通过模拟文本的生成过程得到文本中隐含的主题,并将文本表示成在主题上的分布。深度神经网络能够学习到数据的不同层次的特征因此也被用来得到文本的语义表示。本文以基于语义的文本向量表示为研究对象,开展了以下工作:1.在无监督情况下,本文针对词袋模型不能考虑词之间的相似度而导致表示不够泛化的问题以及维度灾难问题提出基于词团的表示(BOWL)。词团是语义相似的词的集合,每一个词团表达了一个"概念",其相对于词是更高层次,更抽象的特征,从而在文本表示中考虑到了词的语义信息。BOWL表示的每一个维度的值使用k-max池化操作来计算。实验显示了 BOWL表示的表示有效性和表示效率。2.在有监督情况下,复杂的神经网络结构虽然能够捕捉到更准确的语义信息,但这种神经网络的训练非常耗时并且往往依赖GPU,本文在神经网络的输入层将词的词向量求平均,经过隐藏层的非线性变换得到文本的更高层次的语义向量表示,最后在文本的向量空间对文本分类。实验表明这种向量平均神经网络相对于低层次的词袋表示大大提高了分类的准确率。并且本文通过实验展示了神经网络的工作原理并分析了优化的过程。3.针对具体的在商品评论文本中抽取观点标签的任务中,传统的基于词匹配的方法不够泛化的问题提出通过计算文本间的语义相似度的方式来匹配评论文本和观点标签,并且对长句和短句本文设计不同的计算相似度的方法。这相当于通过内核方法隐式的将文本投影到语义空间计算它们的距离。实验表明这种方法大大提高了抽取的召回率,模型更加泛化。
其他文献
目的:探讨妇病手术后下肢静脉血栓患者的护理。方法:收治行妇科手术后发生下肢静脉血栓患者15例,采取有针对性的护理干预。结果:患者经过治疗和护理干预,患肢疼痛逐渐缓解,治
目的研究无创呼吸机治疗慢性阻塞性肺疾病合并呼吸衰竭的护理对策。方法选取2015年3月至2016年6月86例我院收治的呼吸内科患者(慢性阻塞性肺疾病合并呼吸衰竭),将其分组为观
介绍了广东技工教育近年来开展国际交流合作的探索实践,分析了其存在的问题和不足,并对广东技工教育如何开展国际合作、进一步提升国际化水平提出了建议意见。
简要介绍电机滚动轴承的寿命及其计算公式,通过理论计算了解电机轴承的使用寿命情况以便定期更换,避免因轴承损坏而造成电机烧坏。
针对研究广袤性设计范畴与引导性研究价值的特点,从内容、方法、成果三个层面展开探讨。在研究内容上,基于南京"山水城林"的城市特色,通过现状梳理与分析,确定"空间结构、特
随着终身教育体制的确立,利用网络进行学习的人将会日益剧增,基础教育作为终身教育体制中的一个重要组成部分,必将发生一系列的变革,如教育目的、教学手段、教学方法、教育评价等
目的探讨优质护理对预防患者膝关节僵硬康复训练的影响。方法 2013年12月~2014年12月本院共收治骨折患者157例,均行内固定术治疗,研究组79例,对照组78例,对照组患者实施常规
关于区域主义与全球主义北京大学国际政治系朱锋区域主义(regioalism)和全球主义(globalism)是冷战结束以来国际关系研究中引起普遍争论的两大问题,是对当前国际关系结构和现状发生重大变化的概括和总
中国的新课程改革始于20世纪末,对话教学也在这段时间出现。在语文阅读教学中对话更是非常重要,对话教学通过形式多样的对话来帮助学生理解文本内容,提高学生阅读能力,重视对
本文在对特色农业基本内涵认识的基础上 ,分析了重庆市发展特色农业的必要性 ;从区域经济学角度出发分析了重庆市特色农业发展的现实基础———有利条件和主要制约因素 ;并对