基于语义的文本分析及表示研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：bluegini2008

【摘要】

：

文本分析和表示是自然语言处理相关任务中不可或缺的重要步骤,其目的在于提取文本中与任务相关的有用信息。语义信息在自然语言处理中是非常重要的信息,但是传统的分析和表示

【作者】

：

孙一欣

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

文本表示文本分类多示例学习缩写词生成语义信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分析和表示是自然语言处理相关任务中不可或缺的重要步骤,其目的在于提取文本中与任务相关的有用信息。语义信息在自然语言处理中是非常重要的信息,但是传统的分析和表示方法都很少考虑到文本中的语义信息。随着神经网络的发展,基于深度学习的自然语言处理技术得到了广泛的运用,并且在很多任务上都取得了优于传统方法的效果,这也主要得益于神经网络能够更好的利用文本的语义信息。但是,因为神经网络在使用中存在的一些限制,现实中可能会遇到不能直接使用神经网络的情况。所以,怎样基于语义信息分析文本仍然是一个值得研究的问题。在自然语言处理中,文本长短不一,如果对所有的文本都采用相同的分析方法是不合理的。本文对长文本和短文本中如何基于语义进行文本分析和表示分别进行了研究,并结合具体的文本分类任务和英文论文标题缩写词生成任务探索有效的分析和表示方法,探索如何才能有效的利用文本中的语义信息。并且调研了当前的一些分析方法,针对这些方法中的不足之处做出了改进。在长文本和短文本的分析中,现有的分析表示方法还是主要关注于词法层面的分析,对语义信息的利用略显不足。在长文本相关任务,比如文本分类中,当前流行的向量空间模型实际是在提取词频和文档频率相关的信息,忽视了词序、词义等语义相关的信息。在短文本相关任务,比如英文论文标题缩写词生成任务中,当前的做法也是基于规则或者是把它看成一个序列化标注的问题,没有在文本分析过程中考虑语义相关的信息。本文在文本分析和表示的过程中显式的引入了文本中的词语的语义信息,用于提升文本分析和表示的效果,并且在分析的过程中引入长短文本中相关的结构信息,用于提升分析过程中对语义信息利用的效果。针对上述提到的问题,本文在长文本和短文本上探索并提出了有效的基于语义的文本分析和表示方法,具体的工作如下:1.对于长文本相关的任务文本分类,本文对文本表示的方法做出了一些改进,引入了多示例学习的理论来减少噪声对文本分类效果的影响。与以前的文本表示方法不同,本文将文本按照一定的规则划分为多个片段,然后将一个文档表示成由多个特征向量组成的包。在将一个文档划分成多个片段的过程中,本文希望尽可能的减少不同主题内容之间的相互影响,以减少分类过程中噪声的影响。实验结果表明本文的方法可以有效的提升文本分类的效果。2.对于短文本相关的英文论文标题缩写词生成任务,除了对给定的文本进行词法层面的分析之外,本文还增加了句法层面和语义层面的分析,使得本文对重要词的识别更为准确。除此之外,本文还对现有的单词建模了n-gram的语言模型,并将语言模型用于选择系统生成的候选缩写词。实验表明本文的系统在recall的指标上要优于以前的方法和一些在线系统,而且从系统生成的候选缩写词例子来看,本文提出的系统生成的缩写词更接近于作者给出的缩写词。

其他文献

超大输水功率条件下闸室明沟消能特性数值模拟研究

船闸作为最主要的通航建筑物型式,在我国的水运交通运输和经济发展中占有重要地位,为适应国家战略和经济的发展,超高水头大型船闸的建设是必然趋势。而随着船闸设计水头和平

学位

船闸超大输水功率明沟消能数值模拟水力特性

基于EEG的酒精使用障碍的识别研究

酒精使用障碍(Alcohol Use Disorder,AUD)是一种受酗酒、遗传、环境等多种因素所影响引起的慢性、反复性精神障碍,传统筛查方法的准确率会受到经验限制和主观因素的影响。通

学位

酒精使用障碍脑电信号希尔伯特—黄变换自适应差分进化支持向量机

基于循环平稳的滚动轴承故障诊断方法研究

滚动轴承是机械设备中应用广泛的部件之一,其工作状态和使用环境影响到整个机械设备生产质量和安全,尤其是当代工业向智能化发展的今天,对其进行状态监测及故障诊断研究有着

学位

滚动轴承故障诊断循环平稳EMD故障差虚拟仪器

苏通大桥桥址区实测台风非平稳风谱模型研究

进入二十一世纪,桥梁工程界掀起了跨海连岛的特大跨径桥梁建设高潮,斜拉桥作为特大跨径桥梁备选桥型之一,其发展备受瞩目。然而,随着桥梁跨度增大,结构刚度降低,大跨度桥梁的

学位

斜拉桥结构健康监测系统递归图递归量化分析非平稳风特性小波变换演变功率谱密度拟牛顿迭代法

人体膝关节建模与有限元的数据分类方法研究

膝关节是下肢活动中最为重要的关节之一,目前针对于膝关节病理诊断仅通过医护人员临床经验来判断,既缺乏针对膝关节价格低廉的医疗检测设备,又没有相对有效的辅助诊断方法。

学位

膝关节卡尔曼滤波有限元数据集SVM

博弈论在工程车辆保险研究中的应用

随着经济的迅速发展,工程车保有量的迅速增长推动了其对应车险业务的发展。纵观国内各财险公司,车辆保险业务保费收入的比重占总保费收入的60%-70%。车险业务已经成为我国财

学位

工程车辆保险欺诈博弈

基于悬臂梁翘曲的双稳态结构设计与分析

双稳态结构具有两种稳态构型,且两种稳态构型下结构都具有一定的承载能力。当对双稳态结构施加外载荷时,结构能够产生较大的变形,当外加载荷达到结构的跳变载荷后无需继续加

学位

翘曲悬臂梁双稳态结构稳定构型跳变载荷

基于粗标定的深度学习图像分割模型研究

图像分割是将感兴趣的区域与图像的其他区域进行精确分离,是图像处理中重要的一部分,是医疗上的计算机辅助诊断、解剖结构研究等方面的重要工具。准确有效的分割图像一直是人

学位

图像分割粗标定U-net网络细分割

多摄像机全景监控下视频运动目标结构化提取与管理

随着全国各地智慧城市建设的快速发展,监控设备遍布城市的各个角落,随之而来的是海量的监控视频数据,因此迫切需要一个智能化的监控系统对海量的视频数据进行处理和分析。视

学位

图像配准目标关联视频结构化视频编解码RESTful Web服务器

基于集合卡尔曼滤波的太湖叶绿素同化模拟研究

近年来,湖泊水污染及其富营养化问题日趋严重,湖泊水污染严重影响着地球生态和人们的生活环境。加强对湖泊水污染的监测与治理工作刻不容缓。数值模型模拟作为湖泊水质模拟与

学位

数据同化集合卡尔曼滤波动态BGM同化模拟模型三维水动力模型

基于语义的文本分析及表示研究

与本文相关的学术论文