基于潜在语义分析的文本分割技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:baofeifly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一篇文档通常涉及多个子主题,然而传统的文本处理系统如信息检索和文本摘要以整篇文档作为基本处理单元,隐性假设文档主要讨论一个主题。如果能够准确地识别和划分文本的子主题结构,将语义段落作为文本处理的基本单元,会大大提高文本处理系统的性能。 文本分割的任务是将含有多个子主题的文档切分成多个语义段落,每个语义段落描述一个子主题,而各个语义段落之间涉及不同的子主题。本文主要探讨线性文本分割,其中每个语义段落由连续的文本片段组成。 现有的文本分割方法可以分为两类,第一类是基于词条重现的方法,认为文本片段内部词汇重复程度越高,则越有可能是一个语义段落。此类方法易于计算,对资源要求较低,但是忽略了词之伺潜在的语义关系对语义连贯性的影响,造成分割的准确率下降。第二类方法利用语言学资源(如词典和训练语料)来挖掘词间的语义关系,并将这些语义知识引入语义连贯性的计算。此类方法对资源要求较高,分割性能较好。 本文主要研究了把潜在语义分析(LSA)用于文本分割的效果。潜在语义分析能够通过词出现的上下文来估计词间潜在的语义关系。通过对词频矩阵进行奇异值分解,词被表示为低维语义空间上的特征向量,由此可以计算词与词、句子与句子之间的语义相似度。 本文设计实现了一个基于潜在语义分析的文本分割算法,在对文档中的词进行潜在语义分析的基础上,采用分裂式聚类(divisive clustering)对文档进行分割,并自动确定分割的语义段落数目。实验结果显示,与基于词重现的Baseline算法相比,本算法取得了更好的Pk值评价结果,表明LSA对于提高文本分割的性能有比较明显的作用。本文还对几种可能影响分割性能的因素进行了分析。
其他文献
伴随着物联网技术的迅速发展及城市化进程的加快,智能交通应用迅速崛起。新型城市交通基础设施不断兴建,车流量快速增长,监控系统越来越庞大。通过视频识别摄像头、GPS车辆定位
目前,现有的安全产品如IDS、FW只是从特定角度满足了一部分的安全需求,而现在企业部门却急需能够对网络整体安全现状进行简单、直观、全面掌握的产品。 本文根据人民银行的
近年来,随着信息技术的不断发展和数据库技术的成熟应用,企业业务数据飞速增长,除去数据本身的信息,数据之间还蕴藏着大量的对企业管理决策有益的潜在因素。如何有效地将这种隐藏
随着信息技术的发展,物联网越来越多的应用到像智能交通、智能家居、智能医疗等的智能应用行业中,以传感设备为基础的各类流式数据的实时接收和处理成为物联网智能应用的关键。
医疗信息系统,是一门容医学、信息、管理、计算机等多种学科为一体的边缘科学。是现代化医院运营的必要技术支撑和基础设施,实现医疗信息系统的目的就是为了以更现代化、科学化
随着Internet的迅猛发展,IPTV正以其越来越强大的力量冲击着传统意义的有线电视,不过在国内,IPTV仍处于商用试运营阶段。IPTV多业务运营支撑系统就是为了适应和促进IPTV业务的发
随着移动互联网、物联网、社交网络等新技术产生和发展,人们已经从信息匮乏时代过渡到了信息过载(information overload)时代。博客、社交网络服务SNS(Social Networking Serv
随着移动互联网和物联网的快速发展,数据开始爆炸式的产生并在庞大的网络上传递,整个人类社会步入到了一个“大数据”的时代,如何存储、共享和利用这些海量数据成为我们当前这个
生物信息学是20世纪80年代末,随着人类基因组计划的不断发展、基因序列和蛋白质数据的急速增加、以及信息理论和计算机技术的不断发展而逐渐形成的。我们可以利用计算机技术对
作为实用化人工智能的一个最新的研究领域,专家系统在社会各领域的应用已经越来越广泛。专家系统的研究方向主要是知识获取、推理机制研究、实时处理以及扩大专家系统的应用范