基于共现词的改进LSA模型及主题词抽取方法研究

来源 :山东财经大学 | 被引量 : 0次 | 上传用户:oraclenienan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息主题的抽取是快速定位用户需求的基础性任务,本文主要研究了文本主题词的抽取算法。词汇的权重计算是主题词抽取需要解决的最基础、最关键的问题,本文计算词汇权重时通过互信息构建共现词对,然后与词频、词性、词位置信息非线性组合,得到文档-共现词矩阵。借助潜在语义分析(Latent Semantic Analysis,LSA)模型中的奇异值分解(Singular Value Decomposition,SVD)后求得潜在语义空间的文档相似矩阵,经k-means聚类后选出互信息值最大的前几对共现词,作为该类文章的主题词。本文主要的研究内容和创新点如下。在词语信息量计算方面,传统TF-IDF(Term Frequency–Inverse Document Frequency)算法忽略了词性、词位置、词长度等词特性,这样的词权重并不能精确衡量词语对于文本的贡献度。所以本文首先考虑词性,在大量语料库的统计中发现名词、动词、形容词、副词四大主要词性,各自的百分比依次为61.98%、29.29%、3.82%、5.01%。基于这个比例改进传统的TF-IDF算法,这就是本文中提出的POS_TF-IDF算法,即基于词性的TF-IDF算法。BOW(Bag of Words)模型忽略了词语之间的相关性,为了弥补这个缺陷,本文提出将共现词考虑在内的词权重计算方法。本文中共现词的相关性贡献度用信息论的互信息计算,并论证了互信息计算共现词的正确性和合理性。此外选取文本段落作为窗口大小,共现词对出现在段落首句、尾句、中间句不同位置时,对应权重各不相同。本文综合考虑词性、共现词、词位置因素,提出COVSM模型。该模型中词权重的计算既弥补了传统TF-IDF算法孤立计算词信息的不足,又添加了词性影响因素。本文选取LSA模型抽取主题词,LSA模型的关键是SVD,本文讲解了SVD分解的数学理论,并论证了在文本分析中的物理意义,说明了文档相关性的左奇异矩阵和词汇相关性的右奇异矩阵。本文最后采用k-means算法对文档相关性矩阵聚类后,在同类文章中取词汇权重最高的前三个作为主题词抽取的结果。实验结果证明该算法抽取主题词的正确性。
其他文献
恐惧是一种与适应能力相关的基本情绪,是面对外界可知或不可知的威胁时激发的学习能力。它可以使生命体产生一系列的防御性机制。适当的恐惧具有预警作用,可以提高人类在陌生
句法结构和依存关系对评价对象和情感词之间对应关系的捕捉有重要指导作用。然而,在当前的基于机器学习的评价对象提取中确很少被使用。针对这一问题,本文通过综合分析词语间
特征选择是文本分类研究领域的基础,因此,特征选择方法的性能直接影响文本分类的精度和效果。针对卡方检验方法无法计算词语和类别相关性,因而对低频词识别性较差和得到的特
随着多媒体和计算机网络技术的发展,网络中积累了大量的数字图像,这些视觉数据给人们的使用带来了新的技术挑战.但不幸的是,很多的机器学习算法并不能直接处理这些海量数据,
上市公司高管离任及其影响是公司治理研究的重要内容,其中,关键高管离任引发的“人事地震”更是受到投资者的广泛关注。百度原总裁陆奇、联想副总裁常程、蔚来首席财务官谢东萤等上市公司关键高管的离任事件,不仅对公司的生产经营产生巨大的影响,更使公司的股价在短期内大幅“跳水”,市值受损严重。探究关键高管离任对资本市场上投资者情绪有何影响以及由此引发的市场反应,对于深入理解我国资本市场效率、深化职业经理人市场建
抑郁症是一种常见的精神疾病,属情感性障碍,呈慢性、反复发作,给患者生活、工作以及社会带来严重的影响。自上世纪50年代至今,经过几十年的发展,抗抑郁新药研发取得了许多重
太阳能清洁可再生、分布广泛且可免费获得,是一种极具开发和应用前景的能源形式之一。太阳能集热器作为集中式太阳能发电(CSP)中的塔式中央集热器的关键组成部分,实现太阳能
随着“高铁走出去战略”的实施,“中国高铁”已经成为中国现代新“四大发明”之一。大量科技文本涌入国门,这为译者提供了更多的机会,也带了更大的挑战。本实践报告选用克里斯托N·里斯齐所著的《铁路交通系统》(节选)作为研究材料。所选材料信息实用性强,语言严谨精炼。在黄忠廉教授变译理论的指导下,通过翻译该文本,以期给交通行业技术人员提供一些参考,并且证明变译理论在科技文本翻译领域的适用性。本报告是作者在黄忠
图像在采集、存储以及传输的过程中,由于图像采集设备、存储设备、传输设备的影响,图像的失真是无法避免的。因此,有一个稳定可靠的图像质量评价算法能够在图像可能出现失真
贵金属纳米颗粒阵列具有优异的表面增强拉曼散射(SERS)性能,近些年来成为SERS衬底研究的热点之一。本论文通过采用新的工艺路线,可控制备了三种高效、新颖、周期性结构的银纳米颗粒阵列。研究了阵列体系的SERS活性,探讨了增强机理,为实际检测应用提供材料基础。本论文的创新结果如下:1.基于单层聚苯乙烯胶体球模板与热蒸发工艺,在CVD生长的单层石墨烯连续薄膜上制备了三角圆环银纳米颗粒阵列,圆环尺寸可以