中文文本主题关键短语提取算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:sxlijx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在以往的关键词提取算法中,人们忽略了两个重要的方面;一是词语长度;二是文本主题。本文考虑了以上两方面问题,针对中文文本主题关键短语提取算法进行了研究,主要研究内容如下:1.建立了一种新的面向中文文本的提取主题关键短语的算法。该算法具有以下新特性:(1)基于KERT的算法框架,将LDA主题模型与频繁短语发现算法相结合,提取综合文本集合中隐含主题的关键短语,有效缩小候选短语集的大小;(2)本文提出了改进的排序算法,能够剔除不完整的候选短语,避免提取结果中出现关键短语及其子短语共现问题,再将不同长度的候选完整短语进行排序选择;(3)本文的主题关键短语提取算法能够同时提取出短语级和词语级的中文关键词,井且能够同时适用于长文本集和短文本集.2.对建立的中文文本主题关键短语提取算法进行了实证研究,研究结果表明,本文算法提取关键短语的效果符合人们的理解,避免了关键短语及其子短语共现问题;提取效果在精准率和F1值评价指标上也均优于KERT算法。
其他文献
《龙子》是赛珍珠抗战题材小说中的扛鼎之作。在这部作品中,作者不仅基于人道主义立场声援和支持中国抗战,更是透过人文主义视角挖掘出千百年来中国农民'土地情结'背
目的:探讨脑卒中后吞咽障碍患者给予针灸结合吞咽训练的临床疗效。方法:选取2017年6月~2018年7月收治的脑卒中后吞咽障碍患者80例,按随机数字表法分为观察组和对照组各40例。
以国家四部委联合评审认定的山西省129处中国传统村落及239处省级传统村落为研究对象,应用Arcgis10.0技术平台,对山西省传统村落的空间分布特征进行分析。研究发现,山西省传
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield