文本关键词提取技术及其应用研究

被引量 : 0次 | 上传用户:hhmlyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的到来,在线文档开始涌现且其数量每天仍在急剧增加,面对如此浩大的信息资源,有效地提取对这些信息的关键内容显得十分重要。关键词提取技术对文本自动摘要生成、文本分类、文本聚类和信息检索等研究都具有重要意义。首先,本文建立了用于训练和测试的文本语料数据库,总计1000篇(其中500篇属于健康类,其余500篇属于计算机、教育、经济、房地产、历史、地理等非健康类文档)。其次,本文应用了基于TextRank的关键词提取方法。实验结果表明,用此方法获得的最高文档分类正确率为75.5%,再增加关键词数对分类结果无明显贡献。为了进一步提高分类精度,我们提出了基于TF/IDF的区分性关键词提取方法,该方法通过计算同一词语在不同组合统计量下的类间差异得到区分性关键词。实验结果表明,区分性关键词提取方法获得的最高文档分类正确率高达98.5%(关键词语数量为100)。基于TF/IDF的区分性关键词提取方法虽然在文档分类上很有效,但是都以收集大量关键词语为基础,且缺少理论基础,具有一定的局限性。因此,本文又引用了在生物技术领域中常见的SDA(稀疏判别分析)方法。实验结果证明,该方法获得的文档分类正确率为98%(关键词语数量为90),实现了在少量数据集上较高的分类效果。于是,在少量数据集上进一步提高正确率,我们又研究了基于SparseSVM的关键词提取方法。实验结果是,关键词数量分别在10、20、30时,基于SDA的方法获得文档分类正确率分别为88.5%、90.5%、91.5%,而基于SparseSVM的方法则分别为90%、92%、95.5%。这些表明,SparseSVM方法在少量数据集上更有效。为了验证上述技术的性能稳定性,本文最后还给出了基于以上四种方法的维吾尔文本情感辨识实验结果,其结果令人满意。
其他文献
随着互联网的快速发展以及移动互联网的全面普及,网民们相互沟通了解的方式越来越多样化。微博作为一个新兴的平台,以其独特的灵活性和便捷性,更加受到网民的青睐。微博给人们生
<正> 赵树理同志的小说《邪不压正》,所反映的内容是我们在一起工作时的情况。一九四七年冬将尽,到一九四八年盛夏为止,我们在河北武安县赵庄领导过填平补齐工作。这篇作品的
为了了解湖南农村初中体育教师的生活状况与职业认同状况,探讨湖南农村初中体育教师职业认同的构成。该文采用文献资料分析、访谈、问卷调查等研究方法对湖南初中体育教师职
<正>2005年中国家用电器市场整体运行状况分析销售状况从2005年我国家用电器市场各月销售收入占同期社会消费品零售总额的比重来看,1-6月基本保持在7.5%的水平, 7-11月基本保
<正> 聚碳酸酯,学名2,2—双(-4-羟基苯基)-丙烷聚碳酸酯。结构式(?)简称 PC。是一种透明、微黄色或白色的刚硬且坚韧的高分子聚合物。它无毒、无味,溶于二氯甲烷和对二恶烷。
目的观察护肝片治疗脂肪肝临床疗效。方法总结该卫生队58例脂肪肝患者采用护肝片治疗的方法及疗效。结果58例脂肪肝患者治愈30例,好转27例,总有效率98%。结论护肝片治疗脂肪
细长轴类工件在切削加工过程中,由于其长度与直径的比值不小于20,因此工件易产生弯曲变形和振动现象。切削加工过程中产生的振动现象对轴类工件的加工精度产生较大影响,同时缩减
目的:研究血清同型半胱氨酸(Hcy)、C反应蛋白(CRP)、D-二聚体水平与慢性阻塞性肺疾病急性加重病情严重程度的相关性。方法:将2016年6月至2017年6月在我院就诊的慢性阻塞性肺疾病
我国全面健身活动正处于一个全新的发展阶段,大众对健身的需求越来越强烈,参与的积极性也越来越高。但是,大众健身的场地、设施、器材、专业指导人员以及信息等资源相对缺乏,制约
新闻发言人不单单指的是一个人,而是一种制度。1983年我国政府出于外交和对外宣传的需要,正式开始建立新闻发言人制度,1988年中央进一步明确要逐步建立和完善新闻发布制度,此后,我