基于TF算法的英文科技文献关键词提取方法研究

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:charse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着学术交流的国际化水平越来越高,如何使我国读者在英文素养不高的基础上对大量的英文科技文献进行有效阅读,并且迅速获取英文文献的信息,已经成为我国学者研究的一个重要课题,关键词挖掘提取技术可以很好的将英文文献中的信息进行挖掘和提取,是一种解决我国学者对英文科技文献需求困境的可行途径。本文对英文科技文献文本关键词采用统计方法、机器学习相结合的方法进行挖掘提取,通过现有的tf-idf算法和位置权重相结合的方法实现英文科技文献关键词的提取,在提取的过程中文本的预处理、过滤词库的建立和语料库的选择是影响关键词提取技术的重要因素。本文的主要内容如下:1.建立过滤词库:通过统计对比的方式将英文科技文献中具有共性的、无实际意义的、特殊的单词提取出来形成过滤词库。2.确定候选关键词位置及其权重:将候选关键词位置进行定义和区分,并且采用统计和概率的方法分别确定文章标题、文章章节标题和正文的三类位置权重。3.提出并详细介绍P-TF-IDF算法的原理和具体步骤。通过实验对比分析P-TF-IDF算法和TF-IDF算法的不同,实验表明P-TF-IDF算法不仅能够考虑到候选关键词词频的重要性,也能够将候选关键词位置的权重考虑进来,在提取关键词的精确度上相对仅仅依靠词频的TF-IDF算法有明显的改善。
其他文献
大绒鼠(Eothenomys miletus)为横断山区的固有种.在冷驯化((5±0.5)℃;光照:12L:12D)过程中,大绒鼠体重降低,非颤抖性产热(Non-shivering thermogensis,NST)随冷驯化时间延长而显著
目的:探析醒脑静合用尼莫地平对颅脑损伤患者的治疗作用。方法:分87例颅脑损伤患者为2组,对照组予常规治疗,实验组加用醒脑静联用尼莫地平治疗,比较两组疗效。结果:治疗后实验组患
<正> OpenGL是在SGI、Microsoft、DEC、IBM和Intel等多家世界著名计算机公司的倡导下,基于SGI的GL标准,制定的一个通用共享的开放式三维图形标准。前几年,OpenGL虽然是开放式
通过施加不同用量的发酵水葫芦汁液作为追肥,研究其对大白菜生长及品质的影响.试验设置5个试验组,每组每次沼肥施用量分别为0mL(A组)、50mL(B组)、100mL(C组)、150mL(D组)、200mL(E组).定时
目的探讨重症肺炎与电解质关系,以指导临床工作。方法按照中华医学会呼吸病学分会2006年的诊断标准,回顾性分析我院2010年1月至2010年12月收治的44例成人重症肺炎患者的临床
<正> Windows的日益流行和推广并没有将DOS驱出历史舞台,相反,出于种种现实的考虑,仍有大量的用户将DOS作为软件应用平台,DOS应用软件仍然层出不穷。然而,随着软件功能需求的
本文结合工作实践,分析了我馆电子阅览室使用中常出现的问题,并探索出一套行之有效的处理及维护方法。
<正> 关系型数据库管理系统如FOXBASE和DBASE等,在我国的各种事务处理中应用非常广泛。一般地,我们使用这些文件都必须在相应的FOXBASE或DBASE环境下才能工作。但是,这些环境
简单介绍了人工智能及入侵检测,着重分析了应用神经网络、遗传算法、移动Agent的智能入侵检测,最后展望了目前的发展趋势。
利用最大气泡压力法测定表面张力 ,研究不同种类、不同浓度的表面活性剂对叶面肥料润湿性能的影响 ,并进行经济分析。