结合词语分布信息的TFIDF关键词抽取方法研究

来源 :中原工学院学报 | 被引量 : 0次 | 上传用户:kuibugo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。
其他文献
企业越来越多地借助众包平台实现跨组织利用外部资源,众多任务解决者共同竞争参与任务发布者发布的任务,但其中潜藏着各种不确定风险。如何提供有效的参考信息来影响解决者的
法学流派的成长至少需要核心理论、研究方法与哲学基础三大要素。以18—20世纪的分析法学派为例,其研究表明在法学流派的成长过程中,核心理论可以被修正但地位不可被撼动;研
在设计H∞回路成形控制器并将其应用于网络温度控制系统时,权函数参数的选择十分关键。但在寻找满足设计要求的权函数参数过程中,用传统的人工蜂群算法会出现收敛速度过慢、
我国从2000年开始步入老龄化社会,而且老龄化程度正在加剧,由此带来的养老问题更显迫切与现实。尤其是计划生育政策实施以来,失独老人这类特殊人群的养老问题需要引起高度重
计算机大容量硬盘及大数据的海量内容导致硬盘存储的信息越来越多,这给数据挖掘、敏感信息发现等技术提出了新的挑战。针对这一问题,本文基于当前计算机普遍采用的多核CPU处
男性,40a,以饮酒400ml 2h,伴昏迷,呼吸困难入院。当时T36℃、P106次/分、R11次/分且有不规则,口唇发绀;瞳孔0.5cm,两侧对称,光反射迟钝,以酒精中毒收住入院。即给予纳洛酮0.4mg~0.8mg(北京四
<正>关于如何出色地完成研究生阶段的学习,这是一个见仁见智的话题,笔者自认为作为一名青年教师,还无法对此问题给出一个全面的回答,只能结合自己这些年的所见、所闻、所感谈
药房及制剂室是医院经济命脉,又是医疗服务窗口,是医院一个重要部门.是药剂科最重要的部门,它担负着全院药品供应及临床制剂的调配、制备、发放、保管、监督及合理用药等大量的工
研究了不同热处理工艺对合成TizSnC材料的影响,并利用x射线衍射仪测定了合成产物的物相组成,通过扫描电镜观察其显微形貌.研究表明:以2Ti/Sn/C和Ti/Sn/TiC粉体为原料,采用传统热处理技
城市基础设施是城市存在和发展的物质基础,是保障城市经济活动和社会活动顺利进行的前提条件,也是城市现代化水平和综合实力的重要体现。本文在原有研究的基础上,以武汉市为