中文文本关键词自动抽取方法研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:zhjjchj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.
其他文献
四月一日是一个充满笑声的日子,开心当然可以,但是记住玩笑不要开过分了,以免伤害到别人。对待他人要像你希望别人对待你那样。现在让我们一起来学学一些关于愚人节的表达吧!
大事记作为方志体裁之一,一直是我国方志体裁中不可或缺的一部分。志书的总体特征是以类系事,以横剖为主,而编年体的大事记正好弥补了全志缺乏纵贯之不足,从而使志书成为一个
《宣州谢胱楼饯别校书叔云》是诗仙李白众多诗歌精品中独具特色的一首千古名作。该诗先写虚度光阴、报国无门的痛苦,而后赞美主客双方的才华与抱负,最后以挥洒出世的幽愤作结。
临床医学是一门实践性学科,临床实习是学生将理论知识转化为实践操作能力和培养临床思维的重要环节.本校从临床实习教学管理入手,采取一系列措施贯穿于整个实践教学环节,着力
借助传播科技的迅猛发展,时代文化向图像化转向,这一转向是深刻的甚至是根本性的.作为一种新的文化形态,“图像”已经渗透于社会生活的方方面面,而其凸显出的世俗性与视觉性,
目的 探讨以案例为基础的学习(case-based learning,CBL)在麻醉学临床见习教学中的应用和效果.方法 选取2008级和2009级麻醉学系本科生313名,采用随机数字表法将其分为CBL组(
中国科学技术协会于2007年1月在国内率先发起并建立了“科技期刊与大众媒体见面会”制度,笔者所在的《中华医学杂志》每月定期参加此项活动,将源于我刊的论文成果撰写为科技
介绍了 PDF 文件在 InDesign CS2排版和校对过程中的应用。通过生成 PDF 文件,解决了其他软件制作的线条图直接导入 InDesign 中效果失真的问题,并且实现了网上 PDF 校对,阐
分析了学术出版与学术不端行为之间的关系,指出如学术期刊管理不善,会对学术不端行为起到推波助澜的作用,反之,则会在一定程度上遏制学术不端行为的泛滥。《农业工程学报》在
将软实力概念引入科技期刊领域,阐述科技期刊软实力的内涵及特征。科技期刊的软实力是社会对刊物意识形态和价值观念的认同而产生的亲和力,科学精神和发展模式的吸引力,经营