基于支持向量机和核心特征词的科技文献自动标引研究

来源 :情报理论与实践 | 被引量 : 0次 | 上传用户:pgzwoaini1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献通常包括研究目的、方法、结果和结论等信息,如何将科技文献标引上这些信息,帮助科研人员在数量巨大的文献中快速发现符合研究需要的内容显得尤为重要。文章在研究分析科技文献写作特点基础上,提出了基于词、英文(专有名词、缩写词)以及数字的核心特征词提取策略;然后将科技文献标引问题转化为句子分类问题,结合提出的核心特征词,采用支持向量机分类器对科技文献进行句子级别的语义标引。通过对1168篇糖尿病医学类论文实验,证明本文提出的方法能够有效地学习和标引科技文献中的句子,进而有效地对科技文献关键信息点进行自动标引。 Scientific and technical literature usually includes research purposes, methods, results and conclusions and other information, and how to document science and technology information on this information to help researchers in a huge quantity of literature quickly find content that meets research needs is particularly important. Based on the research on the characteristics of scientific and technical documents writing, this paper proposes a strategy of extracting core feature words based on words, English (proper nouns, abbreviations) and numbers. Then, the document classification of scientific articles is transformed into sentence classification problems. Core feature words, the use of support vector machine classifier for scientific literature sentence level semantic indexing. By experimenting with 1168 articles on diabetes medicine, this paper proves that the method proposed in this paper can effectively learn and index sentences in science and technology documents, and then effectively index key information points in scientific literature.
其他文献
话剧《孔繁森》是最近山西晋京展演剧目中具有鲜明特色的主旋律作品,其中不少场面和细节感人肺腑,催人泪下,成功地表现了作为领导干部的孔繁森的坚强党性原则,作为当代英雄
经济全球化是一股不可逆转的历史潮流,它既给发展中国家带来了机遇,同时也带来了强劲的考验。面对这一历史趋势,作为发展中国家只有认清所面临的形势,才能抓住机遇,迎接考验!
一九二七年四月二十七日至五月九日,中国共产党第五次全国代表大会在武汉举行,此时正是大革命生死存亡的紧急关头,但是,中共第五次全国代表大会并没有承担起挽救革命的重任。
英国 Granada Media PL C广播公司准备以 2 6 4亿美元的代价买入自己的同行 United News and Media (U N M)广播公司 ,其中现金7 5 5亿美元 ,发行新的 Granada公司股票 18 8
他来自伊比利亚半岛,在翡冷翠一呼百应的他来到圣西罗也掩不住自己的神采飞扬,轻盈和飘逸的舞步、从容与优雅的气质是他的特点;他来自足球王国,他的身上不见生涩与清苦、独
【正】 最近,在华中电业管理局举办的会计工作达标升级现场会上,郑州电力机械厂财务科向与会代表介绍了他们在专业知识学习中的互教互学经验,引起了与会者的极大兴趣。他们的
正当中国加入WTO的脚步日益加快时,许多境外企业己开始闻风而动。不久前,久负盛名的美国模拟IC供应商—一LinearTechnologyCorP.(简称LTC,中文名凌特)在中国香港成立了办事处,之后又
本文认为,坚持以人为本、实现全面协调可持续发展的科学发展观,为我们党和人民建设中国特色社会主义事业,提供了新的理论武器。学习和掌握这个武器,用它来解决我国发展中的问题,促进和实现经济与社会,经济、社会与人,经济、社会、人与自然的科学的、和谐的发展,是我们全党和全国各族人民的伟大历史使命。
最近战友京剧团新排上演的京剧《闯王进京》创作于五十年前的胶东根据地,经历了半个世纪,再度搬上舞台,仍觉得那么新鲜而有现实意义.此剧在古为今用上的经验值得细加探究.
在7月8日进行的韩国第34届名人战循环圈赛中,安祚永七段执白4目半击败刘昌赫九段,以三胜一败的战绩与曹薰铉九段、李世石九段同居第二位,睦镇硕六段四战全胜暂居首位,尹炫皙八段、宋泰坤五段、何勇虎二段均一胜三败陷入降级的漩涡,刘昌赫九段四战全败,保级无望。