利用小样本量机器学习实现学术文摘结构的自动识别

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户：sy_2005

【摘要】

：

【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘的文本表示特征,利用自然语言处理技术实现特

【作者】

：

白光祖何远标马建霞刘建华邹益民

【机构】

：

中国科学院兰州文献情报中心,中国科学院大学,中国科学院文献情报中心,浙江师范大学经济与管理学院,

【出处】

：

现代图书情报技术

【发表日期】

：

2014年Z1期

【关键词】

：

自动识别学术文摘结构识别自动识别方法训练语料机器学习自然语言处理语句支持向量机文摘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘的文本表示特征,利用自然语言处理技术实现特征的自动提取,以此指导朴素贝叶斯、支持向量机模型进行训练,并利用训练模型自动识别文摘结构。【结果】实验证明该方法较之于同类方法能够在较少训练语料下实现较好的识别准确率。【局限】由于文摘中“方法”类别语句缺乏固定的类别特征词与核心动词,导致算法对该类别语句识别准确率较低。【结论】所提方法是一种小样本量情况下行之有效的学术文摘结构自动识别方法。【Objective】 Automatic classification of digest sentences is realized based on machine learning algorithm with small sample size, so as to realize the automatic recognition of academic digest structure. 【Method】 The text features of many kinds of academic abstracts were designed. The natural language processing technology was used to extract the features automatically, which guided the naive Bayes and SVM models to train. The training model was used to automatically identify the structure of the abstracts. 【Result】 Experimental results show that this method can achieve better recognition accuracy with less training corpus than the same method. [Limitations] Due to lack of fixed category feature words and core verbs in Digest “Method ” category sentences, the accuracy of the algorithm in recognizing the category sentences is relatively low. 【Conclusion】 The proposed method is an effective method for automatic identification of academic abstracts in the case of small sample size.

其他文献

可溶液加工A-D-A型小分子太阳能电池给体材料的合成与表征

基于有机小分子和聚合物的光伏电池由于其材料来源丰富，制备工艺简单、成本低廉、易于实现大面积和柔性电池等优点而越来越受到人们的关注和广泛的研究。相比较而言，可溶性的小

学位

太阳能电池光电转化给体材料有机合成

石墨烯氧化物在荧光生物传感器方面的应用

本文介绍了利用石墨烯氧化物（Graphene Oxide，GO）的特殊结构，光致发光性质，荧光淬灭性质及其与生物分子的相容性构建了荧光生物传感器，并讨论了这些传感器在构建、优化、检测方面的

学位

生化分析生物传感器多肽探针石墨烯膜

功能性核酸在免标记生物传感与DNA纳米结构方面的应用研究

功能性核酸，如四极子，适配体等，以其特殊的结构和性能，受到了科学界极大的关注。由此，本文基于功能性核酸分子，构建了免标记生物传感器，并利用DNA分子机器将四极子结构定点引入到了D

学位

分析化学生物测定核酸结构生物传感器

中国面孔明清时期的人物肖像

明清时期,经济的发展与新思想的萌芽孕育着深刻的社会变革,那些独一无二的御容像、祖容像和自画像,都是个体生命的不同表达,其迸发出的微弱火光,蕴含在我们眼前看到的一幅幅

期刊

人物肖像杨茂林任熊郎世宁徐显卿王致诚康熙皇帝绘画技法宫廷画家雍正年间

琼北风化淋滤型褐铁矿的还原磁化分离研究

学位

基于节点健康度的无线传感器网络冗余通路控制方法

广泛应用于各种物理参数测量领域的无线传感器网络,因其节点具有能量供应有限、硬件资源有限、数目众多、自组织和动态拓扑等特点,使得网络极易发生故障,从而高可靠、低故障

期刊

节点通路无线传感器网络节点能量汇聚节点节点健康度冗余通路控制能量消耗均衡网络网络寿命

毛细管电泳--电化学/电化学发光在药物分析中的研究

学位

多重环境刺激响应性聚醚氨酯的设计合成及其作为药物载体的研究

近几年来，随着生物医药技术的发展，环境响应性高分子材料在药物控释体系中的应用研究逐渐深入。环境响应性高分子材料是指可以随着外界环境的物理或化学刺激，如温度、pH值、氧化

学位

聚醚氨酯靶向性多重环境刺激响应药物载体释药特性

神奇的拥抱

期刊

理性开放应对新媒体舆论场

新媒体的迅猛发展,导致了网上舆论迅速聚集,其中叫好者有之,叫骂者也不少。针对这些现象,需要理性冷静应对,以开放的心态处置网络舆情,既不要全面否决,也不要破口对骂,更不要

期刊

舆论场网络舆情网上舆论公众情绪意见领袖网络舆论引导公务人员社会舆论舆情信息公众认知

利用小样本量机器学习实现学术文摘结构的自动识别

与本文相关的学术论文