利用小样本量机器学习实现学术文摘结构的自动识别

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:sy_2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘的文本表示特征,利用自然语言处理技术实现特征的自动提取,以此指导朴素贝叶斯、支持向量机模型进行训练,并利用训练模型自动识别文摘结构。【结果】实验证明该方法较之于同类方法能够在较少训练语料下实现较好的识别准确率。【局限】由于文摘中“方法”类别语句缺乏固定的类别特征词与核心动词,导致算法对该类别语句识别准确率较低。【结论】所提方法是一种小样本量情况下行之有效的学术文摘结构自动识别方法。 【Objective】 Automatic classification of digest sentences is realized based on machine learning algorithm with small sample size, so as to realize the automatic recognition of academic digest structure. 【Method】 The text features of many kinds of academic abstracts were designed. The natural language processing technology was used to extract the features automatically, which guided the naive Bayes and SVM models to train. The training model was used to automatically identify the structure of the abstracts. 【Result】 Experimental results show that this method can achieve better recognition accuracy with less training corpus than the same method. [Limitations] Due to lack of fixed category feature words and core verbs in Digest “Method ” category sentences, the accuracy of the algorithm in recognizing the category sentences is relatively low. 【Conclusion】 The proposed method is an effective method for automatic identification of academic abstracts in the case of small sample size.
其他文献
基于有机小分子和聚合物的光伏电池由于其材料来源丰富,制备工艺简单、成本低廉、易于实现大面积和柔性电池等优点而越来越受到人们的关注和广泛的研究。相比较而言,可溶性的小
本文介绍了利用石墨烯氧化物(Graphene Oxide,GO)的特殊结构,光致发光性质,荧光淬灭性质及其与生物分子的相容性构建了荧光生物传感器,并讨论了这些传感器在构建、优化、检测方面的
功能性核酸,如四极子,适配体等,以其特殊的结构和性能,受到了科学界极大的关注。由此,本文基于功能性核酸分子,构建了免标记生物传感器,并利用DNA分子机器将四极子结构定点引入到了D
明清时期,经济的发展与新思想的萌芽孕育着深刻的社会变革,那些独一无二的御容像、祖容像和自画像,都是个体生命的不同表达,其迸发出的微弱火光,蕴含在我们眼前看到的一幅幅
学位
广泛应用于各种物理参数测量领域的无线传感器网络,因其节点具有能量供应有限、硬件资源有限、数目众多、自组织和动态拓扑等特点,使得网络极易发生故障,从而高可靠、低故障
学位
近几年来,随着生物医药技术的发展,环境响应性高分子材料在药物控释体系中的应用研究逐渐深入。环境响应性高分子材料是指可以随着外界环境的物理或化学刺激,如温度、pH值、氧化
期刊
新媒体的迅猛发展,导致了网上舆论迅速聚集,其中叫好者有之,叫骂者也不少。针对这些现象,需要理性冷静应对,以开放的心态处置网络舆情,既不要全面否决,也不要破口对骂,更不要