【摘 要】
:
随着生物信息学的发展,每天都有大量的文献发布到各种期刊上,面对快速增长的生命科学文献,依靠手工标注的方式难以实现高效的管理,将文本挖掘技术应用于生物医学领域能够很好的解决文献分类效率,文献分类技术可以从杂乱无序的信息中提取科研人员感兴趣的内容。本文通过机器学习分类器对文献进行分类,筛选出植物表型和基因相关的文献,提高分类的效率,具体工作如下:(1)完成了数据获取和预处理工作通过爬虫软件收集了 ME
论文部分内容阅读
随着生物信息学的发展,每天都有大量的文献发布到各种期刊上,面对快速增长的生命科学文献,依靠手工标注的方式难以实现高效的管理,将文本挖掘技术应用于生物医学领域能够很好的解决文献分类效率,文献分类技术可以从杂乱无序的信息中提取科研人员感兴趣的内容。本文通过机器学习分类器对文献进行分类,筛选出植物表型和基因相关的文献,提高分类的效率,具体工作如下:(1)完成了数据获取和预处理工作通过爬虫软件收集了 MEDLINE数据库中和植物表型基因相关的文献,对收集到的植物表型基因的文献进行预处理操作,主要包括:文献清洗、文献切分、词干提取和删除停用词。(2)构建了词袋模型、TF-IDF模型和Word2vec模型对文献进行特征处理针对植物表型基因文献中特征处理问题,对预处理后的文献特征赋予不同的权重,将文献的内容转换成向量的形式,主要依据文献中单词出现的频率、逆文档频率和文本相似度等属性,通过实验选取合理的超参数,最终对不同特征提取方法的分类效果进行评价。(3)运用了机器学习分类器对植物表型基因文献进行分类通过对现有文本分类算法优缺点的比较,选取了支持向量机、朴素贝叶斯和随机森林方法对植物表型基因文献进行分类,结合卷积神经网络,得到植物表型语料库不同分类器的分类效果。实验结果表明,植物表型基因文献数据集中,卷积神经网络的分类效果和支持向量机的分类效果相差不大,准确性都达到90%左右。支持向量机分类器的分类效果优于随机森林和朴素贝叶斯分类器的分类效果,随机森林和朴素贝叶斯分类器的准确率也在85%以上。植物表型基因文献的分类研究提高了检索效率,有助于科研人员挖掘文献背后的价值,筛选优质作物,品种,对于新理论的提出具有非常重要的意义。
其他文献
大家一看到汉语里的“的”字,马上会想到英语里的介词“of”。其实,“的”字译成英语,在不同的场合下,要使用不同的介词。请看:
Courage is one of the elements that a soldier must have to become successful in the military world. That is why a lion's head, which represents bravery, is
定语,可分为前置定语和后置定语。初中英语教材中出现了不少定语后置的情况。所谓后置定语,就是把修饰成分放在被修饰的名词或代词之后,这与汉语是有很大区别的,并且这种语法
[HY主持]同学们学习了以下三个疑问句:1.Is she at school today?(今天她来上学了吗?)2.How old is he?(他多大岁数?)3.Is your friend a boy or a girl?(你的朋友是男孩还是
夫妻间家事代理权的前身是古罗马法中的家事委任制度,虽然此制度起源于不平等社会,但伴随着时代的演进,世界许多国家或地区,纷纷确立了这一制度。在清代末期,我国就在法律上
目的总结在腹股沟无张力疝修补术中应用局部麻醉的临床经验。方法对55例在腹股沟无张力疝修补术中应用局部麻醉的临床资料进行回顾性分析。结果麻醉效果满意,术后即可进食履下
本文主要介绍一个可靠的数据传输技术,用于在1.8G频段LTE车地无线网络中可靠地传输音视频编码数据.
摘 要:本文主要对目前瓷砖生产中容易造成批量降级的抛前或抛后的色边,色痕缺陷产生的原因进行简单的分析和阐述,并把通过长期观察和试验得出来解决问题的方法和经验拿来跟大家分享和交流! 关键词:色边;批量降级;解决方法 1 前 言 所谓色边,顾名思义就是瓷砖生产过程中有些环节控制不当所产生的抛前(或者不用抛的产品)或抛后砖面边缘或中间有明显突兀的有别于图案的色痕条,这些痕条在瓷砖拼接铺贴时会更加明
目的规范的使用护理警示标识,降低护理风险,确保护理安全。方法对住院的外科226位患者进行随机分组,对照组采用常规护理方法及口头宣教方法进行相关宣教,实验组在对照组基础上使
自中国提出全球能源互联网理念以来,全球140多个国家出台了相应的能源发展政策,特高压交、直流作为全球能源互联网骨干网络取得了重要进展,全国电网步入特高压时代。直流输电