基于语义扩散核与支持向量机的半监督农业文本分类研究

来源 :赣南师范大学 | 被引量 : 0次 | 上传用户:kuwa_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术应用水平的不断提高、互联网相关产业的迅猛发展和国家对农业的大力支持,信息技术在农业农村中的应用也在不断发展、不断推广和不断深入。如何利用机器学习自动从海量的农业文本数据信息中迅速、准确地提取有价值的知识成为人们研究的重要课题。自动文本分类是数据挖掘领域研究的热点,是机器学习中处理文本信息的关键技术。本文在传统的文本分类模型基础上,提出了一种基于特征族群语义扩散核与支持向量机的半监督农业中文文本分类方法,实验表明本文所提出的方法比经典的支持向量机方法具有更高的分类准确率。为更好进行实验工作,设计了一个基于语义扩散核与支持向量机的半监督中文文本分类JAVA EE软件实验平台,详细介绍了该平台的原理、功能、优势。具体地,本文的主要工作有:(1)提出了一种基于特征族群语义扩散核与支持向量机的半监督农业中文文本分类方法,该方法主要涉及如下几个步骤:(1)数据获取及数据预处理。利用系统中爬虫程序从中国农业新闻网、中国水产网和农林网上获得相关栏目下的文档作为农业信息数据集,然后利用基于中科院的ICTCLAS中文分词算法的Ansj中文分词系统对数据集进行分词处理。(2)特征选择。利用停用词表剔除停用词,计算每个词的词频、反向词频、TF-IDF和卡方值。实验表明,随着特征项数量的增加,分类准确率会随之提升,最终逼近一个极限值。本文选择卡方统计量最高的1000个词作为特征。(3)信息向量化。这里使用向量空间模型(Vector space model,VSM)实现文本信息向量化。(4)农业文本信息分类。基于生成的向量文件,分别使用本文所提出的分类方法与经典的基于支持向量机的农业文本分类方法实现农业信息分类,并对实验结果进行了分析。(2)设计了一种可适用于小型网站的基于语义扩散核与支持向量机的半监督中文文本分类JAVA EE软件实验平台,系统基于Java EE技术和关系型数据库技术,为基于支持向量机的中文文本分类提供开放、灵活、高效、稳健的实验平台。
其他文献
目的:本研究回顾性探讨了一期双侧全髋关节置换术中内/外侧单楔型(Medial/Lateral Taper,M/L Taper)股骨柄和经典非骨水泥矩形(Link Classic Uncemented,LCU)股骨柄的临床疗
水资源、能源和粮食是人类赖以生存的三大基本要素,近年来,对“水-能源-粮食”耦合协调关系的探索已成为广泛关注的热点问题。黄土高原地区生态脆弱,水资源匮乏且供需矛盾突
在惯性约束聚变激光装置中,谐波转换系统的各项性能会对打靶激光产生十分重要的影响。为提高靶面照射的均匀性、缓解受激拉曼散射和受激布里渊散射,高效宽带光的谐波转换具有十分重要意义。本论文系统的分析了宽带倍频的矛盾点,以实现高效(转换效率>60%)宽带(带宽约30nm)倍频为目的,提出了一种新型的空间啁啾脉冲,并以此为基础分析了其应用于高效宽带倍频过程中的可行性,并进一步分析其性能。以数值模拟为主
在高功率激光驱动器系统中,晶体作为其中一个不可或缺的光学元件,主要作为主放大器系统中的普克尔斯盒(光电开关)对入射光场进行调制,并作为终端光学聚焦系统中的光束倍频转换器,用来产生紫外光;由于系统中晶体尺寸通常较大且数目较多,导致对该元件的检测维护任务相对繁重。据统计,美国国家点火装置中所用到的410mm口径的磷酸二氢钾(KDP)晶体就有576块。这些晶体在生产加工和应用中往往会因为其表面存在缺陷而
目的:探讨长链非编码RNA00238(long intergenic non-coding RNA00238,Linc00238)在乙型肝炎病毒(hepatitis B virus,HBV)生活周期中的调控作用及可能的机制。方法:利用LincRNA芯片比较HBV阳性(HBV(+))与HBV阴性(HBV(-))肝组织样本中LincRNA表达差异,根据芯片结果,最终选择Linc00238为研究对象,r
目的:以重庆医科大学附属儿童医院结核病住院患儿资料为基础,分析其流行病学动态及特点,为进一步诊治和管理儿童结核病提供数据支持。方法:对2008年1月-2018年12月重庆医科大学附属儿童医院住院治疗的3311例结核病患儿住院时间、户籍来源、性别、年龄、诊断分类等资料信息进行回顾分析。结果:住院结核病患儿总人数2008年为287人,2018年为347人,整体呈上升趋势;农村来源患儿从2008年的17
近年来,世界范围内不孕不育的发病率呈逐年上升趋势,大约10%-15%的育龄期夫妇会受到不孕症的困扰。在我国,育龄夫妇不孕不育的患病率约为25%。随着工业化的发展,在影响不孕不
柱翼缘局部屈曲变形和节点域剪切破坏是影响钢管柱-钢梁连接节点抗弯性能的关键问题,纵观钢管柱-钢梁节点的相关研究进展,国内外学者已提出多种解决上述问题的节点连接构造,但仍存在构造复杂、焊接热影响严重等问题。因此,工程中亟需一种性能良好、构造简单、易于施工的节点形式,以满足建筑结构性能需求。内插板式节点具有传力明确,性能可靠,构造简单,施工方便等优点,本文在已有研究基础上,考虑钢管混凝土柱和方、矩形钢
夹套类换热设备被广泛应用于食品、化工、医药等行业。随着近年来先进制造技术及制造工艺的迅猛发展,如高集成度的电子设备,高热流密度的车载电池等等,与之相配套的换热设备也紧锣密鼓的开始了微型化的进程。本文提出了5种内置弹簧的螺旋微细通道,以去离子水工质进行了层流状态下的相关实验,并对比分析了光滑螺旋微细通道和5种内置弹簧的螺旋微细通道内的传热和流动性能。在前者的基础,本文又继续探究了内置线圈的光滑螺旋微
铜锡硫(Cu_2SnS_3,CTS)薄膜材料由于成分无毒,元素含量丰富及较高的吸收系数(>104cm-1),元素比例易调控等优点,很适于用作薄膜太阳电池的吸收层。目前,报道的CTS薄膜太阳电池的最高转化效率仅为4.63%,远低于理论效率的30%。主要的问题在于适合用于制备器件的单斜结构的CTS薄膜带隙较低(<1eV),限制了器件开路电压的提升。另一方面,CTS薄膜一般具有很高的载流子浓