基于改进三体训练法的半监督专利文本分类方法

来源 :浙江大学学报:工学版 | 被引量 : 0次 | 上传用户:wangsong1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性.针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用.实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以
其他文献
按摩一词,见于《黄帝内经》,“形数惊恐,经络不通,病生于不仁,治之以按摩醪药……”。推拿一词,最早见于明代医家万全的《幼科发挥》,后来提到按摩,常用“推拿”代之。如今,
目的对比观察去氧孕烯炔雌醇片(妈富隆)、炔诺酮治疗围绝经期功能性子宫出血的疗效与安全性。方法选择2014年10月—2017年10月我院门诊收治的围绝经期功能性子宫出血患者300例
探索了一种PC微机上菜单编制的较简单的中文显示方法,尤其适用于实时工业控制菜单。
据说,端午节与蟾蜍的缘分颇深,民间有在端午节阳气最旺的时候取蟾蜍之毒的传统。又有传说,蟾蜍头上长有肉芝,有长生不老之效。为什么满身疙瘩的“丑”蟾蜍,在民间有这么多“
目的探讨个性化健康教育在中青年高脂血症检后自我管理的作用。方法选取中青年高脂血症患者200例作为研究对象。将其分为观察组和对照组,每组各100例。两组患者分别给予个性
针对现有基于信任的推荐方法通常直接利用社交网络的二值信任关系来提高推荐质量,较少考虑用户间信任强度的差异和潜在影响的问题,提出结合用户信任和影响力的混合推荐算法进
目的 1.分析2015—2017年芜湖市手足口病的流行病学特征,包括重症病例的时间分布、地区分布和人群分布特征。2.分析2015—2017年芜湖市手足口病病原学构成特征,及其与临床表
通过对用户的历史购物序列进行建模,得到用户稳定的长期偏好和动态的即时兴趣,并聚合长期偏好和即时兴趣进行个性化推荐.提取用户对商品的评论内容用于表示商品的特征;使用递
目的探讨利用冠状动脉介入治疗冠心病患者前后其C反应蛋白的变化情况,并分析采取中西医结合治疗对冠状动脉介入术后C反应蛋白的影响。方法选择2016年11月—2017年11月本院收
基于一维稳态热传导理论提出环形热电发电器(ATEG)的数学物理模型,考虑P型和N型热电偶臂的构型尺寸、材料热电性质不对称性以及界面接触阻力对其输出性能的影响.针对理想的环