一种面向文本分类的特征迁移方法

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:lovemy521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类方法假设训练集与测试集中的特征词服从相同的概率分布,但在实际应用中,以上假设存在偏差,会影响到最终的分类结果。针对这一情况,本文采用迁移学习,通过计算特征词的迁移量对训练集中向量空间模型进行修正,最终使训练集与测试集中特征词的分布概率趋于一致。将提出的方法应用于中文垃圾邮件过滤与中、英文网页分类中,在CHI统计特征选择基础上进行特征迁移,实验结果表明新方法可以有效消除特征词分布的差异性,使文本分类的各项指标明显提高。
其他文献
通过表型聚类和SSR分子标记聚类研究了国内外57份棉花种质的遗传多样性。结果表明,品种间遗传相似系数在0.45~5.56之间,说明供试种质具有较大的遗传变异。根据UPGMA法构建聚
目前利用声发射技术对混凝土结构进行裂缝定位或损伤检测时,并没有考虑已存在裂缝对声发射波传播特征的影响,这往往会使检测结果产生较大的偏差.为了探究裂缝参数对声发射波
为了研究环氧胶在钢-混组合板中作为粘结层的适用性,以无配筋的超高性能混凝土作铺装层的钢桥面板为对象,采用环氧胶层连接两种材料,并考虑钢板表面处理不佳的涂胶情况,通过
斑马鱼作为一种典型的有脊椎模式动物,因其幼鱼具有与人类基因相似度高、身体透明方便观察等特点在生物医学领域被广泛研究.其中识别和监测斑马鱼幼鱼心脏对研究心血管疾病的
碳酸盐岩储层具有异常复杂的非均质性,碳酸盐岩岩溶作用研究是当今储层沉积学和储层地球化学研究的重要前缘领域。塔河油田所处的阿克库勒凸起是在前震旦系变质岩基底上长期
从比较文体学角度出发,通过英汉平行文本,以定量与定性相结合的方法,分析《四世同堂》与其英译本The Yellow Storm中的凸显。可以发现,英汉平行文本中只存在质的凸显,不存在
2020年3月份,全国工业生产者出厂价格同比下降1.5%,环比下降1.0%;工业生产者购进价格同比下降1.6%,环比下降1.1%。一季度,工业生产者出厂价格比去年同期下降0.6%,工业生产者
在总结水稻传统淹水灌溉方式及现行节水灌溉方式的基础上,研究提出了水稻“淹灌-露田”灌溉模式,该模式具有减少灌水次数,减轻灌溉管理的劳动强度,减少斗农渠的输水时间从而提高输
随着工业自动化水平的不断提高和电力电子技术的发展,水工程中采用高压变频调速技术越来越多,政府号召节约资源、企业需要降低生产成本、市场呼吁节能技术和产品,而变频技术
期刊