基于多主题空间的跨领域文本分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:sunjf2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类方法要求源领域和目标领域的特征空间具有相同的概率分布,且源领域具有足够的标签。然而,在实际应用中,这一条件往往很难满足。为此,利用源领域仅有标签来为目标领域训练一个精确的分类器的跨领域分类方法研究受到了广泛的关注。在跨领域分类中,利用特征表示来进行知识迁移是种有效的方法,其中,相对于基于原始特征空间进行迁移,采用高层概念特征的特征空间更加有效,如主题空间。此类方法采用主题模型来构建高层概念特征空间,并使领域之间的差异在此空间上最少。然而,概率主题模型如PLSA、LDA存在对初始值敏感,主题信息涵盖不全等缺陷。为此,构建多主题空间并学习得到一个更加鲁棒的跨领域分类模型具有重要的研究价值。本文针对跨领域中多主题空间方法进行研究,主要工作如下:(1)针对概率主题模型提取主题空间存在的对初始值敏感,主题信息涵盖不全问题,提出了一种基于多层主题空间再学习的跨领域文本分类算法,通过提取多层的主题空间,利用非负矩阵来对多主题空间学习并得到一个更好的主题空间,最后我们在学习后的主题空间构建独有主题空间之间的映射关系并实现跨领域文本分类。实验验证了方法的可行性和有效性。(2)针对基于单一共享主题空间的映射方式存在的语义表示不完备和偏差性等问题,提出了一种基于多桥映射的跨领域文本分类算法,通过提取多重的共享主题和领域独有主题,并以多重共享主题为桥梁来建立领域独有主题之间的多重映射关系,从而实现跨领域的分类。实验验所提算法在分类上具有优势。
其他文献
<正>为了做好中小学生的安全保护工作,自1996年起国家把每年3月份最后一周的星期一定为全国中小学生"安全教育日",但由于种种原因,目前中小学生的安全形势十分严峻。校园和校
张爱玲是二十世纪中国文坛上一个充满传奇色彩的女作家,她的小说的艺术魅力和"张爱玲式"风格总是引起一次次的轰动。《倾城之恋》、《金锁记》等作品带给读者说不尽的感慨和
磨损是造成材料失效的三大方式(腐蚀、磨损、断裂)之一,它造成巨大的材料损失和资源的浪费。因此,研究开发性能良好的耐磨材料具有重要的经济意义。本文课题采用EPMA、EDS、T
在新一轮课程改革中,作为义务教育的历史课程在现有课程建设的基础上,针对存在的问题,在《全日制义务教育历史课程标准》的设计、制定和实验中,建立了适应时代和社会需求的课
<正>TRIACE中国车队冠军车手评测车手:王磊25岁知名车手骓驰中国车队运动员曾获2013年环赛里木湖冲刺王2012年瑞典韦特恩国际超长距离公路挑战赛亚军地点:苏州渔洋山路况:山
目的:为慢性心衰治疗找到新方法,在临床上观察参萸强心汤治疗慢性心衰阴阳两虚瘀水阻络的效果。方法:将符合标准的72例患者随机分成对照组和观察组,每组各36例,对照组的患者用常
目的探讨规范化护理干预对老年卧床患者肺部感染的预防效果。方法便利选取全国6省市25所不同级别医院的老年卧床患者,将2015年11月至2016年6月就诊符合纳入标准的7 324例老年
本文选取卡梅伦挽留苏格兰演讲作为研究对象,并借鉴伯克的新修辞理论,从伯克话语"同一"修辞观来分析演讲者卡梅伦如何劝说苏格兰选民合作,达到"同一"。
农民工是中国在特殊的历史时期出现的一个特殊的社会群体。农民工已经成为当代中国的新型产业工人阶层,是工人阶级中新的有机组成部分。他们既是社会主义新农村的建设者、先
本文提出一种基于水环境容量的流域双向生态补偿标准计算方法,阐述了补偿特征、补偿原则、和生态补偿标准计算方法。使用一维对流推移方程的段尾控制模型对水环境容量进行计