短文本跨领域分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:sorry314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本广泛地出现在微博、电商等领域,其数据规模与日俱增。另外,网络中的数据因领域不同表现出明显差异,从而使得传统的分类方法不再适用。跨领域分类旨在利用相关领域中已经积累的知识,帮助解决目标领域的分类任务。已有的跨领域分类方法大多未针对短文本进行相关研究。短文本篇幅简短,其数据有效信息较少、特征稀疏且不规范。其中,特征稀疏使分类准确率明显下降;多词同义和不规范表达减弱了特征的类别极性和特征共现,增加了知识迁移的难度。本文针对短文本进行跨领域分类的相关研究,主要工作如下:(1)针对短文本的稀疏性特点,提出一种基于特征扩展的短文本跨领域分类算法,基于谱图理论和特征共现关系,采用两层谱聚类对两个领域的共享特征和特有特征进行相似特征扩展,以降低特征的稀疏性和领域间的数据分布差异。在扩展后的数据集上训练分类模型,提升短文本上的跨领域分类效果。(2)针对短文本的特征稀疏以及多词同义问题,提出一种基于主题相关性的短文本跨领域分类算法,利用短文本词对主题模型BTM,对共享特征和特有特征分别抽取主题,语料库中的丰富信息强化了主题学习,克服了上述的问题。在此基础上,度量领域特有主题相关性将数据集映射到新的公共特征空间中以减小领域间的距离,实现跨领域分类。
其他文献
目的:通过测定肺癌患者、良性肺病患者和健康人外周血的端粒酶活性(TA),探讨其对肺癌的诊断价值。方法:对收集的细胞标本,采用PCR-TRAP-ELISA法检测了42例不同病理类型、不同临床
<正> 细菌性传染病是目前危害我国畜禽养殖业的一大类传染病,已成为广大养殖场最棘手的问题之一。菌苗和抗生素是目前细菌性传染病防治中的两项主要措施,但是,由于商品性菌苗
会议
$T近年来,学术界对壳寡糖的研究不断深入,取得了不少成果。中国科学院大连化学物理研究所天然产物与糖工程课题组(1805)经过十余年的研究,相继完成了国家“九五”、“十五”关于
报纸
刘少奇是杰出的马克思主义理论家、政治家和革命家,中共早期主要领导人之一。刘少奇的知识分子思想是刘少奇思想的重要组成部分,主要是刘少奇关于知识分子阶级属性的判定,对
目的 探讨脑胶质瘤中P14ARF、P27kipl和P53蛋白表达与不同病理级别脑胶质瘤的相关性及三者间的相互作用,并进一步研究P14ARF基因在此肿瘤中的改变,为阐明脑胶质瘤发病机制、临
自然环境问题关乎人类的生存和发展.自然环境对人的生理发展有着重要作用,这种作用尤其表现在它不仅深刻影响着不同地域人的体质,而且还与人的健康长寿、人体病变有着紧密的
随着电网规模不断扩大,智能化设备大量应用,电网运行过程中会产生海量、多元、复杂的数据,导致电网的安全管控面临着新的机遇和挑战。文章应用时间序列、聚类等大数据分析手
<正>SCM公司开发的新型柔性封边系统展示活动,将于2019年11月7日—9日在意大利北部城市Vicenza举办,客户可以在技术人员的指导和帮助下,对加工面板、封边条以及胶黏剂进行现
期刊
SCM
对于建筑工程来说,其自身设计阶段在整个工程中是非常重要的。由于目前大多数建筑工程在设计的过程中都有相应的问题存在,因此,就要对其建筑工程的设计进行优化和管理,进而保
一、项目实施地点、示范规模、主要示范技术(含高新技术和常规技术)内容、基础设施建设内容,以及项目辐射带动面积。二、项目示范意义(主要指示范技术对农业综合开发的影响和作