基于动词特征的文本分类方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dandu10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,用户在社交媒体和网络购物平台中产生了大量的数据,文本作为这些数据的重要表现形式,从中提取有效信息与寻找信息热点是现代自然语言处理研究的重要内容。文本分类作为文本信息处理的基础技术之一,一直是信息挖掘等领域的研究热点。在文本分类任务中,文本特征的提取及处理方法直接影响最终分类系统的分类效果。通过使用群体智能、迁移学习等技术可以更好的对文本特征进行识别和提取。本文提出了一种使用扩展后的动词特征进行分类的智能回归分类方法和一种通过迁移学习使用其他领域知识对缺乏标注的文本进行分类的方法,创新点如下:1.在使用文本表达意见、态度时,动词扮演了重要的角色。本文提出了一种通过依存句法分析提取核心动词作为特征并对动词特征进行扩展的方法。为了提高分类器的分类效果,该方法对文本中的动词特征进行了扩展,使用粒子群搜索算法从原始特征空间中寻找有效的特征映射函数,再根据这些函数将原始特征从低维空间映射至易于分类的高维空间,进而构建更合理的特征表达。2.在对动词特征进行扩展后,特征维数较高,本文提出了智能回归方法作为分类方法对扩展后的动词特征进行分类。该方法通过粒子群算法搜寻回归模型的各个参数,选取最优粒子构建分类模型。通过在电商平台评论等语料中的实验,验证了动词特征和该分类方法的有效性,该方法对统计有效用户反馈有重要意义。3.在现实的文本分类任务中,标注缺乏的情况十分常见,本文提出了一种通过其他语言的样本标注进行训练的跨语言文本分类方法。该方法通过枢纽词学习两种语言词汇在同一特征空间中的分布表示,通过编码器将文本特征映射到新的特征空间。在映射过程中,丢弃语言特征,保留语义特征。映射完成后将使用源领域的标签训练的分类器应用于目标领域,即可得到分类结果。此外,针对动词在中短文本中的核心地位和语法特性,使用动词特征对该跨语言文本分类方法做出了改进。改进的内容为使用动词特征作为特征空间的锚点,在编码器的编码过程中参考动词锚点进行编码。实验结果表明,与传统分类方法相比,跨语言文本分类方法的分类效果较好,改进后模型的分类效果得到了进一步的提高。
其他文献
鸡蛋壳蛋膜中富含的胶原蛋白、角蛋白及高分子化合物是医药、化妆品及生物工程中重要原材料,蛋壳与蛋膜分离具有一定应用价值。试验设计制造一种机械搅拌式鸡蛋壳膜分离装置,
<正>党的十七届三中全会提出了建立现代农村金融制度的要求,为农村金融发展指明了方向。目前,我国实施"扩大内需"战略,将扩大农村需求作为各项工作的重中之重,农村金融支持农
相变材料以其优良的潜热储能性能在建筑节能领域具有巨大的发展空间。将相变材料同建筑材料相结合,可以在不增加建筑物自重的情况下提高建筑物的蓄热性能,达到减小室内温度波动、改善室内环境热舒适度的效果。在实际应用中,将相变材料和建筑材料直接复合会引起热循环过程相变材料的泄露问题,对建筑材料的力学性能和耐久性产生不利影响,相变材料的微胶囊化为该问题提供了有效的解决方法。本文采用一种相变温度适宜、廉价的相变石
目的:系统研究尼泊尔老鹳草的化学成分;方法:硅胶柱色谱分离,光谱法鉴定化合物;结果:共分离鉴定了9个化合物;结论:其中7个化合物为首次从该植物中分离。
本文基于1996年8月《国务院关于农村金融体制改革的决定》发布以来的农村信用社改革进程中一系列政策措施及相关统计数据,对农村信用社10年改革进程中的的问题进行清理,探寻
随着我国经济体制从计划经济向社会主义市场经济的转变以及统计制度的深化改革,近二十年来,抽样调查作为统计调查的一种重要方法及获取统计资料的重要手段,日益受到政府各部
今天我从幼儿园园长文化的职业视角谈谈园所的特色品牌以及园所的文化发展问题。换句话说,今天我想从文化的战略上来谈一下幼儿园的战略应该怎么设立。教育的质量问题,尤其是
2016年上半年,我国第三产业对GDP同比贡献率达59.3%,而第二产业仅贡献37.5%。2015年,第三产业占GDP的比重首次超过50%,而第二产业占比下降至40%。如何看待这组统计数据所展现
目前,农业发展迎来了新的挑战,即在保证粮食产量的同时,还要尽可能保证其产量。在这一过程中,对粮食品质影响比较大的元素,是种植栽培技术。对此,种植人员要注意栽培技术的革
在目前的磁约束托卡马克装置以及将来的类托卡马克聚变装置中,偏滤器部件所处的工作环境十分恶劣,其安全、稳定运行是托卡马克实验实现长脉冲、高约束模式放电的基础。因此为