【摘 要】
:
近年来,信息网络的高速发展使网络中文本数量呈指数级增长,为了能够快速地在海量文本中寻找有价值的信息,文本挖掘技术也随之迅速发展。其中,自动文本分类技术不仅为文本处理研究的热点,在实际场景中应用也最为广泛。目前常用的文本分类模型使用词嵌入模型加单一神经网络(如:Word2vec+LSTM),虽然能够在普通文本分类中取得较高的分类精度,但是在内容相近的模糊文本分类中效果却不太理想。因为此类模型中用静态
【基金项目】
:
河北省科技厅(18246224D); 国家自然科学基金(51605134);
论文部分内容阅读
近年来,信息网络的高速发展使网络中文本数量呈指数级增长,为了能够快速地在海量文本中寻找有价值的信息,文本挖掘技术也随之迅速发展。其中,自动文本分类技术不仅为文本处理研究的热点,在实际场景中应用也最为广泛。目前常用的文本分类模型使用词嵌入模型加单一神经网络(如:Word2vec+LSTM),虽然能够在普通文本分类中取得较高的分类精度,但是在内容相近的模糊文本分类中效果却不太理想。因为此类模型中用静态词向量表示文本,不能根据上下文内容自动调整;此外,此类模型仅使用单一网络提取片面特征,所以当处理内容相近的文本时,不能充分体现文本的差异,造成模糊文本分类的准确率下降。为了解决这些问题,本文采用BERT(Bidirectional Encoder Representations from Transformers,BERT)预训练模型对文本进行表示,使用多种不同的网络结构提取文本多方面特征并将其融合。另外,将标签向量引入文本表示,利用标签中隐藏的信息提升分类效果。本文的具体工作如下:(1)使用BERT预训练模型代替传统词嵌入模型进行向量表示,生成结合上下文信息的动态词向量,消除了模糊文本中存在的二义性、歧义性。(2)构建基于BERT的多特征融合模糊文本分类模型,该模型能够利用卷积神经网络、双向长短记忆网络、多头注意力机制的优点,分别提取关键字符特征、句子语义特征和句子结构特征,并且能够利用BERT生成的动态词向量对句子语义特征进行补充。最后,该模型将提取的多种特征融合,并使用Softmax分类器进行分类。(3)设计基于注意力调整的标签嵌入文本表示模型,对步骤(2)中模型的文本表示阶段进行优化。首先,使用图卷积神经网络将标签编码,然后注意力机制将文本序列与标签信息融合,得到含有标签信息的文本序列。(4)选取类别相近、内容交叉的数据作为模糊文本,分别使用(2),(3)中的模型将其分类,并与目前流行的文本分类模型进行对比,验证本文提出模型的有效性。通过上述工作,验证了基于BERT的多特征融合文本分类模型的有效性,其在模糊文本分类中准确率达到79.41%,分类效果优于传统的文本分类模型。基于注意力调整的标签嵌入文本表示模型,将标签中隐含的有效信息提取出来对特征融合模型的文本表示进行优化后,模糊文本分类准确率达到81.21%,验证了标签信息的有效性。
其他文献
行政主导型社区治理是指行政力量在社区组织运作上起主导作用的治理模式,是众多社区治理模式中较为常见的一种。行政主导型社区治理具有单中心、家长主义的特点。文章试图解答这一问题:如果制度环境对社区治理具有决定性作用,为何中国在改革开放后并没有大量形成市场经济主导型社区治理或者社会自治型社区治理,而仍然在许多城市采用行政主导型社区治理。文章以新制度主义为视角,结合个案研究方法,讨论了行政主导型社区治理的历
随着互联网及移动互联网的不断发展,数据以爆炸式的速度增长,知识图谱作为数据的一种直观并形象的表示形式,能够有效地表示数据中蕴含的知识。但由于数据的动态发展以及知识图谱构建技术的不足,目前已知的知识图谱仍然具有不完善性和错误性,因此对其进行补全成为目前的研究热点之一。在知识图谱补全过程中,对实体间的关系进行推理是非常重要的一个环节。目前的关系推理方法一方面忽视了实体间多跳路径中的隐含信息对推理结果的
协同过滤推荐算法作为当前应用率最高的个性化推荐技术,不仅迎来了机遇,也面临着重大挑战,其中,数据稀疏、冷启动、可扩展性不高等问题一直制约着协同过滤推荐算法的发展。针对以上问题,本文设计低值填充方法缓解评分数据的稀疏性;为相似度计算设计惩罚权重增加推荐的准确性;改进聚类算法提高算法的泛化性;融合专家信任因素降低冷启动的影响。本文主要做了以下两项工作。(1)提出基于数据填充和聚类的改进协同过滤推荐算法
在“雪花”商标侵权案件中,商评委认为“雪花”属于公共词汇,独创性较弱,因此即使引证商标是驰名商标,争议商标的使用仍不会造成相关公众的误认,因此并未支持驰名商标要求跨类保护的诉求,然而,一审二审法院认为虽然“雪花”是汉语常用词汇,但驰名商标的商誉极强,综合衡量后认定争议商标的使用实际会产生误导相关公众的效果。围绕着“公共元素”,现实中存在同样的侵权纠纷,却产生了同案不同判的效果。目前,对驰名商标跨类
小径管在电力、石油、化工等领域应用广泛,通常使用在高温、高压和强腐蚀等恶劣的环境下。由于小径管的焊接区域可能存在难以预料的内部缺陷,缺陷检测对于安全性预防和工业运行效率有着十分重要的意义。通过人工观察X射线探伤得到的小径管X射线焊接图像是检测缺陷常用的方法,具有效率低、检测结果受主观影响等缺点,且长时间评片也会造成人眼疲惫,影响评判的精准性。随着数字图像技术的发展,基于X射线图像,利用人工智能技术
目的 观察大剂量骨化三醇治疗血液透析继发性甲状旁腺功能亢进(SHPT)患者的临床效果,为临床提供理论参考。方法 选取2020年1月—2021年1月于广东省深圳市前海蛇口自贸区医院行血液透析SHPT患者40例,根据随机数字表法分为观察组和对照组各20例。观察组采用大剂量骨化三醇治疗,对照组患者采用常规剂量骨化三醇治疗,1个月为1个疗程,2组均连续用药3个疗程。比较2组临床疗效,治疗前后甲状旁腺体积、
目的:分析小剂量骨化三醇对维持性血液透析(MHD)患者骨保护素(OPG)的影响。方法:选取90例MHD患者开展随机对照试验(RCT),采用随机数字表将纳入对象分为两组,基础组予以基础支持治疗,研究组在基础组方法治疗的同时采用小剂量骨化三醇治疗,共3个月。对比治疗前后血清OPG水平、骨密度T值变化,治疗期间骨质疏松症发生率及不良反应。结果:治疗后研究组血清OPG水平较治疗前升高(P<0.05),基础
目的 系统评价骨化三醇对维持性血液透析(MHD)患者微炎症及钙磷代谢的疗效。方法 计算机检索万方、中国知网、中国生物医学文献数据库、维普网中文数据库,以及Pub Med、Cochrane Library、EMBase外文数据库关于使用骨化三醇对MHD患者微炎症状态及钙磷影响的随机对照试验(RCT),检索时间为建库至2022年3月。治疗组以骨化三醇为干预措施,对照组给予常规治疗或安慰剂,采用Rev
2013年修订的《商标法》增加了第五十九条第三款,规定未注册的有一定影响的在先使用商标在原使用范围内的继续使用,不侵犯注册商标专用权。此条款将在先使用商标继续使用的范围限制在原使用范围,限定使用范围的法理基础在于在先使用人善意的商标使用行为,以及由此建立起良好的商誉。对原使用范围的认定影响着在先使用商标和注册商标之间的利益平衡,同时也影响着消费者利益。然而由于没有细化的规则和系统的论证,理论和司法