基于模糊逻辑的短文本分类算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:wilsonpfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有网络环境中不断产生大量的短文本数据,文本数据的产生必然伴随着对数据的归类,如何提高分类结果准确率,实现文本分类过程可解释,已成为当下的研究热点。然而,当前大多数的短文本分类算法都会面临如下问题:一是短文本内容中会包含诸多不确定信息且提取出的特征信息相互独立,忽略特征关联信息;二是短文本存在词汇量小、文本特征稀疏和内容不规范等问题。针对上述问题,本文在Dempster-Shafer理论框架下提出了基于幂平均(Power Average)算子和Maclaurin对称平均(Maclaurin symmetric mean,MSM)算子的新型模糊聚合算子,并在此基础上结合基于相似性分数的模糊特征提取方法设计了一种短文本分类模型。本文的研究内容具体如下:(1)设计了一种基于DST算子的多准则决策方法。首先,介绍了Dempster-Shafer理论下的犹豫模糊集的运算规则,根据这些运算规则结合幂平均算子和Maclaurin对称平均算子提出了犹豫模糊幂麦克劳林对称平均算子(DST)及其加权形式(DST),该算子符合数学运算逻辑,且可以在消除特征极值影响的同时,捕获特征之间的关联。最后,给出了一个基于该算子的多准则决策(MCDM)方法,且通过六组实验示例以及定性和定量的比较来验证该方法的可行性及相关优势。(2)提出了一种基于相似性分数的短文本特征提取方法。该方法基于人类的自然语言和思维,根据短文本训练集中词汇出现概率及所属类别相关程度计算出相似性分数,再根据该相似性分数计算四个相应特征,从而构建为一个多维特征矩阵,该特征矩阵即为从短文本中所提取的模糊特征集合,其不基于内容扩充和特征拓展,所提取的每一个特征都由短文本信息计算得出,故该特征提取方法具有可解释性。(3)设计了一种基于模糊逻辑的短文本分类算法。在这一部分中,将模糊逻辑引入短文本实体,提出一种新的短文本分类方案。短文本分类方案的主要流程为:首先对训练集进行处理形成关键词矩阵,然后根据该关键词矩阵和基于相似性分数的特征提取方法提取测试集相关特征,从而构建一个多维特征矩阵,最后采用模糊算子对特征矩阵进行聚合运算,得到多个类别的最终得分,且通过相关对比实验(大规模中文新闻数据集分类)和实际应用案例(罕见灾难事件分类)对本文所提算法的有效性和准确性以及工程上的高可用性进行了验证和相关证明。
其他文献
人体骨骼肌通过收缩带动骨骼运动,将其功能性信息嵌入人体形态框架,构建骨骼肌数字孪生体进行骨骼肌物理及生理功能模拟,对“虚拟生理人”研究具有重要意义。本文结合国内外的相关文献,首先归纳总结了骨骼肌数字孪生体构建技术构架,然后分别从骨骼肌数字孪生体建模技术、数据采集技术、仿真分析技术、仿真平台、人体医学图像数据库五个方面进行综述。在此基础上,本文指出还需要在骨骼肌模型泛化、精度提升、模型耦合等方面进行
期刊
核辐射监测是核安全的重中之重,但辐射环境监测站只是对核工业过程进行状态监测,对于关键核素的预测目前主要依赖于人工方式,准确性和实时性较差,基于数据驱动的方法或许能够有效改善这一情况;但是常规循环神经网络模型在对工业时序数据进行预测时收敛速度很慢,且不能根据实时数据及时地对模型参数进行动态调整。因此,本文针对以上缺陷,提出了一种新颖的Momentum-GRU模型,通过在GRU模型中加入可学习的动量项
会议
目的本研究采用Tee Tester数字化咬合系统,分析无症状的偏侧咀嚼者和伴颞下颌关节紊乱病(Temporomandibular disorders,TMD)症状的偏侧咀嚼者的咬合特点,为临床上偏侧咀嚼相关的TMD的诊治提供新的思路。方法1.根据调查问卷和口腔检查筛查出60名受试者,分为三组,偏侧咀嚼者40名(左侧20名,右侧20名),对照组(非偏侧咀嚼者20名)。采用Tee Tester数字化咬
学位
随着互联网在我国的迅速发展和高速普及,信息过载使得人们在获取自己感兴趣的内容时面临严峻的挑战。而推荐系统的兴起,它不仅能提高用户黏性和用户忠诚度,而且还能通过用户属性信息以及用户的历史交互行为信息来学习用户潜在的兴趣偏好,这可以帮助用户节约筛选信息的时间,提升用户购物体验以及缓解用户在购物过程中的信息过载问题。一般而言,经典的传统推荐算法只会考虑用户和商品的历史交互行为信息,而往往会忽略在真实的推
学位
在大数据时代,数据通常以高速和不断变化的形式生成。在实际应用场景中,数据通常以无标签的形式存在。数据量大且形式多种多样的特性使得人类专家不可能在有限的时间内为每一个样本打上正确的标签。与此同时,标记所有样本非常耗时且成本昂贵,有时甚至非必要。因此,半监督学习技术非常适合处理这些数据。然而,由于数据不断变化的特性使得样本服从同分布这一假设在实际应用场景很难得到满足。分布不同的数据间却有着相关性,我们
学位
偏标记学习作为一种弱监督机器学习框架,其目标是从每个训练示例对应一组候选标记集合的数据中学习一个多分类模型,其中候选标记集合中只有一个是真实标记且不能在训练阶段直接获取。从带有模糊标记信息的偏标记数据中学习的关键就是消除候选标记集合的歧义。现有的偏标记学习算法在计算示例相似度时,往往只针对特征空间,很少考虑利用候选标记空间的信息来辅助构造示例之间的相似关系。并且在消歧过程中,很少考虑候选标记不同置
学位
版画作为一门具有独特语言魅力和丰富表现形式的艺术,在中国传统艺术阵营中占据重要地位。意象是主观情感和客观形象的融合,具有丰富的内涵和情感性。创作者应将“意”与作品结合起来,在版画创作过程中注重以形写神、传神写意,连接观者的精神感悟并产生情感共鸣。
期刊
以在电力、化工、空分领域广为应用的成熟设备及参数指标为基础,提出了纯氧燃烧燃煤机组尾气压缩液化分馏回收的系统方案,从关键性的总体指标分析入手,论证了方案的工程可行性,为燃煤火电机组尾气无害化处理及资源化加工提供了新的途径。
期刊
目的:分析胃黏膜癌前状态和癌前病变的血清胃功能变化特点及幽门螺杆菌感染情况,评价不同无创筛查方案在诊断癌前状态和癌前病变中的应用价值,在体检人群中更高效地识别出胃癌高风险者,并结合其发病相关因素影响分析,提供生活方式管理的依据,最终达到提高胃癌早诊率、降低死亡率。方法:(1)纳入健康体检者,行经鼻胃镜检查并取活检,经病理结果诊断为非萎缩性胃炎、癌前状态和癌前病变者,共498例。(2)检测Hp,测定
学位
研究目的针对重症病人的病情特点,我们在前期研究基础上,结合国内外现有不同置换液特点,基于对含枸橼酸无钙置换液抗凝与传统含钙置换液在血液净化中单独加入枸橼酸抗凝应用效果的系统评价分析,通过对连续性血液净化(Continuous blood purification,CBP)应用于ICU重症患者置换液配方优化研究,确定适合重症病人代谢特点的含枸橼酸无钙置换液基础配方。在进一步有效延长重症病人血液净化时
学位