基于序贯三支决策的文本数据分类

来源 :浙江海洋大学 | 被引量 : 0次 | 上传用户:jjpabc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,文本数据的大量产生,对文本进行分类以便更高效处理文本数据已成为常态,其中对文本数据的情感分类更是在商家产品改进、政治选举等领域起到了重要作用。在文本分类决策问题中,常用的方法是对文本直接采取正面或负面的二支决策分类,但是由于文本情感的特殊性,对文本直接二分类往往导致分类结果准确率低、分类效果差的问题。本文以三支决策思想为背景,对不确定信息部分采取延迟决策。文中主要工作围绕文本数据情感分类和序贯三支决策理论两方面展开。以下为本文研究工作:1.将序贯三支决策模型应用于文本数据情感分类任务中。首先,根据文本情感信息量提取文本特征。其次,根据文本情感值提取关键词频,按关键词权重构建粒度空间。接着引入序贯三支决策在不同粒度依次对数据对象三支决策,序贯边界域对象直至最细粒度根据设置阈值得到最终的文本数据情感分类结果。2.引入关联规则到文本分类任务中。首先,依据关联规则算法获取文本频繁项,得到特征词频,形成新的文本信息系统,得到了基于关联规则的序贯三支决策规则。其次,对信息系统对象进行序贯三支决策,在较粗粒度根据决策阈值三支分别划分对象至正域、边界域和负域,在最细粒度停止序贯过程,根据阈值得到二支决策结果。最后,研究了文本分类决策结果代价。根据最小决策代价原则,在决策代价上限确定的情况下,得到最小决策代价下的对象。设计相关实验,对比不同分类方法和特征提取方法得出文中研究方法有更好的文本数据分类效果。
其他文献
近年来,随着我国教育教学改革的不断发展,教育部门对提升小学教学质量的重视程度越来越高.小学数学是小学阶段难度较大的学科之一,提升小学数学教学质量,对打好学生数学知识基础以及培养学生数学学科素养等具有重要意义和作用.小学数学结构化教学强调教师遵循教学整体性和结构性特点,通过开展情境化教学等方式,强化数学知识的内在逻辑和实践价值.文章对核心素养导向下小学数学结构化教学实践的价值及原则进行了探究分析,明
期刊
本论文主要研究两种基于2,2’:6’,2"-三联吡啶的嵌段分子的合成及其在溶液中的超分子自组装以理解不同条件对基于超分子作用的自组装过程的调控。对于以不同长度柔性间隔基连接的富勒烯C60和三联吡啶的嵌段分子C60-Cn-TPY(n=4,8,12),研究其在选择性溶剂下的自组装行为,以及不同条件对其自组装结构的调控。对于由柔性链连接的具有环状拓扑结构的含有四个三联吡啶的嵌段分子Glycol-tetr
学位
海洋兴则国家兴,海洋强则国家强。国家的兴与衰、安与危与海洋事业的发展密不可分。海洋事业具有两大显著特征,一是人才集聚,二是科技密集。而科技密集离不开人才集聚。因此,海洋事业发展离不开海洋人才。通过海洋人才这个指标,可以预判地区或国家的海洋经济实力。尤其是在目前形势下,沿海省份海洋产业越来越智能,越来越高端,海洋人才培养与海洋经济发展的关系呈现越发紧密的趋势。江苏省、浙江省都位于中国沿海的中部地段,
学位
近年来,随着我国工业和科技的快速发展,水、石油、天然气等大宗物资管道运输方式的应用日益普遍。由于管道所处环境恶劣多变,在长期使用过程中,管道很容易腐蚀而产生裂缝,甚至导致破裂和泄漏事故,严重威胁着人们的生命财产安全。尤其在油轮或原油码头,油气管道数量众多,管网密布,一旦发生管道破裂和油气泄漏,损失难以估量。目前以人工为主的管道检测方式,存在难度大、效率低、危险系数高等问题,因此迫切需要研制新型自动
学位
自从“德国工业4.0”与“中国制造2025”战略对接以来,各行各业都以“数字信息化”为核心向着信息化领域发展,信息化渔业主要体现在对渔业生产流程的监测和管理。以目前市场流通的监测系统来说,大部分系统完成部署后缺乏对设备种类的有效延伸和扩展,缺乏系统间的灵活性和一定的扩展性。根据目前存在的问题进行系统设计,在系统部署完之后,可根据需求自由更换硬件终端功能的物联网监测系统。首先,基于“云网端”一体化服
学位
粒计算是数据挖掘和知识表示的一个重要方法,它在传统计算观念的基础上进行拓展延伸,使信息处理更具科学性和合理性,展现了独特的计算优势。而粗糙集理论对粒计算的研究与发展发挥了重要作用。经典的粗糙集理论主要研究完备、单粒度的信息表,即每个对象的单一属性只能取得唯一的值。但在实际应用中,通常需要处理多个尺度的数据集问题。其中如何选择最优尺度以便为最终决策保持确定性条件是目前多尺度信息表中亟待解决的问题。本
学位
温度回升是事关特高混凝土拱坝安全的核心科学问题。本文首先基于监测资料对以白鹤滩为代表的同类工程温度回升现象及影响进行分析归纳。明确该现象对结构的影响形式,进而通过真实边界条件下多场耦合仿真计算,模拟并预测白鹤滩拱坝施工、运行过程中的整体工作性态,探究相应温度回升影响机制,结论如下:(1)特高混凝土拱坝温度回升主要形成于一期冷却后7天内(温升值1~3℃)以及封拱灌浆后期(温升值大于3℃);(2)受一
学位
粒计算是问题求解中遇到有关信息粒的理论、方法、技术和工具的总称,也是当前人工智能领域的前沿热点之一。粗糙集理论从众多粒计算研究方法中脱颖而出,传统的粗糙集方法主要用于从对象具有唯一属性值的决策系统中提取规则。在现实的数据集中,对象在同一属性下通常会采取多个尺度进行度量,于是,如何根据数据集中对象的属性特征来选择最优尺度是一项亟待解决的问题。另一方面,人们对系统中数据进行知识获取,有时考虑全部数据,
学位
模糊推理是模糊集理论的重要研究内容之一,在人工智能、模糊控制、数据挖掘和专家系统等方面有着广泛的应用。众所周知,模糊推理是从多个模糊前提推得模糊结论的过程。包括CRI(compositional rule of inference)在内的众多模糊推理算法应用而生。于是衡量推理算法的有效性成为模糊推理的重要研究内容。为了衡量它们的有效性,学者们从逻辑和应用的角度提出了一些公理化标准,其中(MP)、(
学位
信息技术的发展与完善,使得人们在各个领域收集的数据爆发式增长,导致数据的内在联系更加复杂和诸多冗余信息的产生,并且实际数据常呈现不完备的特性。如何对这些不完备的现实数据进行属性约简(或称特征选择)已成为具有重要研究意义的问题。在已有的众多研究中,主要研究思想是对此类数据进行不确定性度量或补全处理。不确定性度量可以为数据的不完备性提供有效的度量指标,从而为属性约简奠定了基础。作为重要的数学分析工具之
学位