属性加权多项式朴素贝叶斯算法及应用研究

来源 :中国地质大学 | 被引量 : 0次 | 上传用户:wlp00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅速发展,各专业领域的文本数据呈爆炸式增长趋势,如何从非结构化文本数据中挖掘出有用的信息成为一个挑战。文本分类作为处理和组织大量文本数据的关键技术,在各专业领域都有广泛的应用。常用的文本分类算法包括:朴素贝叶斯、决策树、支持向量机、深度学习等。其中多项式朴素贝叶斯由于其简单、计算高效的特点被广泛应用于文本分类问题。但是多项式朴素贝叶斯的一个主要假设是在给定文档类变量的情况下属性变量之间相互独立,这个假设在现实中往往难以成立。同时随着不断更新的文本数据呈现的各种新特征,如非线性结构、类别不平衡、数据冗余等,使得传统算法无法在分类精度和时间复杂度上达到理想的平衡效果。针对上述问题,本文从一般属性加权、类依赖属性加权、混合属性加权三个方面分别对多项式朴素贝叶斯文本分类算法进行了深入的研究。首先,围绕属性与类别的非线性关联问题,结合逆文档频率信息与深度属性加权思想,对距离相关系数进行改进,提出了一种基于改进距离相关系数的属性加权多项式朴素贝叶斯文本分类算法;其次,针对一般属性加权在加权过程中忽略属性对不同类别的贡献差异,引入类依赖属性加权思想,结合文本自身特点,对卡方统计理论进行扩展,提出了一种类依赖属性加权多项式朴素贝叶斯文本分类算法;然后,针对文本数据中属性与属性的冗余性问题,引入快速属性选择方法,结合扩展互信息理论,提出了一种混合属性选择与加权的多项式朴素贝叶斯文本分类算法;最后,研究了所提算法在地质文本数据分类中的实际应用。本文的主要研究内容如下:(1)提出了一种基于改进距离相关系数的属性加权多项式朴素贝叶斯文本分类算法(Improved Distance Correlation Coefficient-based Feature Weighted Multinomial Naive Bayes,IDCWMNB)。该算法在属性权值的设置过程中,从属性与类别之间的特征分布函数着手,结合文本数据自身异构的特点,通过引入逆文档频率对距离相关系数进行改进,提出了新的权值度量函数,改进后的权值度量函数更好地刻画了属性与类别之间的依赖关系。本文在大量标准文本分类数据集上比较了新算法与现有经典多项式朴素贝叶斯算法的分类性能。(2)提出了一种类依赖属性加权多项式朴素贝叶斯文本分类算法(ClassDependent Feature Weighted Multinomial Naive Bayes,CDFWMNB)。该算法引入类依赖思想,为每个属性在不同类别上设置了不同的权值。权值的度量综合考虑同一属性在不同类别中的分布情况,同一类别中不同属性的分布情况以及属性和类别的整体分布情况。相比传统的一维权值矢量,新算法产生的二维权值矩阵,包含信息更全面,描述更加精准。本文在大量标准文本分类数据集上比较了新算法与现有经典多项式朴素贝叶斯算法的分类性能。(3)提出了一种混合属性选择与加权的多项式朴素贝叶斯文本分类算法(Mixed Feature Selection and Weighting Multinomial Naive Bayes,MSWMNB)。该算法首先通过快速属性选择方法,过滤掉冗余属性,然后基于改进的互信息理论对所选属性进行加权。新算法的创新之一是,在属性选择和加权的过程中,评价函数均考虑了属性间的冗余性,且为了解决冗余性导致计算成本过高的问题,将快速属性选择思想引入文本分类问题;创新之二是,在属性加权过程中,结合词频信息和类别信息对互信息进行扩展,提出了新的权值度量标准。本文在大量标准文本分类数据集上比较了新算法与现有经典多项式朴素贝叶斯算法的分类性能。(4)研究了所提算法在地质文本数据分类中的实际应用。通过对工程地质勘查文本和矿产地质勘查文本进行分类,发现本文所提算法能在海量的专业文本数据中及时、准确地找到所需要的数据,挖掘蕴含在数据中的关联知识,适应多变的应用环境和专题检索的需求,比传统的多项式朴素贝叶斯文本分类算法效果更好。其结果可以为地质工程、地质矿产战略研究等提供知识支撑。
其他文献
煤层气是一种主要以吸附状态储存在煤基质表面,部分游离于煤孔隙中的烃类气体,其主要成分为甲烷,是国际上崛起的新型、清洁、优质的非常规天然气能源。我国煤层气储量约36万亿立方米,位居全球第三,可开采总量约10万亿立方米。其中,沁水盆地可开采总量达1万亿立方米以上,是我国煤层气产量最高的含煤盆地。煤层气储层保护钻井液技术是煤层气勘探开发关键技术之一,近年来清水钻井液在沁水盆地煤层气井钻井中被普遍使用,但
天然气水合物(以下简称水合物)具有资源量大、分布广和清洁无污染等优点,被国际公认为21世纪最具潜力的战略资源。20世纪90年代中后期以来,我国相继在南海北部东沙、神狐、琼东南和西沙海槽4个海区开展了天然气水合物资源综合调查与研究工作,先后发现了 22个具明显BSR异常的天然气水合物区块,圈定了 6个水合物成矿远景区、19个成矿区带、25个有利区块、24个钻探目标区,取得了一系列重大找矿成果。尤其是
S3凝析气田位于新疆维吾尔自治区轮台县,在构造上位于天山南部和亚喀拉断裂东段,主要产层为巴什基奇克组。该气藏自2007年开始开发,现平均日产油42.9吨,日产气8.9万方。由于地质构造的复杂性、严重的非均质性、低能量和高含水率,气藏开发已进入减产阶段。因此,迫切需要建立合理的储层地质模型,进而指导气藏精细开发调整。本论文综合利用各项地质、测井、录井及测试数据,建立了研究区断层模型、地层模型以及属性
河口是连接陆地与海洋的枢纽,陆源物质通过河流汇聚到河口地区。由于物理化学和生物环境的改变,河流携带的金属元素在河口地区可能发生絮凝、沉降、络合、吸附/解吸附等一系列反应,导致输入海洋的水体无法完全保留其河水特征,从而为海洋同位素质量平衡模型的估算造成一定的不确定性。全球众多河口由于地质和环境背景的差异,对同位素运移过程也会造成不同的影响,因此,获取不同河口的稳定同位素数据有利于更好地理解全球同位素
古湖平面的变化是了解过去湖相盆地演化的重要依据之一,也是窥探古气候和古环境变迁的重要窗口。湖平面变化直接控制着湖相沉积的类型及分布,与石油以及矿产资源的形成和分布关系密切,理解陆相地层层序和古湖平面变化的过程和机制具有重要的经济和科学价值。由于陆相地层自旋回显著发育、沉积间断较多、沉积中心频繁迁移以及地层年代精度通常较低等因素,十万年至百万年尺度的湖平面定量重建一直缺乏可靠的方法。此次研究所利用的
软岩地层在我国分布范围较广,随着高速铁路工程建设的迅速发展,跨越河流、山区等桥梁基础软岩嵌岩桩也得到了广泛应用。由于软岩特有的物理力学特征,软岩嵌岩桩体系,特别是桩-软岩界面力学性质与一般桩-土、桩-岩界面均存在较大差异。现行的桩基设计规范中,并未明确指出软岩嵌岩桩的设计标准,而是参照硬岩的设计标准,且不同类别规范对于软岩嵌岩桩设计标准也存在较大差异。除此之外,由于高速铁路桩基础还需承担上部列车运
二叠纪-三叠纪之交是地球演化历史上一个重要的变革时期,不仅发生了显生宙最大的生物大灭绝事件,而且陆地和海洋的沉积系统都发生了剧烈的转变。海相沉积物最直观的特点是早三叠世早期浅水相错时相沉积的出现和深水相硅质岩消失而出现泥岩和泥质灰岩为代表的黑色岩系。这些沉积物的转变记录了海洋环境、大地构造等多方面的演化特征。华南地区是全球二叠纪–三叠纪地层发育最好的地区,本论文选择位于华南中扬子北缘同一断面不同古
鄂尔多斯盆地是我国北方最重要的砂岩型铀矿勘查和开发基地。孙家梁古砂岩型铀矿床位于鄂尔多斯盆地北东部,发育有古氧化蚀变和次生氧化蚀变等不同氧化蚀变类型,存在不同期次氧化流体和多期铀成矿作用,是研究流体期次、成矿环境变化和铀矿体改造、定位非常理想又难得的地区。该铀矿床红色古氧化带几乎被后期还原改造殆尽而表现为绿色古氧化带,仅以残留形式存在。铀矿体受新生代构造影响抬升至地表,并遭受剥蚀。次生氧化含氧含铀
国民经济可持续发展的首要目标之一是建立矿产资源可持续发展应用,矿产资源可持续利用能力关系到一系列环境,安全,资源浪费问题。矿物资源有限以及传统制造业的负面环境和社会影响也促使人们对矿产可持续应用提出了需求。传统粘土矿物行业,主要使用传统方式如砌筑法、浇铸、碾压、压力机击实或夯实机夯实方法进行分层成形。在材料设计上,传统制造环节的材料配比根据经验无法实现精准的需求性能平衡,容易造成选材区域广而满足要
随着我国长江经济带发展战略规划的实施,沿江地区高速公路建设日益增多。在安徽沿江地区高速公路建设中,一种灰白色裂隙性黏土(简称“裂土”)边坡经历多次降雨-蒸发循环后发生大量边坡失稳,给高速公路运营带来了巨大的安全隐患和经济损失。区内裂土在温度和相对湿度等环境因素循环变化下,土体高度非线性行为使其开裂行为变得十分复杂,裂隙的萌生、扩展不仅降低了土体的抗剪强度,而且引起边坡渗流场变化,导致边坡稳定性显著