基于多种权重因子的TF-IDF特征选择算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xuehua812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理作为当前计算机科学领域以及其他相关专业领域研究的一个重要课题和方向,主要致力于实现计算机与人类之间通过自然语言进行有效通信的各种方法和理念。文本分类,作为自然语言处理最为重要的应用领域之一,与我们的日常生活联系非常密切,所以对于文本分类的研究也有着非凡的意义。TF-IDF作为文本分类特征提取步骤中的一个方法,因其简单、高效的特点而被广泛运用。TF-IDF是文本分类中常用的特征项权重计算方法,但是传统的TF-IDF计算方法存在多个不足之处而导致其分类效果并不理想:(1)未考虑特征词的语义情况。特征词的词位置信息、词长度和词性等因素都会对最终的分类结果产生影响;(2)未考虑特征词类内分布情况。特征词在类内分布是否均匀会对最终的分类结果产生影响;(3)未考虑特征词类间分布情况。特征词在不同类别间分布的离散程度会对最终的分类结果产生影响。针对以上三个不足之处,本文首先提出了 TFIDF-MW1算法,特点如下:(1)为名词、动词和形容词等不同词性的词语赋予相应的词性权重系数,并且设计了一个加权因子用于降低局部关键词所造成的噪声干扰,解决了传统TF-IDF未考虑特征词词性情况和特征词所属位置情况的不足之处;(2)引入了类内分布方差计算公式,解决了传统TF-IDF未考虑特征词在所属类内分布情况的缺陷;(3)引入了类间分布变异系数计算公式,解决了传统TF-IDF未考虑特征词在所属语料库不同类别间分布情况的缺陷。针对TFIDF-MW1算法仍存在的两个不足之处提出了 TFIDF-MW2算法,特点如下:(1)对于TFIDF-MW1算法仅考虑特征词类内分布是否均匀而未考虑均匀程度类似的情况下词频所造成的干扰,引入类内分布修正因子对其补足;(2)对于TFIDF-MW1算法仅考虑特征词类间分布离散程度而未考虑离散程度类似的情况下词频所造成的干扰,引入类间分布修正因子对其补足。
其他文献
近年来,我国商业银行在快速发展的同时,也积累了一定的经营风险,表现为不良贷款规模的持续攀升,因此有效处置不良贷款成为了各家银行的一项重要议题。由于我国资本市场发展尚不健全,国内大部分企业的主要融资仍然是以银行贷款为主。我国商业银行对国民经济的作用举足轻重。保持商业银行信贷资产质量健康稳定,对不良贷款进行积极有效地处置,对于维护金融体系的稳定和国民经济的健康发展具有重要意义。相较于商业银行不良贷款的
学位
新经济形势下,小型企业的经济地位越来越高,在增加生产总值、提供劳动力岗位、创造税收等方面都具有重要地位。但是这类型的企业同时具有规模小、实力弱、管理制度与体系不健全的特点,导致其生产经营不稳定,抗风险能力较差,平均存续期较短。商业银行在为其提供信贷业务时,会遭遇到多种类型的信用风险,使得银行业绩压力较大。信贷风险普遍存在,需要商业银行在信贷活动中做好控制,其中内部控制是一个重要方面,从商业银行信贷
学位
目前H集团的内部审计的工作安排和审计工作成果渐渐难以满足H集团上升的业务总量和对于一定数量的子公司的风险管理的需求,在现阶段欲推动和提升H集团的内部控制和风险管理工作,应当对内部审计流程提出更高的要求。本文运用业务流程优化、企业风险管理的理论和方法,参考内部审计协会的内部审计流程相关规定,来分析H集团内部审计流程当前的状况及存在的问题,依照业务流程优化的研究方法,按审计流程分析、审计流程优化、优化
学位
H公司是一家依托银行渠道销售公司自主研发的贵金属文化创意产品的企业。公司运营模式的特性决定了银行渠道业务经理是其关键岗位,因此构建银行渠道业务经理的胜任力模型对该公司具有重要意义。但是H公司缺乏对业务经理岗位胜任力的考量及基于此的培训体系,培训效果不尽人意,这是急需解决的痛点。引入胜任力模型,对银行渠道业务经理培训体系进行完善,有助于提升H公司银行渠道队伍的整体素质。近年来,越来越多的研究者也在研
学位
甲醇原料廉价易得,易于存储运输;甲醇蒸汽重整制氢(MSR)反应具有高氢/碳比、低硫、工艺条件缓和、能耗低等优点,既可用于大规模固定产氢,又非常适宜开发高比能量和比功率的燃料电池移动氢源系统,是当前制氢技术的重要发展方向。此外,MSR反应能很好的解决氢气储存、运输难等问题,因此研究该反应具有重大意义。PdZn催化剂一直以来被公认为极具潜力的类铜催化剂,不仅具有与铜基催化剂类似的催化反应特性,而且具备
学位
动态共价化学已被广泛用于构筑复杂的超分子结构及化学反应网络。亚胺生成反应是最常用的动态共价反应之一,因此系统研究亚胺生成反应热力学及动力学对精确地设计与调控体系至关重要。目前通过研究亚胺生成反应热力学,已能较准确地预测产物比例,但相关动力学反应性研究较少,仍较难预测其反应速率及反应性等关键的物理化学参数,这一研究瓶颈主要是由于缺少合适的高分辨表征技术。虽然紫外-可见吸收光谱、红外光谱等光谱法可表征
学位
股权质押作为我国资本市场不断发展的新型融资手段,目前备受上市公司股东青睐,尤其是场内质押进入大众视野后,股权质押更是呈现爆发式增长,给上市公司股东带来了融资便利。与此同时,在社会不断发展的背景下,企业研发创新是企业长期发展赖以生存的核心竞争力,是国家具备核心竞争力的有力保障,但是企业研发创新面临着高度不确定性,一旦失败便会传递负面消息,甚至引发股价下跌,从而导致被质押股权面临平仓风险,因此企业研发
学位
拓展腐蚀电化学研究方法一直以来都是腐蚀与防护领域的研究热点和重要方向,特别是发展可在工业现场对有机涂层防护性能无损、快速检测及评价技术和从多维度发展微区腐蚀的研究方法显得更为迫切需求。本文针对当前的研究热点和迫切需求,第一部分工作侧重利用多重动电位扫描极化技术,完善涂层耐蚀性快速检测仪,检测和评价不同状态下有机涂层/金属体系的防护性能,并通过与其他测试结果综合比较,验证检测技术的可靠性;第二部分是
学位
石墨烯是碳原子以sp2杂化形成的单原子层厚度的二维材料,是构造其他维度碳材料的基本组成单元。自从2004年从石墨中分离得到石墨烯后,经过十几年的发展,石墨烯在基础研究与应用方面都取得重大的突破。纳米石墨烯分子作为石墨烯的重要组成片段,由于其结构的确定性、尺寸的均一性,同时具备良好的光学、电学、力学性能;在生物成像、可穿戴式传感器、场效应晶体管等方面呈现出非同一般的应用价值。石墨烯的层数控制在制备石
学位
现有的基于深度神经网络的行人重识别算法,主要聚焦于模型监督学习的算法研究。而这种基于有标签数据训练得到的模型,虽然在实验室场景下能够取得卓越的成果,但是很难被部署应用到现实场景中。这主要是因为用于训练模型的数据与实际场景中的数据分布之间存在着巨大的差异。这种分布差异的问题可以通过收集并标注与测试数据独立同分布的训练集来解决。但是在数据收集和标注的过程中,需要付出巨大的人力物力和时间成本,难以被广泛
学位