基于特征空间稀疏近似的文本特征表达方法研究

来源 :科学与技术 | 被引量 : 0次 | 上传用户:stone88822
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:文本特征空间通常具有稀疏性,即可以选取一个紧支持且规模远小于原始文本数据的表达来代表原始数据而不丧失其主要特征或在某些处理操作中所得到的结果与原始文本所得到的结果相近似。近似表达非常适合于应用在文本压缩、大规模文本可视化、文本特征提取、文摘生成等领域。文本特征空间的稀疏性的一个对偶特征即是文本信息的冗余性。采用迭代阈值算法循环选择文本中特征较强的分词与句子,能够实现文本特征的有效表达同时减小文本规模。迭代阈值算法可以构建一个文本数据渐进近似的框架,从而为线性的的文本数据建立一个层次化的存储结构,从而在文本检索、文本聚类等应用领域发挥作用。试验表明,基于特征空间稀疏近似的文本特征表达能够有效地构建按需取值的文本检索与在线查询,在实际的文本检索与自然语言处理中具有很好的实际应用效果。
  关键词:迭代阈值法;文本特征空间;特征表达;文本检索;在线查询
  一 引言
  文本特征表达是基于内容的文本处理中的基础关键技术。文本特征表达需要庞大的领域词表支持,依靠具有强文本内容表示功能的特征词语进行类目或主题的区分、主题词或关键词的标引。在信息抽取和信息检索中,抽取和检索的对象很大程度上也是领域相关的。
  目前很多著名的知识库主要依靠专家手工构建,如WordNet、HowNet。除此之外,也有许多自动方法来获取领域词语,主要分为两类:基于规则和基于统计的。基于规则的方法利用人工构建好的领域词语特征字(词)库、经常与领域词语共现的指示词库和指示领域关系的关系词语库,在大规模语料中利用模板匹配的方式获取领域词语。基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。
  本文将利用文本分类中的特征提取方法在大规模分类语料中自动获取领域词语。
  二 约定说明
  在本文中将用到以下概念:
  1.领域词语
  词语表可分为通用词语和领域词语两部分,简单地说,领域词语是具有强文本表示功能的特征词语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。例如,常见的虚词性成分(“总而言之”)的文本表示功能弱,而一些领域性强的体词性成分(“封闭式基金”)则文本表示功能强。
  2.领域通用词和领域专类词
  领域词语中又可根据词语的领域流通度分为领域通用词和领域专类词。领域通用词是表示领域的基本词语,代表了该类领域的质心特征,如体育类的“比赛、球队”;领域专类词专指性强、区别度高,能将领域的详细特征区分开来,如体育类中的“世界拳击理事会、拳王”则不仅可以将体育类和其他类区分开,还能将体育类内部的小类如拳击区分出来。
  三 特征表達方法分析
  在文本自动分类中,关键的一个技术是特征提取。特征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。
  经过权重计算和特征选择后,就能生成文本类别的核心向量,这些向量中的特征词可以认为是能代表该类文本特征的类别领域词。
  权重计算和特征选择有很多计算公式,如信息增益、期望交叉熵、文本证据权、χ2 统计量等,其中最著名的是TFIDF公式。那么,权重计算和特征选择的公式究竟哪个为优呢?其实在这些公式中,关键在于特征选择时的倾向:高频词或稀有词,也就是公式中的P(w)因子起很大作用,因为一个单词出现的频繁程度,并不能说明这个单词对于分类很重要,有许多重要单词只出现很少次数,而很多次要单词却频繁出现。例如游戏类中很多的游戏名称、体育娱乐类中人名等专名,往往频次不高,却能一词定类。在以往研究者的文章中,都倾向于高频单词,其中Yang和Djujia Mladenic的文章综合比较分析了很多种特征评估函数的优劣,并特别指出,信息增益的缺点在于考虑了单词未发生的情况,互信息的缺点在于没有考虑P(w)因子,以致倾向于稀有单词。期望交叉熵克服了两者的缺点,所以效果比它们都好,同理,文本证据权也考虑了P(w),也是一种较好的评估函数。[唐焕玲等,2003]的实验表明,如果修改一下信息增益及文本证据权的公式,把它们的P(w)因子去掉,它们的权值调整效果即会大幅度提高,接近于互信息的量级。
  在第二节中,我们提到领域词语可分为领域通用词和领域专类词。其实,二者的区别是在领域区别度基础上的频率差别,即二者都具有较高的领域区别度,但在领域内的频率不同。因此,在特征选择时,我们应该充分考虑P(w)因子的作用,既要保证高频的领域通用词,又要照顾到较低频的领域专类词,这样既可满足我们对领域通用词和领域专类词的需求,又可克服特征选择时片面倾向于高频词或稀有词的缺点。
  [陈克利,2003]对TF*IDF和TF*IWF*IWFF公式进行了分析并作了一些改进。[陈克利,2003]认为关键词在某类的权重受三个因素的影响:该词在当前类中的出现频率;该词在总语料中的出现频率;该词在不同类别之间出现频率的差异。
  第一个因素由TF表示,但如我们上面的分析,类别中词的出现频率和其对该类的重要度并不完全成正比,频率在计算中起了过度的作用,应该采取频率的n次方根(n>=1)的形式消弱其影响,并且可根据n的取值随意调节,以满足对领域通用词和领域专类词的需求。
  第二个因素由IWF*IWF表示,含义为:总训练语料中出现次数越少的关键词其权重越高。但TF*IWF*IWFF(和TF*IDF)忽略了第三因素,关键词在总语料中的出现次数并不能完全说明该词在分类中的重要性,频率相同的关键词在分类中的重要性是不同的:在各类之间分布月均匀,其重要性越小;反之越大。
  方差是体现数据分布是否均匀的很好的数学指标,但从方差公式中可以看出,方差大小又受到词频大小的影响,为了消除此影响(因为词频因素已经在TF中得到表示了,方差需要的只是词频之间的差异性表示),可以用方差除以该词在各类中词频之和,于是得到公式:   表示关键词在不同类之间的分布差异性。从上面的分析可以得到关键词在类中的权重计算公式:
  其中, , 是类 含有的所有词的次数之和, 是词i在类 出现的次数;
  ,其中m为类别数; 表示训练语料中出现词 的次数,N是训练语料中所有词出现次数之和;n>=1。
  四 词语表与训练语料介绍
  (一)扩充的词语表
  词语切分一般采用最大匹配法。双向最大匹配法速度快,词表开放、格式简单易扩充,而且由于分词错误多集中于常见词,并不影响领域特征词的提取,分词结果正确率对于提取特征词可以充分接受。但是切词底的词条对领域词语抽取影响重大,特别是当大家专注于进行特征提取和特征权值计算的算法改进时,却忽视了进行提取和权重计算的特征本身(即词条)。如果词表中缺乏具有一定完整性和区别度(专指度)的领域词条,那么最先进的算法也是缘木求鱼。
  我们在原有通用词条的基础上,扩充了大量领域性强的词语,特别是短语,总词语表达32万余条词语。新增加的词语主要抽取自门户网站网页上专家标引的关键词语。“关键词”是对一个网页的主题的描述词语,更适合作为领域聚类的特征项。
  (二)训练语料
  训练用的分类语料库约1万个XML文件,1千万字。XML文件标注了语料的标题、关键词、类别(详细标明到细致的主题,如“经济-证券-债券”,共两百多个)、时间、段落等属性。具体领域和文件数分布如下:
  采用如此大规模的语料主要是考虑到如下两个因素:
  1、一个词语是否属于领域词汇关键在于它区分领域的能力,只有将词语放在整个分类系统中,比较词语在该领域与其它各个领域的出现差异,才能较好地获得这种区别能力。因此,在进行领域词语聚类时,必须将整个分类系统考虑进去,而不是只比较两三个领域。
  2、各个领域的语料量必须足够大,这样才能克服词语在语料中出现的偶然性因素,而且,随着语料规模的扩大,新的领域词语也随之增多。
  五 算法实现
  算法具体步骤如下:
  Step1:双向最大切分。同时识别出底表中没有的数字字母词。
  Step2:统计词次。统计时根据位置加权,加权时文本长度会对加权因子产生影响。例如,对一篇200字的文章和一篇1000字的文章中的标题中的词,都乘以相同加权因子,那么,1000字的文章的标题中的词的词数就会湮没在整个文章中的词的词数中了,没有体现标题中词的独特标示作用。因此,对关键字、标题加权时,应该动态加权,即按文章正文词数动态调整加权系数。标题加权底数为2,关键字加权底数为3,正文词数按200字分级,每增加一级,在原来系数上相应加1。最终词次统计公式如下:
  其中, 表示词w在正文中的计数, 表示词w在标题中的计数, 表示词w在关键词中的计数, \200(整除)。
  Step3:权重计算。按照第三节中的公式计算每个词在类中的权重,n(n>=1)参数主要原来调节词频的影响,当n取值小时,倾向于词频大的词;当n取值大时,则词频的影响减弱,倾向于词频小的词。
  Step4:特征选择。通过观察提取结果,根据不同类别的具体情况设定不同的阈值,约为3.5到5.5之间。
  六 实验和结果分析
  (一)实验与结果分析1
  我们分别对n取1、2、3、4、5、6不同的值,然后与该类未作权重计算的频率进行对比,观察权重计算及n值对特征提取的影响(限于篇幅,只列举了n为1、3、6时的情况)。下表在财经领域对五种待对比的分表中各取前30个词,按降序排列。频率这一列指只对财经领域分词后统计词频得到的分表(前30个),未做权重计算;差集指n=6时的词集减n=3时的词集后的余集。
  频率这一列中只有财经、公司、市场和企业可以算作经济类的领域词,大量出现的是那些高频常用词。通过对n取不同值时词语的观察,权重计算时n取值对词语的领域通用度(或领域稀有度)的影响显而易见,n取1时,区别度不够,出现了如:的、TOM、公司这样的词语;随着n值的加大(n=6),经济领域中高区别度的词语大量出现,很多基本上都是经济领域中独有的词语,如:半年线、金汇通、重组股、券商、重仓股、双底、超跌股、外汇通等。差集中的词也是区别度很高的词语,并且能够补充n=3时领域通用词中没有出现的词语。
  (二)实验与结果分析2
  由于没法进行召回率的测试,因此对领域词汇聚类进行评价的最简单指标是准确率。我们以经济领域为例,分别取聚类后(n=2)的前1000、2000、3000、4000、5000个词语,人工进行评测,评测时将与经济相关的专名,如机构名、人名等也作为经济领域的词语。但这种人工评价方法主观性较强,只是一个无奈的选择。评价结果如下表:
  从结果可以看出,整体效果较好。随着词语的增加,准确率逐渐下降。
  (三)实验与结果分析3
  和专家人工构建的领域词表进行比較是本节的目标。我们与北京大学合作完成的HSK(商务)词表(共2382个词语)包括由领域专家收集选择的经济领域的词语。我们与之进行了对比,
  词表1(10000)指的是我们自动聚类得到的词表(n=3,前10000个词语),词表2表示HSK(商务)词表,非表示词语不在词表中,词表2与非词表1(10000)相交的数字1109表示“出现在词表2中但不出现在词表1中的词语数为1109个”。
  从上表可以看出,二者的重合率比较低,当自动聚类的词表取前2382个时,重合率仅为0.22%。综合分析,原因如下:
  1、HSK(商务)词表所收词语以领域通用词为主,甚至包括一些领域不强的一般通用词语,如“生效、维修、实时”(皆不在我们自动聚类得到的词表中);我们自动聚类得到的词表中则偏向领域性强的领域专类词语,如“股指、蓝筹股、社保基金”(皆不在HSK(商务)词表中)。
  2、HSK(商务)词表基本上不收经济领域的专名,如公司名、经济人物名;而我们自动聚类得到的词表中含有大量专名,如“”智富基金、华夏银行、周小川(皆不在HSK(商务)词表中)。
  3、HSK(商务)词表的词条基本上是词,较少短语;而我们的切词底表中短语数多于词数,因此我们自动聚类得到的词条很多是HSK(商务)词表的词条组合,如“社保基金、机构投资者、资本市场、钢铁板块”。
  七 结语
  采用迭代阈值算法循环选择文本中特征较强的分词与句子,能够实现文本特征的有效表达同时减小文本规模。迭代阈值算法可以构建一个文本数据渐进近似的框架,从而为线性的的文本数据建立一个层次化的存储结构,从而在文本检索、文本聚类等应用领域发挥作用。试验表明,基于特征空间稀疏近似的文本特征表达能够有效地构建按需取值的文本检索与在线查询,在实际的文本检索与自然语言处理中具有很好的实际应用效果。
  参考文献
  [1]周雪忠.中文文本分类特征表示及分类方法比较研究[C].Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
  [2]唐焕玲.文本分类系统SECTSCS中若干技术问题的探讨[J].计算机工程与应用,2003,(11).
  [3]陈克利.基于大规模真实文本的平衡语料分析与文本分类方法[C].Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
  [4]钟敏娟等.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,(16).
  [5]牟廉明.数据挖掘中聚类方法比较研究[J].内江师范学学报,2003,(4).
  (作者单位:云南电网有限责任公司信息中心)
其他文献
摘要:现阶段的科技发展速度不断加快,环保法规不断加强,为了更好的服务生产、生活,需要对很多的常见电气设备做出有效的设计。布袋收尘器是比较有代表性的电气设备类型,不仅加强空间的净化能力,也较大程度的进行了废物的再回收利用,同时能够在很大程度上实现资源利用和环保,对于生产、生活而言,都可以提供较多的保障。对于布袋收尘器而言,设计制造工作,应坚持从细节上出发,加强布袋收尘器的功能;在安装调试方面,需要结
期刊
摘要:温湿度监测在很多行业的生产中都比较常见,良好的温湿度监测控制对行业生产的环境条件具有积极的意义,进而对产品的质量具有重要的影响。在新时期环境下,传统的温湿度监测手段已经逐渐落后,随着不断的探索和发展,信息技术逐渐得到了应用,以ARM为基础的无线温湿度监测控制系统逐渐得到了开发和使用,下面,本文就针对以ARM为基础的无线温湿度监测控制系统进行分析,来对其进行深入的了解。  关键词:ARM;温湿
期刊
摘要:随着石化行业的不断发展,油田的建设发展渐渐的引起人们的关注。在经济全球化的形势下,世界经济已经连成一个整体,想要在这样激烈的国际经济中取得石化方面的竞争优势,在国际油价变动的大潮中“独善其身”,做好国内的油田建设至关重要。本文就以油气田的井下作业为主要的研究切入点,从安全的角度入手,就油田井下作业生产安全事故问题展开详细分析。  关键词:油田;井下作业;生产安全;事故分析  前言  油田的安
期刊
摘要:煤矿胶带机作为摩擦驱动、连续运动的运输设备,它把原煤放于运输带中,自综采生产到煤仓进行输送。受各种因素影响,在运输期间经常会发生故障,让整个电机启动出现跳闸、胶带机撒料、噪音、胶带跑偏、打滑等各种问题,不仅影响了胶带机使用周期,也对工作带来了影响。  关键词:煤矿;胶带;安装调试;故障;分析  1导言  为了更好的促进我国工业的发展,煤矿事业的进步是关键的一步,煤炭作为我国的一类使用较为广泛
期刊
摘要:目前,我国经济发展的幅度较小,各航空部门经济仍然发展较快,高质量的航空部门管制工作决定了好的发展趋势,随着飞机飞行架数的增长,飞行路线也越来越多,这给航空部门的管制工作带来了很大的挑战,也伴随着很多的风险,这严重阻碍了空中交通管制工作的开展。本文主要研究了区域管制系统运行过程中的风险管理,并提出了相关措施解决这些问题,促进我国航空事业的发展。  关键词:区域管制系统;风险管理;运行  引言 
期刊
摘要:船舶轮机污染不仅会对海洋环境造成影响,其还会造成严重的能源浪费,甚至会造成二次污染问题。基于节能环保角度分析,采取科学措施对船舶轮机污染物排放措施进行优化,减少其污染,具有良好的处理效果。本文基于船舶轮机部污染物的排放情况进行了分析,并提出了相关优化设计措施,旨在为相关部门提供经验借鉴。  关键詞:船舶轮机部;污染物排放;回收利用;液化回收  引言  海洋贸易逐渐频繁,船舶出航运输成为贸易的
期刊
由中铁上海工程局七公司负责施工的银川北京路高架工程,全长10.6公里,合同累计造价为10.62亿,合同总工期18个月,项目管理人员44名,党员20名。项目自2014年4月全面开工建设以来,项目党组织在对外协调征迁、施工生产大干、技术革新应用、安质风险防控、人才队伍建设、党风廉政建设和项目文化建设等七个方面充分发挥党建政治工作的核心作用,有效促进了项目的生产管理,项目取得了显著的经济和社会效益。工程
期刊
摘要:本文简要介绍了光无源器件的发展现状,并对光耦合器、光开关、光波分复用器的发展趋势及全球研究现状进行了分析。  关键词:光无源器件;光耦合器;光开关;光波分复用器  1 引言  近年来,光通信发展异常迅速,作为光通信的基础——光无源器件技术也在迅速发展,指标更先进、功能更多的新型光无源器件不断涌现。因此,研究光无源器件的发展趋势,适应信息社会对光通信容量的日益增长和网络覆盖越来越广的需要已成为
期刊
摘要:随着我国民航快速发展,航班运输量持续增长,空中交通流量的快速增长给空管行业带来越来越大的挑战,对空中交通流量进行科学合理的管理的需求日益凸显。本文尝试在协同决策理念下,基于大数据技术,构建多方参与、信息共享的空中交通流量管理系统。  关键词:大数据;空中交通流量管理;协同决策  1 绪论  1.1大数据  大数据是一个体量大、类别多并且难以用传统数据库工具对其进行处理的数据集合。大数据不仅仅
期刊
摘要:随着电梯在人们生活中应用越来越广泛,电梯安全问题逐渐受到社会大众的关注。电气系统故障是电梯使用过程中常见的问题之一,为了确保电梯使用安全以及运行稳定性,本文就电气故障进行分析并针对性给出相关故障检修办法。  关键词:电梯系统;电气故障;检修;  引言  据不完全统计,约有80%-90%左右的电梯故障均来自于电梯电气控制系统故障。往往一个电梯系统会应用到多个继电器以及接触器,常见累月的二十四小
期刊