基于统计的文本分类技术研究

被引量 : 82次 | 上传用户:bianyuantuifei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,公众既感到信息资源十分丰富,同时又感觉想找到所需的信息相对较难。笔者认为原因之一是现有的信息系统还没有能够对信息资源进行有效的组织管理,解决此问题的途径很多,内容管理是其中之一,而文本分类则是所有基于内容的文本信息管理的基础,因此笔者在参与“中美百万册书数字图书馆”、“国家科学数字图书馆”等研究项目的同时,从理论、技术和实践三个方面对文本分类进行了深入的探讨,并采用文本分类技术来辅助解决了信息系统建设中资源服务、管理和采集方面的一些问题。 在信息资源服务方面,本文首先从理论上分析了文本检索和文本分类的关系。笔者认为“分类”与“检索”是密不可分的信息获取手段,它们之间能够互相促进、互相补充。常规检索方式中由于用户所给的查询条件很少,因此要检索出用户所需要的文档确实是非常困难的一项工作。因此,如果能充分地将文本分类技术应用到检索系统当中,能够有效提高文本检索的效果。本文在“中美百万册书的层次检索系统”中将分类体系与文本检索相结合,验证了上面的设想;在“基于内容的信息推荐系统”中将文本分类技术应用到检索中,在服务模式上为用户提供了基于内容的服务,在技术上对算法进行了研究,并构建了原型系统,理论上可以支持对一百万册书检索,并能够达到秒级响应速度。 在信息资源管理方面,由于海量信息资源的出现,采用人工方式进行管理越来越不切实际,采用计算机管理又达不到人工管理的精确程度。本文从理论方面指出了其中存在的核心问题,即常用的等级列举式分类体系与文本分类算法之间存在的矛盾:由于两者用来描述信息的数据结构不同,导致无法完美地相互结合,从而降低了分类算法的正确率,也不利于检索系统的构建。在“中英文物理网站分类系统”案例中,本文通过对分类体系和训练数据进行分析,取得了采用文本分类技术来进行信息资源管理的一些经验。 在信息资源建设方面,本文用“冗余网页过滤系统”来说明如何解决资源建设中的重复建设问题,在研究中主要针对算法的时间复杂度和空间复杂度进行了优化,找到了表达一篇文档的最优特征项个数数值,在确保正确率的基础上加快过滤速度。在“2002年TREC文本过滤比赛”案例中,对比了一般类目和组合类目在文本过滤中的不同之处,并通过此案例说明了如何将文本分类技术研究中的成果应用在实际文本过滤系统当中,并得到如下结论:只有将文本分类系统的各方面技术进行综合考虑,才能够最终取得更好的分类效果。 另外,本文还探讨了文本分类和文本检索评价指标之间的关系。在文本分类领域,有时也采用查全率和查准率作为评价指标,但更常用的是分类正确率。笔者通过例子来说明文本检索中仅仅采用查全率和查准率来评价检索系统所可能存在的问题,然后从理论上探讨了查全率、查准率和分类正确率之间的关系。 要想提高基于内容的信息服务质量,需要在技术方面从根本上提高文本分类 摘要算法的正确率,因此本文全面研究了基于统计的自动文本分类方法,包括特征项提取、赋权、分类器构建等问题。 l)特征提取方面主要研究了特征项降维和N元模型。为了对文档进行充分表达, 笔者对中文文本采用了多层次特征表示方法:系统通过从汉字、常用词表和专 业词表三个层次上提取文档的统计特征,从而能够更好地反映文档特征项的统 计分布规律,为提高分类正确率打下基础。 2)在特征项赋权方面,本文考察了先前的实验结果,对多种赋权方式进行了实 验,如文档频率、信息嫡、互信息和X2统计量。通过分析这些赋权方式之间的 理论矛盾和实验结果,笔者详细探讨了特征项与类别之间的关系,提出了综合 赋权方式,从多方面考虑特征项权重,并取得比单一赋权方式更好的实验结果。 3)在分类器构建方面,主要考察了三种分类器,Rocchi。、KNN和SVM。其中 KNN和SVM是公认的较好的分类器。但笔者认为Rocchi。有其自己的特点, 如能够直观地反映每个类的特征,且时间和空间复杂度都较低。在笔者的实验 当中,通过对其进行改进,并与特征选择和赋权相结合,系统的封闭测试分类 正确率可接近100%,开放测试正确率也明显提高,接近KNN和SVM算法。 本文的实验环境采用的是中国大百科全书的原文和分类体系,标准的实验数据既减少了分类体系类目之间的交叉,又保证了文档与分类体系的相关性,从根本上保证了实验结果的可信度。
其他文献
谐振器件通过检测振动元件的谐振频率或振幅的变化来测量应变、应力、加速度、压力、质量变化以及流量等,广泛应用于力学量传感器中。机械谐振式传感器精度高、信号以及频率输
生而为人,诚信是十分重要的一个品格,它代表了一个人的素质及可信程度,是个人形象重要的一部分。因此在小学阶段就应当对学生进行必要的诚信教育,在人生的初级阶段就打下良好
国务院《新一代人工智能发展规划》提出要加快人工智能深度应用,培育壮大人工智能产业,发展智能农业。人工智能技术推进农业新发展,是农业现代化生产的新方向。鉴于国外发达
随着世界经济全球化、信息化步伐的加快,作为国民经济支柱产业的制造业的竞争力直接影响着国家的竞争力乃至整体经济实力。在一系列提高企业竞争力的管理技术中,CIMS技术作为一
目的分析该院抗抑郁药的使用情况。方法采用限定日剂量方法,随机抽取该院835张处方,对其抗抑郁药的使用情况进行统计、分析。结果抑郁症的发病率女性高于男性;抗抑郁药使用频
<正>妊娠、生产是女性生命中的重要事件,是从身体巨变到心理变化的种种体验,部分孕妇会因某些原因无法自然分娩,需经剖宫产将胎儿取出以保障母婴安全,使得这些产妇经历产科与
本文首次制备了IVM的脂质体剂型,并对其在绵羊血液和乳汁中的药代动力学过程重点是药物在血浆和乳汁间的分配做了研究。 为了降低生产成本,本文对市售磷脂用吸附法进行脱色
利用超临界CO2流体萃取技术萃取迷迭香天然抗氧化剂,采用二级分离方法,研究了萃取压力、萃取温度、一级分离压力、一级分离温度、有无夹带剂及夹带剂的用量等因素对超临界萃取
SAN/PMMA共混体系是一类特殊的由于所谓“链段排斥效应”导致相容的共混体系。本论文在已有的高分子溶液理论基础上,采用流变学的方法对SAN/PMMA共混体系在溶液中的相行为进行
结合作者在实际工作中绘制和校审建筑施工图的心得体会,提出在常见的三级及三级以下的民用建筑施工图设计中容易出现和需要注意的建筑方案的合理性,绘制建筑施工图应达到的设计