局部文本特征选取算法的比较和改进研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:wangyaofengw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过实验比较了互信息、X^2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响。实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能。同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和X^2统计算法。另外,对于K最近邻分类算法,随着足值的增大,文本分类的查准率在增加,而查全率在降低。最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的
其他文献
我国标准文献的组织管理工作,主要是依据各级标准的代号和顺序编号进行的,这就对标准号的科学性和规范性提出了更高的要求。本文在阐述标准号的变化发展历程、现状和存在的问题
2008年10月11~17日,国际标准化组织统计方法应用标准化技术委员会(ISO/TC69)第30届年会在北京举行。这是我国首次承办国际标准化组织统计方法应用领域的会议,为增强我国在该领域
随着微电子技术的迅速发展和广泛应用,传统的煤炭工业已经发生了巨大的变革,如PLC控制系统在矿用电气设备中已经得到了广泛的运用,因此熟练掌握微电子技术已然成为新形势下对
本文以五年为一个时间段,采用共词分析方法对1998~2007年我国图书情报学科8种核心期刊文献中的高频关键词分别进行聚类分析与类团关系分析,列出了两个阶段聚类结果的类团关系表,
采用氧气为氧化剂,氢氧化钠为浸出剂,在加压条件下从高砷锑烟灰中分离砷。研究了碱性氧压体系下氢氧化钠加入量、浸出温度、液固比、氧分压、反应时间、搅拌速率对砷锑浸出率
句子相似度计算是自动问答系统的重要理论基础和关键实现技术。目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便。依据所利
关联规则挖掘是解决电子商务推荐问题的重要方法之一。针对传统关联规则挖掘算法在解决移动电子商务环境个性化推荐问题时反复扫描数据库,频繁项挖掘效率低,关联规则挖掘准确
欧洲钢铁标准化委员会(ECISS)是欧洲标准化委员会(CEN)下面一个独立的标准化协作机构。其前身是欧洲煤钢联盟(ECSC)的钢铁产品标准化协调委员会(COCOR)。COCOR自1953年起开始制定标准
新课程改革以来,我国教育事业取得了迅速发展。在一个新的时代背景下,小学语文教学必须紧跟时代步伐,做出相应的调整。教育的目标是培养学生素质的全面发展,而传统的小学语文
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录