模拟退火的投影寻踪模型在文本分类中的应用

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户:liu0686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。传统投影寻踪技术计算复杂、编程实现困难,其本质问题是投影方向不易确定,且当投影方向包含的指标较多时计算尤为不易。本文提出一种模拟退火的投影寻踪模型,该模型有效的解决了投影方向的寻优问题。本文将该方法应用于文本分类,在Reuters-21578文档集和复旦文档集上进行实验,并与基于遗传算法的投影寻踪模型进行了比较,实验结果表明此方法能有效提取投影方向,得到了很好的分类性能。
其他文献
针对中文文本信息过滤中过滤模板生成过程的非线性问题,借鉴遗传算法可以在全局范围内寻找最优解的特性,引入遗传算法解决文本分类问题,并应用一种新的基于集合论的方法证明其在
会议
财务管理其属于医院对资金进行收集与使用以及分配等一系列财务活动的计划和协调,以及控制与考核工作的整体体系,其对于医院自身的生存和发展会产生非常直接的影响.本文主要
近些年来,在社会不断的发展和前进的背景下,我国的城市化建设在逐渐的加快,全面的提高土地资源的合理利用在新时期的土地资源管理中发挥着十分重要的作用和意义,能够实现土地
双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式
会议
Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web
会议
在开放领域问题回答研究中,问题分类是首要面对的问题,也是影响问答系统性能的关键。而目前问题分类语料规模都比较小,难以满足实际应用中问题分类的需要。本文根据HOWNET 建立
会议
若干年后自己的健康状况如何?这是人们最关心的问题之一,其实要了解这种健康的发展趋势并不难,5分钟内就可来个自我测定。请依次对下列问题一一作出选择,如果您的选择与问题
本文将信息抽取中的关系抽取技术应用于专利摘要文本,抽取专利摘要文本中技术关键词间的连接关系。本文将特征分为需精确匹配特征和需近似匹配特征两类,分别定义相似性计算方法
会议
在中文对话中,大量存在着省略的现象,为了避免由于省略造成的表述模糊以及歧义等问题,本文进行了相关的研究,以中心理论作为理论依据,提出一种适用于中文对话系统或中文交互式问答
由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不
会议