中文网页分类特征提取算法探讨

来源 :中山大学 | 被引量 : 0次 | 上传用户:q344494
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅猛发展使得网页分类技术的应用越来越广。这种技术通过将web网页进行分类、组织和检索,达到有效组织处理海量网页的目的,它是主题搜索、个性化信息检索、搜索引擎的目录导航以及信息过滤等领域的核心技术。   网页提供的特征通常多达数万个,直接基于这数万个变量的建模难度相当大,这就使得特征提取成为网页分类的一个关键步骤。但是,传统特征提取方法存在两个明显的不足:其一,传统的MI度量方法过分倾向于低频词和小样本类别,降低了抽取出的特征的代表性。其二,传统的特征选择方法只是简单地按特征度量的分值依次选取具有最大分值的特征,忽略了特征的组合对类别的偏向程度,导致单个特征较优,但组合起来却未必最优,从而降低了分类器的性能。   本文的主要创新之处在于,在MI(互信息)度量的基础上提出一种新的度量-MIDN特征度量(定义见4.2.2节),并提出两种新的特征选择方法:BBS_S(BiasBalanced Selection by Score)和BBS_N(Bias Balanced Selection by Number)算法(见4.3.2节)。这两种方法分别以每个类别获得的类偏向度、特征个数的方差最小为目标,修正了传统方法造成的特征对类别的偏向程度不一致的问题。在搜狐门户网站的新闻库数据上的实验证明,本文提出的两种新算法,比传统算法的分类性能要更好。
其他文献
文件校核是办公厅(室)的一项重要工作。在党和国家的历史上,很多为国操劳、日理万机的中央领导同志,不但非常重视这项工作,而且本人也是极端负责、精益求精修改文件的典范和
本文通过对荣华二采区10
期刊
现代社会是一个信息时代,怎样才能使电脑应用于教学当中,让多媒体辅助教学成为现代化教育中的一种有效手段?本文主要就是从五个方面入手阐述了教学实践中运用计算机辅助优化数学
“新鲜”是大家选择蔬菜时的首要标准,而挑南瓜时却未必如此。  其实,不同于多数蔬菜,南瓜是越老越好。因为南瓜越老,里面所含的水分就越少,这样的南瓜筋少,口感又面又沙,不论是蒸、煮、炸,或者制作主食、甜品或汤粥,味道都格外好。另外,经过充足的日照后,南瓜的甜度会变高,营养相对较好。  要想挑到好南瓜,要从以下几个方面入手。首先要看,从外皮颜色上来说,金黄色的南瓜,颜色越深黄,条纹越清楚粗重越成熟;绿
本文通过对荣华二采区10
论述了智能排放瓦斯装置在局部通风中的应用,说明在局部通风中安装智能排放瓦斯装置后可有效地从技术手段上杜绝排放瓦斯过程中“一风吹”隐患,又能使局部通风机运行在安全、
2018年4月今0日-12日广东现代国际展览中心(东莞·厚街)双年东莞/单年上海“金桥梁”全年包装采购对接计划“365天不落幕的展会全年精准对接包装采购需求”2,000+世界500强&
本文基于L-稳定的Runge-Kutta方法构造Riemann-Liouville分数阶导数的高阶逼近格式,构造了求解非线性分数阶微分方程的L-稳定的Runge-Kutta方法,并给出了该方法的相容性、收敛
[4:8:8] 铺砌为平面上由正方形和正八边形生成的阿基米德双铺砌,现记[4:8:8] 铺砌的顶点集为D,其中的点称为D-点.本文将利用数的几何中讨论格点性质的相关手法探讨[4:8:8] 铺
本文研究了一类浅水波方程Cauchy问题的局部适定性,强解的爆破机制和爆破,强解的整体存在性以及整体弱解的存在性和唯一性等相关的问题。这些相关的浅水波方程来源于现代力学和