Web自动文本分类技术研究综述

来源 :情报学报 | 被引量 : 0次 | 上传用户:vingf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发
其他文献
作者简介:王煜全,海银资本创始合伙人,"得到"App课程"前哨""全球创新260讲"主理人,弗若斯特沙利文公司(Frost&Sullivan)中国区首席顾问。著有《暗趋势》等。在投资海外高科技
不借助于任何辞典工具而从Web中自动挖掘出术语的翻译,这是一项有趣且富有挑战性的工作。本文提供了一种基于部分平行Web语料的自动术语翻译方法。首先通过一个术语对,采用Web
本文阐述了将中文叙词表转换成网上可共享本体的意义.在借鉴国外相关研究成果的基础上,提出了用OWL(Web Ontology Language)表示<中国分类主题词表>的具体方案,并就词表中存
本文阐述了中文叙词表本体(OntoThesaurus,即基于中文叙词表建立的本体知识库)共建共享系统的设计思想和总体结构。描述了中文叙词表转换为OWL本体的扩展TBox定义,叙词表文本的AB