论文部分内容阅读
在介绍电子文本自动分类系统的基础上,分析影响文本分类系统评价的若干因素,包括分类算法、测试方法、分类标准、分类标准的理解程度和分类层次等。测试用的分类语料库(超出6000万汉字)是由带人工分类标记的公开发表的《解放日报》和《大众日报》近年各类文章组成,人工分类标记和文章正文均由第三方提供,未作任何修改;语料由各类长短不一、风格各异、体裁不同的文章构成。建议建立权威的分类测试语料库和分类标准,公正客观地评价各分类系统,推进电子文本分类系统的应用。