论文部分内容阅读
介绍了Web挖掘理论,包括Web挖掘定义、Web挖掘任务、Web挖掘分类3个方面,并简单介绍了实现Web文本挖掘系统WTMiner(WebTextMiner)的几个关键技术:分词,特征提取,分类器的设计.在分词中采用了支持首字Hash和二分查找从而提高了分词速度,分类器的设计中考虑到SVM的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度.