论文部分内容阅读
提出了人才网页自动识别系统设计,实现了对Nutch 定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的Url特征、网页Title 标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征 词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM 实现基于多特征值的人 才网页自动识别。通过对所抓取的高校网站网页集合随机样本实验证明,该人才网页自动识 别系统准确率达到了85%以上。人才网页自动识别结果为进一步自动构建包装器进行人才信息抽取提供良好基础。