论文部分内容阅读
在对搜索引擎核心技术进行研究的基础上,设计并实现一种采用主动扫描探测方法进行有害信息监控的系统。基于bot包设计网络蜘蛛模块,实现对html、asp、php和jsp等网页的自动抓取;采用反向最大匹配和二级哈希散列算法,实现中文分词;开发信息索引模块,实现对网页的批量和增量索引;开发有害信息检索模块,实现有害信息监控及预警功能。最后通过集成各模块,实现有害信息监控系统。