论文部分内容阅读
为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引擎。对网络爬虫进行了抓取规则的订制,使其只会抓取新闻相关的网页。采用卡方统计量进行文本特征提取,利用TF*IDF算法进行特征权值计算,利用支持向量机分类算法对新闻数据进行分类。实验结果表明,该新闻垂直搜索引擎可以精准地按类别搜索出新闻信息。