论文部分内容阅读
随着互联网的飞速发展,网络上新闻信息越来越繁杂,采集有用数据过滤冗余数据变得十分重要,但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型、文本聚类等技术可设计一个能自动采集新闻并能将所得信息自动聚类的系统,并且通过真实新闻数据验证了该系统的有效性,证明其能帮助用户发现、过滤重复新闻、相似新闻,并能提取热点新闻,提高用户阅读新闻的效率。