论文部分内容阅读
随着移动互联网的快速发展,中国手机网民数量已经超越PC,各种手机应用层出不穷,其中手机微博已经成为使用率增长最快的手机应用。越来越多的人们使用微博进行交流互动,尤其是在面向垂直细分领域的专业微博中,用户有强烈的获取权威资讯信息的需求。但是,传统的微博缺乏良好的信息查询与推送功能,难以满足不同人群的信息获取需要。因此,根据不同行业主题,利用微博平台将互联网上丰富的行业资讯信息进行自动采集推送,具有重要的理论研究和实际应用价值。在基于主题爬虫与文本分类的微博资讯智能生成策略中,利用主题爬虫技术和文本分类技术将互联网上丰富的行业信息按主题进行采集分类并通过手机微博客户端向特定用户群体提供资讯查询和推送服务。首先,在针对主题信息的采集中提出了一种面向特定领域的主题式爬取策略,通过对开源爬虫框架Heritrix进行主题模块的扩展,使爬虫只抓取与特定主题相关的最新行业信息。其次,在网页数据处理过程中通过改进文本分类算法,设计了一种中文网页文本分类器,对抓取的网页按行业主题进行自动细分类并提取数据生成有价值资讯信息。然后,通过手机微博平台将分类的信息通过设定的不同微博频道或者智能账号进行动态展示与发布。最后,以农业主题为例将基于主题爬虫与文本分类的微博资讯智能生成策略应用在海南手机农业微博中进行农务资讯的生成与推送。在海南手机农业微博中实现农业微博资讯的智能生成,并对微博资讯生成策略进行了相关的功能和性能测试。实验结果表明:这种微博资讯生成策略能够及时获取最新行业相关资讯,进行详细准确的信息分类并提供方便的查询与推送服务。其中主题爬虫抓取的主题准确率达到87%以上,网页文本分类器的整体评估指数达到85%左右。