基于主题爬虫与文本分类的微博资讯智能生成策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lmtc5238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,中国手机网民数量已经超越PC,各种手机应用层出不穷,其中手机微博已经成为使用率增长最快的手机应用。越来越多的人们使用微博进行交流互动,尤其是在面向垂直细分领域的专业微博中,用户有强烈的获取权威资讯信息的需求。但是,传统的微博缺乏良好的信息查询与推送功能,难以满足不同人群的信息获取需要。因此,根据不同行业主题,利用微博平台将互联网上丰富的行业资讯信息进行自动采集推送,具有重要的理论研究和实际应用价值。在基于主题爬虫与文本分类的微博资讯智能生成策略中,利用主题爬虫技术和文本分类技术将互联网上丰富的行业信息按主题进行采集分类并通过手机微博客户端向特定用户群体提供资讯查询和推送服务。首先,在针对主题信息的采集中提出了一种面向特定领域的主题式爬取策略,通过对开源爬虫框架Heritrix进行主题模块的扩展,使爬虫只抓取与特定主题相关的最新行业信息。其次,在网页数据处理过程中通过改进文本分类算法,设计了一种中文网页文本分类器,对抓取的网页按行业主题进行自动细分类并提取数据生成有价值资讯信息。然后,通过手机微博平台将分类的信息通过设定的不同微博频道或者智能账号进行动态展示与发布。最后,以农业主题为例将基于主题爬虫与文本分类的微博资讯智能生成策略应用在海南手机农业微博中进行农务资讯的生成与推送。在海南手机农业微博中实现农业微博资讯的智能生成,并对微博资讯生成策略进行了相关的功能和性能测试。实验结果表明:这种微博资讯生成策略能够及时获取最新行业相关资讯,进行详细准确的信息分类并提供方便的查询与推送服务。其中主题爬虫抓取的主题准确率达到87%以上,网页文本分类器的整体评估指数达到85%左右。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着工业化和城市化的发展,人们在享受急速膨胀的物质财富同时,环境污染的阴霾已悄然笼罩,甚至危及人们的生命安全。
食品中的二氧化硫检测方法有多种,我国的国家标准主要采用盐酸副玫瑰苯胺比色法、蒸馏法、直接碘量法等多种检测方法,各有优缺点,不同的食品应该选择相应的检测方法。本文就不同
随着医学的发展和疾病的变化,医学模式由单纯的生物医学模式向生物-心理-社会医学模式转变。心理护理已日趋受到人们的关注。我院这几年对冠心病患者在进行躯体治疗的同时加用
最近一则安信地板“有毒”的消息将不少大型房企推到了舆论的风口浪尖,由于不少开发商都选用了该品牌地板装修项目,因此这些房企也无一例外受到牵连。其中,万科、绿地、龙湖等房
在白酒酿造过程中添加产酯酵母,可增加白酒的酯香味,提高白酒品质和企业产品竞争力。而甲醇是酒中有毒的不良物质之一,降低酒中甲醇的含量对消费者的健康具有重大意义。若既能增
化学是一门以实验为基础的学科,化学实验在培养学生的创新精神和实践能力方面具有重要的作用。在化学教学中,充分开发演示实验,挖掘常规仪器或装置的用途,开展实验方案的设计是培
进入今年第四季度以来,山东省水利系统迅速贯彻落实党中央、国务院和省委、省政府、水利部关于扩大内需、促进经济平稳较快增长的一系列决策部署,把加快水利基础设施建设作为
本期《特别推荐》栏目刊登了关德斌同志撰写的《关于“胶莱人工海河”的几个问题》一文。该文不仅以事实为基础,以理论为依据,视域广阔,观点鲜明,论证缜密,文风朴实,而且体现出了可
记得前几年我们一家三口去郊游,看着小路边开满了不知名的小花,儿子兴奋极了。走着走着,他忽然低下身子,和路边的花儿说了些我们听不明白的话。我问他:“你对花儿说了些什么?”他