【摘 要】
:
近年来,垂直微博平台的兴起,为垂直行业的信息交流带来了很大的方便。但就目前来讲,面向垂直领域的大量有用信息资讯仍隐藏在互联网上的海量数据中,用户需要在不同数据源间切
论文部分内容阅读
近年来,垂直微博平台的兴起,为垂直行业的信息交流带来了很大的方便。但就目前来讲,面向垂直领域的大量有用信息资讯仍隐藏在互联网上的海量数据中,用户需要在不同数据源间切换查找数据,对于广大手机用户来说,这种方式不仅费时费力,还可能带来巨大的流量消耗。因此,针对垂直领域的相关信息进行采集和整理,基于垂直微博平台来实现分类资讯的统一推送服务,对于解决用户的信息获取难题具有重要的现实意义。针对垂直微博平台上的分类资讯智能生成和推送问题,首先,通过扩展Heritrix开源爬虫框架,增加主题相关性判断模块,实现对垂直领域的主题相关信息的爬取,并基于KNN算法设计更加高效的分类方法对数据进行分类。然后,根据分类整理后的信息自动生成不同类别的公共微博,通过农业微博上的公共账号实现信息推送。最后,针对信息推送过程中的种子用户选择问题进行研究,考虑到目前具有最优求解效果的贪心算法在时间复杂度上的缺陷和启发式算法在求解精度上的不足,对于贪心算法中耗时的用户影响力边界增益计算过程,在PageRank算法的基础上设计了更加高效的评估方法来进行取代,实现了有效的种子用户选取算法ScoreDiscount。分类资讯智能生成和推送系统现已在农业微博平台上进行部署,实现了农业信息的采集、分类和推送功能。主题爬虫在针对农业信息的爬取准确率上达到了现有主题爬虫的正常水平,分类算法在分类准确率上与原始的KNN算法保持接近,而在分类效率上有了明显提高。模拟测试结果表明,ScoreDiscount算法在传播效果上能够达到当前最优的贪心算法的95%,明显优于另外两种启发式算法,而在计算速度上相比贪心算法提高了两个数量级以上,对于微博平台上的信息推送的种子用户选取更具有实用性。
其他文献
XML是一种可扩展的标记语言,由于其丰富的表达能力和自描述性、灵活性等特点,被广泛应用于Web环境下数据的表示和共享。随着大量数据以XML格式保存,如何高效、系统、科学地管
在环境污染越来越严重的今天,各国都越来越重视包括风能在内的无污染新型能源的利用率,但风电场所处环境恶劣且机组大多安装在高空几十米处,造成风电机组出现故障时不能及时
随着可移动设备技术的发展,越来越多的人在工作和学习中使用可移动设备进行信息的传递和处理。同时也带来了新的安全问题。传统的针对台式机的安全机制已经不能够保证可移动设
膜结构由一些类细胞的膜组成,嵌套地分布在称为“皮肤”的特殊膜里。在由膜划分的区域里存在着多种物质,这些的物质进化包括:一种物质可以转变为其他的一种或多种物质,它们可
互联网的不断发展使计算机系统在人们的日常生活中的地位越来越重要。现有的大部分计算机系统如电子邮件系统、电子商务系统、网上银行系统都需要通过数字身份(如用户名/口令
近年来,随着无线通信技术的发展,移动自组网的研究成为了热点。移动自组网是由多个带有无线收发装置的移动节点组成的一个多跳的、没有中心节点和固定基站的自治网络系统。在
随着经济的快速发展,我国的环境污染问题日益突出,特别是近几年连续的雾霾天气,严重影响着人们的身体健康和生活,引发人们对大气污染问题的高度重视,加强对环境的监测和污染
互联网金融(Internet Finance)是指传统金融机构或者互联网企业利用互联网等信息技术实现资金融通、支付、投资和信息中介等服务的新型金融业务模式。互联网金融是目前金融科技(Fintech)领域的重要形态之一。相比于传统金融,互联网金融具有效率高、成本低、范围广、操作方便等优势。但是,互联网金融的模式也在一定程度上造成了金融市场门槛降低,市场流动性增大,以及监管困难等问题。近些年,互联网金
随着互联网的大规模普及和信息化程度的不断提高,文本信息成几何级数不断增长,人们已经置身于信息的海洋之中。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到
电力通信传输网是国家电力系统的一种专用通信网,提供重要的业务传输作用,为电力系统提供支撑和保障。为了保证电力通信传输网安全可靠运行,本文对电力通信传输网的风险控制进行了研究。首先通过分析电力通信传输网中现有的安全问题,采用定性与定量分析结合的层次分析法进行风险评估,建立完善的指标体系。初始指标体系中可能存在冗余属性,导致资源的浪费甚至直接影响着决策规则的有效性。所以本文进而采用基于属性重要度的粗糙