自动化识别分页和提取搜索结果的APK爬虫技术的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hzy11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前分布在互联网上的APK网站数目众多,质量参差不齐,恶意APK泛滥,容易造成用户误下载后遭受隐私泄露、恶意扣费、电信诈骗等威胁,对这些网站的APK进行实时爬取并监控是降低危害的必行之举。但现有常用的识别页码链接的算法,如GL&CSL、BERyL、XPath最长路径探测等,存在识别时间长、准确率低等缺点,目前常见的提取搜索结果算法,如ViPER、CTVS和STEM算法等,也存在提取时间长、误提取推荐列表等缺点。针对上述问题,本文调研了现有研究现状和爬虫关键技术,提出了新的页码链接识别算法以及信息提取算法,并设计与实现了APK爬虫系统。具体工作总结如下。第一,为解决识别页码链接算法时间长、准确率低的问题,本文提出了一种基于分页元素文本和超链接特征的页码链接识别算法。该算法首先筛选出符合要求的DOM树,然后根据DOM树中的文本、超链接等特点进行过滤。通过在大量网页中进行实验表明,本算法在提高准确率的同时,降低了识别页码的时间,效果更佳。第二,为解决提取搜索结果算法时间长、噪点多的问题,本文给出了一种基于路径签名的搜索结果提取算法。该算法对页面DOM中的路径生成签名并对相似签名进行路径聚合,然后使用过滤器对噪点信息进行过滤。通过在大量网页中进行实验表明,本算法能够有效过滤推荐列表信息,同时由于避免对页面进行渲染即可获得搜索结果,因此提取时间短,性能优于其它算法。第三,设计并实现一个自动化APK爬虫系统。为了使爬虫系统具有更好的扩展性和可靠性,本文搭建了分布式Redis与Mycat集群服务,并使用Conductor作为各个任务的调度框架,以保证效率。在多个网站上的实验表明,本系统无需人工干预即可自动化爬取分布在互联网上的APK。
其他文献
随着旅游市场的竞争激烈,微信公众平台凭借其用户基数大、传播速度快、营销成本低等优势,成为旅游景区进行精准营销和服务的重要抓手。然而随着微信公众号被景区广泛应用,营销效果如何?影响因素有哪些?等问题也随之而来。从现有文献看,有关微信公众号影响力测度的研究已经成为学术界新的研究方向,然而针对景区微信公众号影响力测度的研究还鲜有出现,值得进一步研究。本文在研究大量景区微信公众号、媒介影响力、微信公众号影
空中及空间目标的高分辨逆合成孔径雷达(ISAR)图像蕴含其形状、尺寸等重要信息,因此成像质量直接影响后续特征提取与自动目标识别的准确性。实际情况中,ISAR成像往往面临着回波信噪比低,数据缺损,存在随机相位误差,目标机动等难题,从而严重影响基于傅里叶变换的传统成像方法性能。由于基于稀疏贝叶斯学习的ISAR成像方法能够充分利用目标散射点和环境的统计信息,因此为解决上述复杂观测条件下的ISAR高分辨成
连续肾脏替代治疗(continuous renal replacement therapy,CRRT)中管路凝固不但会影响滤过效果而且可能会激发级联反应,抗凝方案影响血滤的效率、出血、管路凝固和管路寿命。
促进职业院校毕业生就业是地方政府的一项重要工作,对当地经济发展和社会长治久安具有重要意义。在促进职业院校毕业生就业过程中,地方政府的主要工作是通过制定和实施促进就
工业机器人在实现制造过程自动化、提高劳动生产率中占有重要的地位。由于工业机器人轨迹规划的好坏直接影响能耗的高低,因此,如何合理规划工业机器人能耗最优的轨迹问题受到了许多学者和机器人生产商的重点关注。本文以LR4-R560型六自由度机械臂为研究对象,首先建立运动学与动力学模型,为轨迹规划的研究和优化能耗的问题提供基础。其次在各关节角度、角速度、角加速度的约束条件下,将能耗最少作为机械臂的运动轨迹的优
教育可以使一个人从愚昧走向睿智,是社会发展的命脉之一,也是一个国家和民族的重中之重。在我们中国的教育中,语文的重要性更为显著,学好语文是学好其他科目的基础。除了中国的中小学生,国外友人来中国留学时,也需要认真学习中文。而作文是中文极为重要的一部分,中文的初学者极容易在写作时出现错误,及时发现错误并更正也显得尤为重要。因此本文实现了作文句子错误识别系统,目的是帮助中文初学者发现自己写作中的错误,也可
排序,也称为调度,是组合优化理论中的一个重要分支。对于传统的排序问题,给定工件集和机器集,为了达到某个目标值,决策者们通常考虑如何将工件最好的安排到机器上进行加工。
近年来,随着我国科技水平的提高,承载重大石化项目的能力进一步增强,越来越多石化项目落户全国各地,然而由于石化项目的特殊性,尤其是政府在项目建设过程缺乏有效的舆论引导,
随着视频质量的提升和交互式应用的普及,用户对网络服务质量需求日益增长的同时也急剧加重了网络流量压力。动态缓存技术通过在网络边缘缓存热点内容,减少向核心网络的请求,能够有效地减轻网络流量压力。以用户为中心的超密集网络通过基站的密集部署和基站组的协同服务,在网络边缘增强流量处理能力,提升用户服务质量。但是,由于用户运动具有随机性,为了保证运动过程中的用户通信连续性,基站协作缓存策略和基站组成员动态更新
合成孔径雷达(Synthetic Aperture Radar,SAR)主要用于对观测场景进行二维高分辨成像,由于其在航空、航天等众多领域的应用,SAR图像解译技术成为目前研究的热点,SAR图像目标特征提取及识别也是其中重要的研究方向之一。SAR图像目标特征提取主要是从SAR图像中获取目标的几何特征、属性特征,可用于对目标的分类识别等。本文主要围绕SAR图像目标特征提取展开研究,主要包括地面车辆目