基于Logistic回归和XGBoost的钓鱼网站检测方法

来源 :东南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zhaoxiaoyan0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为兼顾钓鱼网站检测的速度和准确率,提出一种基于Logistic回归和XGBoost的钓鱼网站检测方法.根据网页的URL提取HTML特征、URL特征和基于TF-IDF的文本向量特征,结合Logistic回归将高维和稀疏的文本特征转换为概率特征.基于以上融合特征,构建了XGBoost分类模型,给出了方法的时间复杂度分析,采集了真实数据作为实验数据集.实验结果表明,Logistic回归方法降低了融合特征的维度,检测速度优于直接融合方法;融合特征方法比单方面特征方法含有更多有效的信息,可供分类器进行学习,检测精度
其他文献
<正>近年来,商水县受务工经济的影响,农村多数青壮劳力常年外出务工。针对当前农村劳动力大量转移的形势,为了降低劳动强度,减少田间作业环节,我们会同农机部门,在示范区引进
采用现场试验方法研究了工厂化养殖水环境基本特征,并与室外土池对虾养殖环境进行了对比分析。研究结果表明,对虾工厂化养殖水环境的基本特征为:水温、盐度和DO完全可以人为
本文深入研究古建筑三维数字化测绘的应用方法与流程,论证了三维激光扫描技术在木质古建筑保护中的认知和分析功能;通过对渭源灞陵桥的三维数据采集、各项预处理、利用点云数
以珠海市大镜山水库调水为例,以总磷为营养物质的控制因子,通过构建2维水流水质模型,计算模拟了大镜山水库在不同水动力条件下总磷浓度的分布状况,探讨分析了该地区调水水库营养
<正>自2011版新课程标准出台以来,全国掀起一股轰轰烈烈地修改不同版本教材的热潮,对于教材的编写主题也有以人文主题为单元线索还是以语用知识点的承接为主题等的相关热议,
唐代广州蕃舶及蕃客数量以及他们的社会状况是一个仍未被深入研究的中国早期伊斯兰教史重要问题,历史文献的缺乏使解决这一问题举步维艰,对现存资料的错误解读更使问题进一步
磷脂酰丝氨酸具有改善大脑的认知和记忆的功能,是医药和食品行业重要的原料.为进一步提高大肠杆菌(Escherichia coli)中磷脂酰丝氨酸含量,利用Red重组系统,以可积累磷脂酰丝
互联网视听节目监管系统的建立,可以对互联网上各种形式的音视频网站节目进行监测。对于经由互联网所传播的视听节目,将他们进行相关的搜索查询、逐一辨别、整理归类、排重、
高新技术产业开发区是我国国家创新体系的重要组成部分,为高新技术开发、产业化和地区经济发展做出了重要贡献。本文对1988年以来国务院及有关部委发布的有关国家级高新技术
目的 评价氟康唑、伊曲康唑、伏立康唑分别与环孢菌素A联合应用时对敏感与耐药白色念珠菌的体外抗真菌效果。方法 采用棋盘法测定两类药物联用的体外抗真菌效果,以OD值测定法