开放内容空间的Spam页面侦测

来源 :武汉科技大学学报 | 被引量 : 0次 | 上传用户：kyonizuka

【摘要】

：

基于链接分析自动侦测Spam页面,提出了一个分阶段机制。采用决策树和链接分析模型对Wikipedia中的所有节点进行Indegree和Outdegree检测,从而产生出一个候选列表,并引入一个

【作者】

：

余旸夏国平

【机构】

：

北京航空航天大学经济管理学院,Center for Advanced Analytics and Business Intelligence,Texas Tech University,

【出处】

：

武汉科技大学学报

【发表日期】

：

2009年02期

【关键词】

：

Spam 开放内容链接分析 Anti-Spam 知识发现自动侦测种子集候选集分类器决策树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于链接分析自动侦测Spam页面,提出了一个分阶段机制。采用决策树和链接分析模型对Wikipedia中的所有节点进行Indegree和Outdegree检测,从而产生出一个候选列表,并引入一个启发算法来降低第一类型的错误。设计一个分类器用于分类候选列表,采用TrustRank和SpamRank算法分别从信任种子集和Spam种子集中推算系统页面各自可信概率和Spam概率,从而减少第二类型的错误。然后将产生的候选集合推送至页面编辑,根据编辑判断的结果反馈训练模型,调整权重。结果表明,分阶段侦测模型可自动地侦测Spam页面,其查准率和查全率分别达到78.3%和94%。 Spam pages are automatically detected based on link analysis and a phased mechanism is proposed. Indegree and Outdegree tests are performed on all nodes in Wikipedia using decision trees and link analysis models to generate a candidate list and introduce a heuristic to reduce the first type of error. A classifier is designed to classify the candidate list. TrustRank and SpamRank algorithm are used to calculate the respective credible probability and Spam probability of the system pages from the trust seed set and Spam seed set to reduce the second type of error. Then the generated candidate set is pushed to the page editor, and the training model is fed back according to the result of the editing judgment, and the weight is adjusted. The results show that the phased detection model can automatically detect Spam page, the accuracy rate and recall rate reached 78.3% and 94% respectively.

其他文献

给抱怨镶一道金边

每当你指向别人一个手指就有余下三个是指向自己的我很想知道:人之初始,第一个发出抱怨声音的祖先究竟收获了什么?使得这个本是伤害我们自己的习惯得以如此广泛的传承。抱怨

期刊

人之初面对自己重点中学就是你子女教育问题前后左右束手无措古怨日观掌控权

浅谈民族初中语文课堂组织教学

组织课堂教学是一项教学活动,充满了艺术,是对教师的组织才能和教学能力考验。教师只有高效地组织课堂教学,才能提高课堂教学的有效性,中学语文课堂教学中就要考虑到影响教学

期刊

课堂组织教学反馈课堂教学教师组织教学活动教学质量学习活动教学能力组织才能阅读任务

积极引导,培养学生健康心理

“教师应当是心理医生”是现代教育对教师的新要求。作为班主任,能否敏锐地了解学生的言行,准确把握学生的心理,将班主任工作与心理健康教育相结合,显得尤为重要。一、当前小

期刊

学生健康心理心理健康学生心理心理疏导主题班会心本智力因素班集体学习竞争真正的人

MTW硬杀伤系统在鱼雷防御上的突破

现代水面舰船受到多种不同类型鱼雷的威胁:非声鱼雷、声自导鱼雷、线导或非线导鱼雷及尾流自导鱼雷。未来的鱼雷除智能化更强外,还装备有非常尖端的鱼雷干扰设备及更先进的大

期刊

鱼雷发射MTW反鱼雷鱼雷鱼雷探测尾流自导鱼雷声自导鱼雷微型鱼雷诱饵硬杀伤防御系统操作装置

向大脑输入知识密码

精神的诞生是自然界最伟大的奇迹，也是最不可思议的奇迹。我们能够听、看，还能思考和理解别人，我们拥有怜悯、尊重或者怨恨的情感……这究竟是怎么回事?人甚至不知道他为什么这么聪明。法国哲学家笛卡尔认为物质和精神是完全不同的两类实体，物质实体是通过感官的感觉而确认其存在的，而精神实体只能通过思考才能确认其存在，这就是那句著名的格言“我思故我在”的主要意义，但随着近代医学的发展，随着对脑研究的深入，人们越来

期刊

“我思故我在”精神实体人是机器精神活动《哲学研究》近代医学脑研究人工设计维特哈佛大学哲学系

导弹总体一体化设计方法研究

提出导弹总体一体化设计的一种分步优化设计方法。在质点弹道总体化中，研究导弹与发动机的一体化设计问题。在质点弹道总体优化设计中，解决导弹的稳定性和最优弹道的控制问题。

期刊

设计方法研究优化设计数学规划控制问题攻击平面质点系最优设计方案论证设计变量最大射程

部分国家地区信息安全战略概览

近年来,世界各主要国家纷纷调整或出台信息安全国家战略,一时成为网络虚拟世界的一大热点,这种情况在以往是没有过的。过去是美国在前面领跑,今天是各国戮力共进。寒来暑往,

期刊

信息安全战略取向国家战略战略重点战略布局战略形势网络虚拟世界虚拟世界空间的一大

一块巧克力引出的两种非常心理

欢欢和乐乐是我的一对双胞胎儿子,虽然出生相差只有十几分钟,可我对他们的爱是一样的,没有亲疏之分。俗话说,手心手背都是肉。可是从上小学开始,我渐渐地对弟弟乐乐“情有独

期刊

告诉我第二年落后者我在少儿英语幼稚人格占为己有竞争取胜自我欣赏分数高

避免孩子产生不健康心理

少男少女由于处在身体发育、知识和生活经验尚不充足的特定时期,故可有不健康的心理表现,当发现时应当及时纠正,以免酿成大病。其表现主要有以下几个方面:1.忧郁由于种种原因

期刊

身体发育少男少女压抑感

主动电磁装甲的物理原理

目前用于攻击坦克和装甲车辆的主要武器为动能弹和破甲弹。动能弹以其高速发射过程中所获取的巨大动能 ,在甲板很小区域内快速释放 ,以达到穿透保护甲的目的 ,也叫做穿甲弹。

期刊

电磁装甲物理原理保护板装甲车辆电容器储能附加装甲装甲防护发射过程射弹破甲弹

开放内容空间的Spam页面侦测

与本文相关的学术论文