一种有效的自动识别与过滤噪链的方法

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户:wangfei871010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前基于链接关系的排序算法在互联网搜索引擎中起着至关重要的作用。这类算法的提出是以"链接即投票"的假设为前提的.但是随着互联网商业化发展十几年来,这种假设已经不是万能的了.网页之间不再是"投票"关系,有各种各样其他角色的链接(即噪链)充斥其中,噪链的存在降低了基于链接的排序算法的准确性,如何识别和处理噪链是当今国外研究的热点.根据噪链本身的分布特性,提出了一种只基于链接关系就能自动识别和过滤噪链的方法,并进行了详细的真实数据集实验验证,结果表明该方法对噪链的识别和过滤非常有效,而且提高了基于链接关系的排序算法的准确性。
其他文献
依据物理学理论中的刚体最稳态结构,将数据集合看做物理实体,提出虚拟数字实体化观点和代表数据五元组、典型约束等概念,并在此基础上建立4点中心-边界算法(EFCBA)和基于相互约束的模糊数据归类算法(MRFCA).实验表明EFCBA算法提高了代表数据的集合代表性,缓解了图形不规则性对集合代表数据获取的影响;MRFCA算法有效利用了代表数据的特点,提高了归类准确率,并具有较好的自适应能力和未知新型数据归
自动文本摘要是文本挖掘技术中的一个重要的研究课题。现有的文本摘要系统大多是应用单一方法,基于特定领域提取摘要,不能够应用到各个领域中,所以将各种方法组合起来,将能够解决这个问题。在深入研究6种基本的浅层和实体层的自动摘要算法的基础上,实现多知识源融合的摘要系统,并应用基本的机器学习算法对上述的算法进行了特征组合的分类器的训练、交叉验证和测试,找到最佳的特征组合参数,形成摘要.采用内部评价方法对系统
提出了一种面向网络安全的序列模式挖掘方法。引入IP约束窗口的概念,利用IP地理信息和IP拓扑信息建立IP约束窗口模型,并且使用时间滑动窗口进行序列模式挖掘,是一种在特定领域中基于约束的序列模式挖掘方法。可以有效减少候选集数量,提高挖掘效率,实验证明这是一种有效的特定领域应用的序列模式挖掘方法。
对科技文献进行自动主题识别能够帮助用户更好地掌握学术研究中的动态.主题识别的时效性即如何依据现有数据及时探测新主题的产生,是影响其实用程度的关键因素.提出一种引用次数和社区划分相结合的科技主题识别算法STD,依据top节点所在社区的变化检测新主题的产生.在真实数据集上的实验结果表明,该方法可在只有当前而非全部历史数据的条件下,及时、准确地识别新主题的形成.
入侵检测领域的相关研究大多忽视了对利用存储过程的SQL注入攻击的检测.提出了基于构造路径的存储过程SQL注入检测方法。通过对执行流程的分析,得到执行参数的构造路径,形成检测规则.检测时替换规则中的输入参数为用户输入值,对所得到的SQL语句进行结构和语义上的检测.在标准测试平台TPCW上的实验结果表明,不仅在检测率还是漏报率上都要优于同类研究工作;在增加了基于该方法构建的检测模块后对系统性能影响不大
数据的概念漂移特性是广泛存在的.提出一种挖掘概念漂移数据的自适应集成学习算法(adaptive multiple classifiers ensemble,AMCE).该算法通过给每个分类器分配独立的权重调整参数,增强自适应能力;并且利用基于KL距离的剪枝策略删除集成中存在的冗余个体分类器.实验结果表明,该算法能够有效地改善发生概念漂移时的分类预测结果,同时减少存储空间的使用,提高算法速度,并且其
随着数据流系统日益广泛的应用,需要针对数据流系统的安全机制以保护其资源。针对目前研究的不足和数据流系统的特点提出了一种基于角色的访问控制策略,给出了实现机制.最后在已有的数据流系统Borealis上进行实验,验证算法可行并分析了对系统性能的影响.
无线传感器网络中感知的数据是连续实时的流式数据.由于传感器节点存储空间和处理能力有限,需要用滑动窗口技术将数据流分割成段进行后续处理.确定窗口长度是使用滑动窗口技术必须要解决的问题,包括如何选择滑动窗口的大小才能充分利用感知数据的周期性和相关性,最大程度地减少传感器网络的数据传输量。提出了一种面向感知数据的滑动窗口动态调整技术,该技术利用网络节点数据的关联性通过计算共享数据段的大小调节各节点的滑动
传感器网络的覆盖问题是无线传感器网络研究和应用的关键性基础问题,直接影响着传感器网络的使用性能.针对移动传感器网络中节点自由分布时网络覆盖率低下的问题,研究了达到对监测区域的完全覆盖时的节点最优分布情况,提出了一种能够利用节点的可移动性,在使用尽可能少的节点和尽量节省能量的前提下,近似实现这种完全覆盖的节点重定位策略.实验结果表明,该策略可以大大提高无线传感器网络的覆盖程度.
Wrapper的生成与维护是Deep Web数据集成中一项非常重要的研究课题。传统的方法通常是通过对网页结构或特征的分析来推导Wrapper,这种方法严重依赖于网站模板,在处理某些网站时可能完全失效.同时,以往研究对于Wrapper的维护问题关注较少.这两个问题导致无法真正实现大规模Deep Web数据集成.提出了一种新颖的数据驱动的Wrapper自动生成与维护方法。这种方法利用同一领域不同网站之