结构化Web数据的自动去重方法

来源 :计算机应用与软件 | 被引量 : 10次 | 上传用户:opengl100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法。对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复。实验证明该方法对结构化Web数据的去重有很好的召回率和准确率。
其他文献
引入模糊隶属度和最小二乘思想,采用邻域粗糙集方法对煤自燃预测的输入向量进行维数约简和粒子群优化(PSO)算法优化支持向量机模型中的参数,提出一种模糊最小二乘球形支持向量机(FLHSSVM),并用序贯最小化(SMO)算法求解FLHSSVM中的二次规划问题,建立煤自燃预测模型。实验结果表明,该方法有效简化了训练样本,提高了FLHSSVM训练速度,且分类精度良好,有很好的泛化能力。
目的:急性胰腺炎是多种原因引起的急性全身性炎症性疾病,是临床上常见的急腹症,其病因及发病机制目前尚不十分清楚,临床上有着起病急、进展快等特点。近年来,急性胰腺炎的发病率逐渐上升,病死率居高不下,尤其是重症急性胰腺炎。目前多种评分系统和血清标志物已用于急性胰腺炎严重程度的评估及预测,但由于各种原因,使其在临床的实际应用上受到限制。早期发现对疾病进展、预后有提示作用的标志物进行预警,提高疾病治疗效果,
依托珠海信德横琴项目,系统总结仿幕墙式带形窗大型单元板块吊运、带形窗系统安装、特殊部位处理等施工方法、管理保证措施及要点,同时针对外立面划分考虑因素、斜插法就位施
岩石组分、元素地球化学以及砂砾岩百分含量等分析表明,渤海湾盆地东营凹陷广利地区沙河街组四段上亚段沉积时期存在南部和东北部两大物源体系,它们控制了广利地区沙四上亚段沉
为了提高连体高层住宅火灾疏散效率,减少人员伤亡和经济损失。以南京市某18层连体住宅楼为研究对象,运用Pathfinder仿真软件分别模拟人员按一般情况自上而下从本楼进行疏散和
迪拜哈斯彦洁净燃煤电站4×600MW项目为超大直径、超高压、超长的GRP管道。对整体施工规划、管道连接方式以及垫层、回填施工都提出了非常严格的要求。本项目有水下安装