结构化Web数据的自动去重方法

来源 :计算机应用与软件 | 被引量 : 10次 | 上传用户:opengl100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法。对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复。实验证明该方法对结构化Web数据的去重有很好的召回率和准确率。
其他文献
引入模糊隶属度和最小二乘思想,采用邻域粗糙集方法对煤自燃预测的输入向量进行维数约简和粒子群优化(PSO)算法优化支持向量机模型中的参数,提出一种模糊最小二乘球形支持向量机(FLHSSVM),并用序贯最小化(SMO)算法求解FLHSSVM中的二次规划问题,建立煤自燃预测模型。实验结果表明,该方法有效简化了训练样本,提高了FLHSSVM训练速度,且分类精度良好,有很好的泛化能力。
目前,中学每节45分钟的体育课,准备活动一般安排10分钟左右。其内容基本上都是先慢跑,后徒手操或游戏的“标准”式准备活动。对此,学生往往感到枯燥,不易激发起他们学习的积
期刊
目的:急性胰腺炎是多种原因引起的急性全身性炎症性疾病,是临床上常见的急腹症,其病因及发病机制目前尚不十分清楚,临床上有着起病急、进展快等特点。近年来,急性胰腺炎的发病率逐渐上升,病死率居高不下,尤其是重症急性胰腺炎。目前多种评分系统和血清标志物已用于急性胰腺炎严重程度的评估及预测,但由于各种原因,使其在临床的实际应用上受到限制。早期发现对疾病进展、预后有提示作用的标志物进行预警,提高疾病治疗效果,
本文系统回顾与评论了有关订单农业的文献。订单农业中公司与农户的行为决策分析是当前研究的重点.而在订单农业的适用性、订单农业与市场环境、订单农业与生态环境的互动影响
当前我国的土建工程领域的发展比较迅速,随着时代的发展进步,人们对土建基础施工的要求也在不断提高,这就对施工单位提出更大的挑战,做好土建基础施工的整体质量就显得比较重
依托珠海信德横琴项目,系统总结仿幕墙式带形窗大型单元板块吊运、带形窗系统安装、特殊部位处理等施工方法、管理保证措施及要点,同时针对外立面划分考虑因素、斜插法就位施
岩石组分、元素地球化学以及砂砾岩百分含量等分析表明,渤海湾盆地东营凹陷广利地区沙河街组四段上亚段沉积时期存在南部和东北部两大物源体系,它们控制了广利地区沙四上亚段沉
为了提高连体高层住宅火灾疏散效率,减少人员伤亡和经济损失。以南京市某18层连体住宅楼为研究对象,运用Pathfinder仿真软件分别模拟人员按一般情况自上而下从本楼进行疏散和
迪拜哈斯彦洁净燃煤电站4×600MW项目为超大直径、超高压、超长的GRP管道。对整体施工规划、管道连接方式以及垫层、回填施工都提出了非常严格的要求。本项目有水下安装
针对传统协同过滤算法由于数据稀疏和冷启动而造成的推荐精度下降的问题,提出一种基于联合聚类和C-RA组合相似度的协同过滤算法。首先,通过联合聚类对原始评分矩阵进行用户和物品两个维度的聚类;其次,利用联合聚类结果填充原始评分矩阵;最后,利用C-RA组合相似度计算用户相似度并进行推荐。实验结果表明,该方法有效地提高了推荐结果的精确度,缓解了数据稀疏和冷启动问题。