一种基于Nutch的网页聚类系统的设计与实现

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:zj5536
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。
其他文献
为提高多功能雷达(Multi-Function Radar,MFR)波形单元的识别准确率和鲁棒性,提出一种栈式降噪自编码器(Stacked Denoising Autoencoders,SDAE)与支持向量机(Support Vector M
对于一门学科掌握的如何通常采用考试的形式来判定,对考试后的试卷进行讲评不仅能发现学生对所学知识的掌握程度,也能从试卷分析中发现学生的优势与劣势,出现错误的地方或容易混
通过在长治县开展土地质量地球化学评估工作,以土壤地球化学调查为主,同时开展大气、灌溉水和农产品调查,获得了研究区大量元素、微量元素、pH、有机质和有害元素、速效K、速效P、水碱N等22项指标的地球化学特征、土壤地球化学分布特征及土壤肥力特征,以《土地质量地球化学评价规范》为依据,对研究区土壤养分、土壤环境、硒、土壤质量进行综合等级评价,为推进土壤合理科学利用提供可靠的数据支持。
随着教育的发展,传统的高中数学教学模式已经不能满足现实的需求,当前社会的发展需要更多高知识、高能力的复合型实用人才,并不是只会“纸上谈兵”的人才.我国的教育改革也在不断
  以PPS和PET为原料,采用复合纺丝技术,制成单丝纤度2~3 dtex的PPS/PET裂片纤维。本文介绍了PPS/PET裂片纤维的最佳复合纺丝工艺,讨论了各工艺参数对纤维物理性能指标的影响,试
难点1 理解交流发电的产生过程、“交流四值”并能迁移引用例1如图1,矩形线圈abcd在匀强磁场中可分别绕垂直于磁场方向的轴P1和P2以相同的角速度匀速转动,当线圈平面转到与磁场
主要介绍芳纶1313与羊毛混纺高支纱的生产技术.采用紧密纺纱技术,纺制的纱线具有成纱紧密、纱线外观光洁、毛羽少、条干好、强力高、耐磨性好等优良特性;同时对其原料选择、
在新课程高考及相关的测试中,有关选修内容“几何证明选讲”的圆中成比例线段的问题较为常见,涉及圆的性质的灵活应用,使这类题型丰富多彩,此类问题常用如下的4种基本方法求解.
为了研究基于相干布居俘获原理的原子干涉磁力仪传感系统并对其进行变量控制分析,针对其传感系统建立数学模型以表示输入变量与输出信号间的关系,同时建立鉴频信号对比度关键