基于聚类算法的垂直搜索引擎技术研究

来源 :北京信息科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:flyindirty2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。
其他文献
针对行人复杂多变的运动形式给室内定位带来较大偏差的问题,提出了一种基于加速度时域特征的行人运动分类方法,并利用分类结果进行室内行人三维定位。利用垂直加速度的变化规
通过引进中值流的方法,以中值流算法作为运动模型,利用中值流的预测信息指导Mean-shift算法对目标进行搜索。在Mean-shift对目标进行搜索的时候,通过引进目标的纹理特征——局部二值模式(local binary patterns,LBP)使得在目标和背景颜色相似、光照变化强烈的情况下也能对目标和背景进行区分。仿真实验表明,该算法比Mean-shift算法在准确性和跟踪性能上均有明显的提高
从往复发动机点火系统的工作机理出发,分析了点火系统的常见故障。构建了模糊隶属度函数对故障征兆信号进行模糊化处理,得到了多元故障敏感特征,并建立了三层动态神经网络进行基
根据硬盘固件工作原理,从病毒的隐蔽性、破坏性、传染性、潜伏性4个方面分析了硬盘固件病毒的行为特征以及常见破坏方式,提出多种理论上可行的硬盘固件病毒检测与防治方法。融
目的:观察博乐欣合并抗精神病药物治疗精神分裂症阴性症状的疗效。方法:对我院130例住院患者用博乐欣合并抗精神病药治疗8周,用简明精神病评定量表(BPRS)、阴性症状评定量表(
针对系统中存在的建模不精确、参数不确定及外部扰动的问题,设计了滑模鲁棒自适应控制器,并引入Lyapunov函数对其稳定性进行了证明。利用自适应控制器来修正参数以适应系统对象
针对球栅阵列封装(BGA)焊盘的高密度性问题,以Visual Studio 2013和Open CV机器视觉库为开发平台,设计了一套球栅阵列封装焊盘缺陷视觉检测方案。通过工业相机在红色环形光源下采集PCB裸板图像,选取图像预处理后的合格PCB裸板图像作为模板;采集待测PCB裸板图像,进行预处理,采用基于金字塔匹配方法进行图像配准,分割BGA焊盘区域;通过几何法检测焊盘大小和形状,运用图像差分法检测
针对小参数随机共振难以满足工程实践中大参数下的微弱信号检测的问题,采用变尺度的方法实现了大参数的随机共振。变尺度随机共振法首先选择适当的二次采样频率对原始信号进行线性压缩,实现高频信号到低频信号的转换,使信号满足小参数随机共振的前提条件,再将线性压缩后的信号输入双稳随机共振系统,系统输出响应产生随机共振,使微弱的故障特征信号突出,达到大参数下微弱信号提取的目的。仿真实验验证了方法的正确性,并成功地
为了在人耳处获得更大范围的静音区,对基于虚拟传声的单通道有源头靠系统进行了改进。在静音区(人耳处)设置2个虚拟传声器,采用基于虚拟传声器技术的filtered—Xleastmeansquare(F
我院是一所集医疗、护理、急救、科研、教学为一体的三级乙等综合医院,全院实际开放床位667张,设有病房、门诊、重症医学科、EICU、CCU、血液透析中心、急诊科、手术室、消毒