基于Lucene的XML文件相似度检索系统

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:topccb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经分析研究开源的Lucene系统架构以及特殊xml数据源,针对Lucene搜索得分公式的不足,提出了结合词项位置和二次检索的公式,设计一种文本搜索系统;并以提高检索性能、相似性搜索的准确率、索引的空间效率和支持查询的时间效率为目标进行实验,最后通过部署Tomcat服务器实现.经实验验证,改进的系统较之于原Lucene系统提高了建立索引效率、查询效率、准确率.
其他文献
模糊C均值聚类是一种有效的图像分割方法,但存在因忽略空间上下文信息和结构信息而易为噪声所干扰的现象.为此提出了DCT子空间的邻域加权模糊C均值聚类方法.该方法首先结合分块的思想,对图像块进行离散余弦变换(discrete cosine transform,DCT),建立了一个基于图像块局部信息的相似性度量模型;然后定义目标函数中的欧式距离为邻域加权距离;最后将该方法应用于加噪的人工合成图像、自然图
所述的Open Stack高可用生产环境案例作为互联网电子商务软件的硬件平台,实现的架构包括设备和物理网络的冗余设计,以及基于Active/Active的双活模式,提供了负载均衡能力和系
非结构化数据呈爆炸态势增长,传统存储技术在吞吐能力可扩展性及易管理性等方面急需改进,通过分析安保视频数据存储的问题,设计一种云计算架构下的安保视频监控存储系统,基于框架
分布式文件系统HDFS采用机架感知的副本放置策略在一定程度上保证了数据的可靠性,但系统运行一段时间后会出现数据分布不均衡的情况.虽然使用Balancer程序可以对数据进行重分布
互联网金融P2P借贷平台上存在着较大的贷款投资风险,为协助投资人获得更佳的贷款收益,本文综合考虑贷款坏账风险、流标风险、利率和投资人风险偏好等要素,提出投资决策算法ID
针对传统的DV-Hop(Distance Vector-Hop)定位算法存在定位精度不高的问题,提出基于曲线拟合的改进定位算法.在改进算法中,以锚节点的实际直线距离和估计距离之间存在的误差作为
现有的多搬运工具可并行条件下的物料搬运顺序优化模型,其采用的标准遗传算法收敛速度慢且易陷入局部最优.提出了该模型的改进遗传算法,采用精英保留策略代替传统的轮盘选择
针对传统计算机智能作曲客观评价不准、实现难度过大问题,本文对智能作曲进行探讨并给出一种遗传算法的智能作曲模型,并提出一种简化的模型.对该模型分别从算法设计和算法实
提出了一种基于法矢控制的B样条曲面逼近的渐进迭代逼近(PIA)算法.一方面该方法将离散数据点的切失、曲率、法矢等几何特征充分应用到离散数据点的逼近问题上,利用数据点两个方
RAID系统具有高可靠性、高可扩展性和高性价比的特性, 是当前解决信息系统外部存储的一种主要技术。随着该技术应用的普及以及系统规模的扩大, 系统实效事件日益频繁, 因此RA