基于量化的近似最近邻检索算法的优化

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:viagra2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,近似最近邻检索成为数据挖掘领域的重点研究问题。近似最近邻检索是指在一定的检索精度损失范围内,尽可能高效地在数据集中找到与给定查询向量相近的数据,其中采用向量之间欧氏距离作为度量标准。近似最近邻检索分为量化和二值哈希的检索算法。本文主要研究了基于量化的检索算法的优化问题,主要内容包含:首先,本文研究了基于倒排索引的检索算法的优化方法,提出了邻居极性的概念和局部分区再分割算法。局部分区再分割算法利用邻居极性作为判定标准,解决了基于倒排索引的检索算法在面对海量高维数据集时为了维持检索精度需要耗费大量时间成本的问题,提高了基于倒排索引算法的近似最近邻检索效率。实验表明,局部分区再分割算法在对检索精度无影响的前提下,明显地提升了近似最近邻的检索效率。其次,本文研究了基于乘积量化子码本生成过程的优化算法,提出了基于误差平方和的子码本生成算法以及基于层次化聚类的子码本生成算法。基于误差平方和的子码本生成算法中引入滑动窗口的思想,通过计算乘积量化算法子码本生成过程中使用的K-Means聚类算法的误差平方和,确定合适的子码本大小。基于层次化聚类的子码本生成算法中通过对子空间进行一次层次化预聚类,确定后续子码本生成过程中K-Means聚类算法的K值以及初始簇心。实验表明,基于误差平方和的子码本生成算法能够在保证近似最近邻检索准确率前提下,尽可能地减小码本的大小,从而能够降低时间成本。基于层次化聚类的子码本生成算法通过预聚类确定初始簇心后,近似最近邻检索准确率明显高于同样子码本大小的经典乘积量化算法。再次,本文研究了基于乘积量化的子空间划分过程的优化算法。子空间划分过程的优化算法致力于寻找总体离散程度较小的子空间划分方式,离散程度较小的子空间在进行K-Means聚类算法时能够获得误差平方和较小的类簇,进而使得子码本能够实现更好的量化效果。优化的子空间划分算法利用方差找到整体离散程度最小的子空间组合,将重新组合的子空间进行乘积量化。实验表明,优化的子空间划分算法能够明显地提升近似最近邻检索准确率。最后,我们在真实数据集上对本文提出的子码本生成优化算法以及优化的子空间划分算法进行了结合实验。实验结果表明:基于层次化聚类的子码本生成算法与优化的子空间划分算法结合后,近似最近邻检索准确率高于单一的任意一种优化算法,并且明显优于经典乘积量化算法。
其他文献
在不作为的过失犯罪中要想判定行为人在哪种情形下才能受到法律的否定性评价,需要从方方面面做出综合考量。首先,既然要对行为人是否成立不作为的过失犯罪进行研究那么就必须先探求其作为义务的产生来自何处,在本文中将结合相关案例,对先行行为使行为人负担作为义务的相关争议问题进行梳理;其次,注意义务的违反在过失犯罪的判定中占据着举足轻重的地位,本文试图从注意义务的概念、内容和判断标准三个方面出发,厘清在哪种情形
在当前世界经济一体化的发展趋势下,各国企业的发展面临着来自国内国外的巨大挑战,经营者之间的竞争为此更加激烈。为了提升各自的市场竞争力,参与经营者集中成为重要的选择。面对日益增长的经营者集中案件,为减轻执法机构的工作负担,维护公正的市场竞争环境,经营者集中简易案件审查制度呼之欲出。本文通过对实践案件的审查过程进行分析,思考案件在审查过程中所暴露出的一些问题。梳理经营者集中简易案件审查制度适用的实体因
破产重整制度为挽救陷入经营困境的破产企业发挥了重要作用。我国的破产法律规定,在破产重整期间,对于困境企业的管理以法院指定管理人为原则,以适用债务人自行管理为例外。债务人自行管理制度有着管理人制度无法替代的优越性,但是该项制度在司法实践过程也面临一些问题,对于这些问题,我们应当寻求最优的解决方法,促进债务人自行管理制度的不断完善。本文以旭日公司重整案为典型案例,通过分析案例中反映的法律问题并结合我国
民事既判力理论是大陆法系背景下有关诉讼终点的理论,也是判决效力体系中最重要的组成部分。其理论内涵以及实践化程度是体现一国民事诉讼体系先进性的晴雨表。近些年,我国学术界对既判力理论有着较系统而丰富的讨论,已经迈入理论成熟期,但实践化过程并不乐观。具体障碍包括,传统司法环境的束缚、既判力制度的缺失、第三人撤销之诉与再审制度的矛盾对立、实务中诉讼标的识别方法的迷失,这些方面都影响了既判力理论的制度性转化
商事调解与商事纠纷的特点契合度较高,日益成为解决商事纠纷的重要机制。与国际上发达国家相比,我国的商事调解制度面临着立法空白、调解组织建设不足、调解人才参差不齐、调解协议效力不明确等困境。文章采用比较分析法、历史研究法等研究方法,从立法和实践两方面提出了完善意见。在立法方面,我国应制定专门的商事调解法、赋予商事调解协议执行力、建立商事调解协议的审查机制,为商事调解制度的发展提供法律依据和制度支撑。在
在我国经济社会不断发展的大背景下,公共利益保护成为社会日益关注的重点问题。一旦行政机关不能做到依法及时履行职责,公共利益将面临受到损害的局面。行政公益诉讼正是基于督促行政机关依法及时履行维护国家社会公共利益的需要而产生的诉讼制度。诉讼活动的产生基于原告的起诉行为而启动,引起法院的审判调查程序和被告的抗辩活动。在行政公益诉讼法律关系中,哪些法律主体能够提起行政公益诉讼、具有原告资格,是行政公益诉讼制
伴随着经济体系的转变和区域之间发展差距拉大,经济犯罪越来越多,尤其是贪污腐败犯罪。犯罪分子携带钱款逃到境外,导致国家财产遭受巨大损失。由于在刑事诉讼体系中没有缺席审判制度,无法对逃亡的犯罪分子定罪量刑,海外成为了犯罪分子逃出法网的庇护场所。同时,案件被搁置极大的降低了诉讼效率,影响司法公正。2018年是我国刑事诉讼制度发展史上的转折点,通过立法而设立的刑事缺席审判制度,既体现了国家对反腐追逃工作的
近年来“执行难”成了社会热点话题,民事执行的相关问题也越来越受到关注。司法实践中执行异议案件逐年递增,执行异议之诉制度作为民事执行救济手段也必不可免地成为高频探讨焦点。我国的执行救济起步较晚,对于民事执行方面的规定也存在缺失,从而导致了司法方面法律依据缺失造成司法困境。希望通过学界研究结合司法实践分析,运用比较法研究等方法对此制度的司法实践问题提出改进建议。执行异议之诉制度属于一项独立诉讼制度,其
近年来,网络游戏产业的不断发展,基于网络游戏对抗而产生的电子竞技赛事的关注度以及商业价值也不断提升,以转播报道电子竞技赛事为主要核心内容的电子竞技赛事节目也应运而生。电子竞技赛事节目是电视台和网络媒体为主的制作方根据其制作主观意愿选择切换播放的比赛画面,并非是对比赛画面的完整记录,并且还在制作过程中添加了背景音乐、解说员的解说、字幕以及赛后采访等一系列比赛现场外的创作因素,可以将由电视台、网络媒体
实践中,大部分认罪认罚从宽案件适用刑事速裁程序和简易程序,其“从快”、“从简”的司法目标和庭审程序大幅简化的司法现状一方面适应了繁简分流的改革目标,另一方面也暴露了认罪认罚从宽案件证明标准“隐形降低”的客观问题。不顾现实需求与法理逻辑的自洽,一味强调“一体化证明标准”将会使理论与现实脱节,立法与司法产生巨大矛盾。构建差异化的证明标准体系,针对不同的认罪认罚从宽案件类型搭配不同层次的证明标准将有效缓