维数约减算法研究及其在大规模文本数据挖掘中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:ln86119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,人们处在这个“信息爆炸”的时代,常常面对海量数据分析和处理的任务,且这样的数据仍在以几何级数增长。同时,在现实中这些海量数据往往又是高维而稀疏的,且存在着大量的冗余。因而能对高维海量数据做压缩处理,且保持其内在属性的有效处理方法成为人工智能、机器学习、数据挖掘等领域的重要研究课题之一。高效的维数约减算法是对高维海量数据处理的一种有效方法,且具有一定的实际应用价值。本文的关注点集中在适用于高维海量数据的快速维数约减算法的研究及其具体应用。本文分别提出了两种新的维数约减算法:(1)基于期望扰动的直接随机映像算法(On the Expected Distortion Bound of Direct Random Projection,简称DRP);(2)基于锚点集的最小平方误差等距嵌入算法(Anchor points based Isometric Embedding under least square error criterion,简称AIE)。基于期望扰动的直接随机映像算法DRP具有O ( dn )的时间复杂性,这样的性能评价是建立在对期望扰动分析的基础上的。并证明了1)DRP算法的期望扰动的界。2)在适当的给定条件下,可在O (1)的随机时间内找到一个将期望扰动限定在一个合适范围之内的DRP映像。进而提出了一种获得中肯DRP的启发式算法。此算法具有稳固的渐进加速比,相对于其他随机映像算法具有更好的稳定性。而且在流数据模式下,可采用增量策略,DRP算法的时间复杂性为O ( d log d )。基于锚点集的最小平方误差等距嵌入算法AIE具有O ( n log( n ))的时间复杂性,而且在获得测地线距离后的计算时间复杂度达到对嵌入点数的线性关系,且可以完全并行实现。与Isomap、LLE等非线性维数约减算法相比较,具有更优化的时间复杂性。当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果。但用户提供的查询词往往非常简单,在许多情况下,搜索引擎难以确定用户的查询意图。本文提出了一种利用Web日志中的海量点击数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(Feedback Search Engine ,简称FSE)框架及相关算法。FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息。
其他文献
目的:探讨护理学基础实验课教学改革,将单一的教学模式改为多样新型的教学模式,提升学生的操作技能。方法:2014级护理学专业全体学生及任课教师的进行问卷调查,考核成绩与201
通过对混凝土箱涵的设计和验算,将预应力施加于原箱涵的顶板以及底板部位.利用有限元计算,对其进行厚度做出减薄调整,并继续施加直线预应力.有限元计算结果显示:箱涵施加压力
植物免疫学是植物保护专业的一门重要限选课,课程内容专业性强、内容繁杂、抽象、理论联系实际紧密。我们通过对教学内容、教学方法及考核制度方面进行了一系列的改革和探索,以
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文基于与立体图像密切相关的原理、显示、合成、压缩四个关键要素,分别对静止自由立体图像视觉原理特性、与多视点静止自由立体图像合成显示相关的图像处理、多视点静止自
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
中华人民共和国标准公告2011年第23号公布,经国家质量检验检疫总局、国家标准化委员会批准,《百货店等级划分及评定》国家标准(标准号GB/T27916-2011)已于2011年12月30日公告
让我们看一个这样的场景:乘客坐地铁的每一站会为他赚得一个加密积分通证,而这个加密积分是存于他的数字加密钱包中的,相当于他自己的保险箱。他可以用加密积分去站内的售货
能源开采作为我国的重要经济产业,其能否安全生产倍受关注。矿井提升机是煤矿开采中重要的机械设备之一,承担着煤矿矸石与生产工作人员的提升与下放任务,提升设备的安全运行对煤矿安全生产,尤其是工作人员的生命安全影响重大。可靠的制动系统是提升设备安全正常运转的必要保障,随着监测技术的不断完善,基于运行工况的提升设备监测数据出现了数据量大、属性冗杂等大数据特点,这些数据的处理和合理应用是开展制动系统故障诊断研
在当前'互联网+'全面覆盖的背景下,新媒体对传统报纸媒体的发展产生了较大影响。新媒体主要是通过数字化技术进行传播,将更好视觉盛宴带给受众,相较于传统报纸媒体,