普适环境下轻量级垂直搜索中数据挖掘理论研究

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:smartdudu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在追求“以人为本,如影相随”普适环境下,由于人所携移动设备、手持设备及提供普适计算服务环境的特殊性,给传统垂直搜索带来了新挑战。在诸多的挑战中,针对适合普适计算环境下的轻量级垂直搜索,我们选择了垂直搜索必须的分类理论以及推荐理论展开了研究。在分类理论中,研究围绕分类理论两个重要的问题展开:如何寻求一种优秀的特征提取方法和探索出能适合普适计算应用的分类器算法。而在推荐理论中,针对普适计算需求实时响应的特点,侧重于能提高推荐精度而又能提高其推荐速度的推荐算法的研究。其主要贡献体现在以下几个方面:1)针对传统潜在语义LSI (Latent Semantic Indexing)降维模型,提出了一种奇异值矩阵的调整算法。我们推荐的基于该算法的LSI降维公式,给奇异值矩阵一个正强化形式的权重。因为运用雅克比定理,我们能揭示出,赋予反强化形式权重的传统降维公式会过早出现性能下降,在高维上降维性能差,这些缺点源自于Lanczos近似算法不精确性。我们的调整算法能有效地降低反强化形式权重带来的冲击。同时,我们运用雅克比定理展现出,现存的多种降维公式,可以归结到如何去选择SVD空间下的一个向量,从而消除了不同LSI降维公式以及不同解释带来的疑惑。三个测试集上测试结果表明,在不增加计算复杂度前提下,调整算法不仅可以提升传统LSI降维公式在文本分类上的性能,而且我们建议的LSI降维公式在性能也能超过最新算法SVR (Singular Value Rescaling)。2)提出了一种高性能的快速降维理论——不精确谱系分析。该降维仿效单边雅克比(Jacobi)算法模型,根据一个向量的模值,来对一个原始矩阵进行排序,然后按照模值大小,直接选择近似矩阵来替代原始矩阵,原空间下一向量直接与近似矩阵相乘,得到降维的向量。运用支持向量机,通过简单的推理,我们发现,不精确谱系分析在降维功能上等价于潜在语义分析(LSI)中的一个降维公式。我们实验验证了该LSI降维公式在降维中的可行性,从而也验证了不精确谱系分析在理论上的可行性。而且,我们给出该方法降维带来的误差。三个测试集上的测试结果一致表明,不精确谱系分析极快的降维效果可以达到或超过经典LSI降维公式。3)提出一种基于错误反馈和调整的推荐算法。我们将向错误学习的方法引入协同过滤(Collaborative Filtering)领域,用于改进最基础的推荐算法。在行推荐算法UPCC (User-based Pearson Correlation Coef-ficient)中,我们引入并定义预测误差,根据UPCC实际值和预测值的差值作为一个用户预测误差。我们用列推荐算法IPCC (Item-based Pear-son Correlation Coefficient)来预测一个用户的习惯性的偏差。在实际使用UPCC预测用户在一个项目(Item)上的偏好时,我们用预测值减习惯性偏差,得到最后的用户可能偏好。四个测试集的测试结果一致表明,用户提供的样例数目超过五个时,预测一个用户习惯性偏差可以有效补偿UPCC预测方法本身不精确的缺陷。4)提出了一种有偏放大法用于提升列推荐算法(IPCC)的推荐精度。在列推荐算法(IPCC)上试图使用个例放大法(Case Amplifica-tion)时,我们发现,当只有一个项(Item)时,传统的个例放大法会给仅有的一个项过多的权重(100%),去预测用户在其他项上的偏好。这样反而会降低列推荐算法(IPCC)推荐的精度。导致推荐精度降低的原因是在分子和分母上放上同等权重值。我们提出的有偏放大法保持分子和分母不同放大权重,来克服这一缺点。同时,我们引入用户的样例数目作为一个调节器,由调节器来自动分配预测公式中分子和分母的放大权重,当用户的样例数目很少时,有偏放大法将降低现有样例的依赖,当用户提供的样例相对较多时候,有偏放大法能自动调整权重,增加对于用户提供样例的依赖。四个测试集的测试结果表明,我们在可以不增加IPCC计算负担的基础上,有效地提高IPCC算法的推荐精度。5)提出了一种半稠密法来加速支持向量机训练和分类速度和推荐算法的推荐速度。我们发现并能揭示,目前最新的两个向量对比的稀疏算法存大量在重复遍历的场景。我们提出半稠密算法来克服重复遍历的缺陷:将被选择的稀疏向量先就近稠密化,然而保持其他稀疏向量的稀疏性。在进行批次对比过程中,重复遍历被选择稀疏向量的缺陷被就近的稠密化向量所解决,重复判断的缺陷也由此解决。半稠密法被用在线程加速上。针对半稠密法的特点,我们包装了一个线程池,用于多线程间加速。而在进程级别上,我们采用读取共享压缩文件的方法取代消息传递。我们选择被业界认同很耗时的列推荐算法(IPCC)作为加速对象,在四个测试集上,加速效果很好。在垂直搜索上的实践表明,我们提出的挖掘理论能有效地服务于实践。
其他文献
随着社会信息技术的进步,当前工作中电子政务系统逐步建立健全,电子公文、上报信息等办公形式发生了根本性改变,大量电子文件应运而生。下面将从电子文件的产生、范围、特点、收
<正> 下回转塔式起重机多采用快速架设,整体拖运的方案。架设机构的形式也很多,本文讨论在实际设计中遇到的四连杆架设机构几何关系及受力状况。一、四连杆机构的几何关系一
摘要:高校与企业的合作已经不再是传统的产学合作中双方优势的累加,在这经济和科技一体化的当下,协同创新思想已经普遍运用于校企合作之中。本文主要是先例举出校企在协同创新中
今天的Internet已经不仅是一个用来共享和交换数据的信息网络,同时也是一个最大规模的分布式计算环境。Internet分布式计算是以大规模、分散控制、动态性、自治性为主要特征
目的 :探讨去脂软肝丸的有效性及抗脂肪肝的作用机理。方法 :通过检测去脂软肝丸对正常动物、高脂饲料及注射蛋黄乳液所致的高血脂症动物和乙硫铵酸引起肝脏载脂蛋白减少所致
目的研究藏药降糖舒胶囊对四氧嘧啶所致糖尿病小鼠的血糖的调节作用。方法从小鼠尾静脉注射100m g/kg的四氧嘧啶造成糖尿病小鼠模型,以藏药降糖舒胶囊1,2,3 g/kg连续灌胃糖尿
俄罗斯著名钢琴家、教育家、莫斯科国立柴科夫斯基音乐学院终身教授、柴科夫斯基音乐学院钢琴学派重要传承人维克多·梅尔扎诺夫去世已经四年了,这位对俄罗斯乃至世界钢琴演
为保证一座新建铁路主跨337 m上承式劲性骨架混凝土拱桥主拱圈外包混凝土安全顺利施工,采用MIDAS/Civil建立施工阶段三维有限元模型,分析了不同纵向分段、横向分环浇筑方案对
<正> 近年来我国高等级公路发展很快。到1990年底,新建高速公路522km,一二级汽车专用公路3816km,其中95%是沥青路面。第八个五年计划期间,高等级公路还将有进一步的发展,使公
近年来,海量的信息已经变得无处不在,面对庞大的数据量,如何有效及时地对数据进行处理是目前面临的一个重要挑战,否则很多数据就会失去它应有的价值。幸运的是极大点查询就是一个