论文部分内容阅读
问题求解环境(Problem Solving Environments,PSE)是目前计算机应用领域的研究热点之一,并已得到了广泛的应用。本文提出并构建了基于网格的文本分类PSE(PSE for Text Categorization,PSE-TC),实现了能同时处理数值与非数值数据的多学科问题求解环境(MultidisciplinaryPSE,MPSE)。PSE以一致的接口提供研究某类问题的多种技术和方法;文本分类是数据挖掘的核心技术之一,但现有的多种文本分类方法的接口存在很大差异。为了提高研究效率,利于分类方法研究及使用,作者提出将这些分类方法放在统一的环境内,创建文本分类PSE平台。由于现有技术难以满足文本分类过程所需计算资源,而网格技术能够有效积聚资源,满足分类技术对资源的要求。因此,作者提出将网格与文本分类PSE相结合,构建PSE-TC,实现二者优势互补,以满足大规模数据处理的要求,并提高分类结果精度。本文提出并实现了四层网格架构的PSE-TC,以统一的接口对外提供服务。在PSE-TC中,作者在三层网格架构加上新的中间件层—Agent,(1)该层包装了底层的单个网格服务,对用户屏蔽了不同网格服务提供者间差异;(2)通过Agent中的工作流工具规划了文本分类中常用底层服务调用序列,整合并包装这些服务,用户调用单个这类服务,即可完成一系列的底层服务调用,以简化用户调用过程,提高运行效率;(3)Agent中服务均以统一接口对外提供,使用户服务调用组件具有可复用性;(4)Agent中工作流工具也使用户能够规划、定义自己的任务,动态创建用户应用,增强了系统的重构功能。考虑到网格的资源共享特征也带来了安全隐患,仅有授权和认证等安全措施还难以保证用户隐私在传输及计算等过程中不被泄漏。因此,在分析研究现有分布式SVM文本分类器基础上,本文提出并实现了基于同态加密(homomorphic encryption)技术的数据隐私保持(数据隐私保持包括原始用户训练数据隐私保持、原始用户数据隐私保持、用户数据隐私保持,Privacy Preserving)。作者研究并实现了一种分布式SVM文本分类器—GSVC(Growing Support Vector Classifier),(1)在训练该文本分类器过程中,分布在不同服务器上的GSVC服务无需交换核心向量及训练数据,即可构建本地分类器模型,实现原始用户训练数据的隐私保持;(2)在计算用户文本所属类别时,根据同态加密理论等,作者提出对原始用户文本中单词进行乱序排列,并分成多个部分在不同的GSVC上进行计算,保持原始用户数据隐私;(3)分布式GSVC间传递加入干扰的向量,避免分布式GSVC根据来自其他GSVC的向量推导出用户原始数据分布,以实现用户数据隐私保持。实验结果显示,该方法在保护用户原始数据隐私的基础上,仍能取得较好的分类精度。另外,在网格应用中,网格服务调用慢的问题尚未得到彻底解决。针对该问题,作者改进了原远程服务调用技术,在服务调用代理中采用缓存池技术,加速远程服务调用,实验结果显示,该法可有效提高调用网格服务的速度。最后,为方便用户使用及结果分析,PSE-TC以Portal技术为基础,提供了Web界面,将网格功能以透明的方式集成到该界面上,为用户提供了简单、直观的服务调用方法,及多种的应用程序启动方法;采用Java 3D技术,实现计算结果的可视化,便于用户对计算结果做进一步分析。综上所述,PSE-TC的设计结合并利用了计算机科学中多个领域的最新成果,突破了现有PSE平台资源不足的限制,提供了安全高效的研究平台,可望对今后的MPSE研究起到一定的推动作用,为多学科的融合提供了新的途径。