基于网格的文本分类PSE研究

被引量 : 1次 | 上传用户:taobaowang1312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题求解环境(Problem Solving Environments,PSE)是目前计算机应用领域的研究热点之一,并已得到了广泛的应用。本文提出并构建了基于网格的文本分类PSE(PSE for Text Categorization,PSE-TC),实现了能同时处理数值与非数值数据的多学科问题求解环境(MultidisciplinaryPSE,MPSE)。PSE以一致的接口提供研究某类问题的多种技术和方法;文本分类是数据挖掘的核心技术之一,但现有的多种文本分类方法的接口存在很大差异。为了提高研究效率,利于分类方法研究及使用,作者提出将这些分类方法放在统一的环境内,创建文本分类PSE平台。由于现有技术难以满足文本分类过程所需计算资源,而网格技术能够有效积聚资源,满足分类技术对资源的要求。因此,作者提出将网格与文本分类PSE相结合,构建PSE-TC,实现二者优势互补,以满足大规模数据处理的要求,并提高分类结果精度。本文提出并实现了四层网格架构的PSE-TC,以统一的接口对外提供服务。在PSE-TC中,作者在三层网格架构加上新的中间件层—Agent,(1)该层包装了底层的单个网格服务,对用户屏蔽了不同网格服务提供者间差异;(2)通过Agent中的工作流工具规划了文本分类中常用底层服务调用序列,整合并包装这些服务,用户调用单个这类服务,即可完成一系列的底层服务调用,以简化用户调用过程,提高运行效率;(3)Agent中服务均以统一接口对外提供,使用户服务调用组件具有可复用性;(4)Agent中工作流工具也使用户能够规划、定义自己的任务,动态创建用户应用,增强了系统的重构功能。考虑到网格的资源共享特征也带来了安全隐患,仅有授权和认证等安全措施还难以保证用户隐私在传输及计算等过程中不被泄漏。因此,在分析研究现有分布式SVM文本分类器基础上,本文提出并实现了基于同态加密(homomorphic encryption)技术的数据隐私保持(数据隐私保持包括原始用户训练数据隐私保持、原始用户数据隐私保持、用户数据隐私保持,Privacy Preserving)。作者研究并实现了一种分布式SVM文本分类器—GSVC(Growing Support Vector Classifier),(1)在训练该文本分类器过程中,分布在不同服务器上的GSVC服务无需交换核心向量及训练数据,即可构建本地分类器模型,实现原始用户训练数据的隐私保持;(2)在计算用户文本所属类别时,根据同态加密理论等,作者提出对原始用户文本中单词进行乱序排列,并分成多个部分在不同的GSVC上进行计算,保持原始用户数据隐私;(3)分布式GSVC间传递加入干扰的向量,避免分布式GSVC根据来自其他GSVC的向量推导出用户原始数据分布,以实现用户数据隐私保持。实验结果显示,该方法在保护用户原始数据隐私的基础上,仍能取得较好的分类精度。另外,在网格应用中,网格服务调用慢的问题尚未得到彻底解决。针对该问题,作者改进了原远程服务调用技术,在服务调用代理中采用缓存池技术,加速远程服务调用,实验结果显示,该法可有效提高调用网格服务的速度。最后,为方便用户使用及结果分析,PSE-TC以Portal技术为基础,提供了Web界面,将网格功能以透明的方式集成到该界面上,为用户提供了简单、直观的服务调用方法,及多种的应用程序启动方法;采用Java 3D技术,实现计算结果的可视化,便于用户对计算结果做进一步分析。综上所述,PSE-TC的设计结合并利用了计算机科学中多个领域的最新成果,突破了现有PSE平台资源不足的限制,提供了安全高效的研究平台,可望对今后的MPSE研究起到一定的推动作用,为多学科的融合提供了新的途径。
其他文献
矿山边坡及排土场具有不稳定的特点,生态环境较脆弱,容易出现地质灾害和环境污染问题。通过有效的措施对其生态环境进行修复,不仅能够降低地质灾害发生的几率,实现当地生态环
<正>试卷讲评课是教学中的一种课型,是在教师的组织下,师生共同对测试的结果进行分析整理,对错误进行纠正,对资源进行拓展,对技能进行巩固提高的过程,也是帮助教师和学生查找
目的系统评价直接口服抗凝药(DOAC)预防骨科大手术(MOS)后静脉血栓栓塞症(VTE)的疗效与安全性。方法计算机检索The Cochrane Library、PubMed、EMbase、CNKI、WanFang Data和
剩余控制权为揭开企业治理问题背后的规律性提供了一条路经。剩余控制权的配置是一个长期的、由多种因素共同决定的过程,认识这个过程十分重要。在我国现有的体制框架内,对剩
在互联网技术和媒体数字化的推动下,汹涌而来的数据正日益深入到社会各个领域,广告业也随之进入了一个崭新的时代。本文从微观信息传播层面和宏观产业格局层面论述了大数据对
反复呼吸道感染是儿科常见病。由于小儿的生理特点、解剖特点、免疫力低下等因素决定了小儿易反复患呼吸道感染。中医外治疗法如针灸、穴位敷贴、推拿按摩、穴位注射等有确切
弧焊焊机负载持续率较低,一般焊机的额定负载持续率只有60%,造成了能源的白白浪费。据统计,电焊机待机有功损耗约为额定容量的1%~2.5%,无功损耗约为额定容量的8%~9%,待机容量达
为了提高测试数据自动生成的效率,通过分析基本花朵授粉算法(FPA)的寻优性能,提出一种基于禁忌搜索的自适应步长花朵授粉算法(TS-ASFPA)并将其应用于测试数据的自动生成中.首先针
<正> 《幸福是什么》是六年制第十一册中的一篇二类课文,作者通过智慧姑娘让三个牧童用劳动实践弄清了幸福含义这一有趣的故事,告诉人们:“幸福要从辛勤的劳动中得到,做出对
针对智能电网建设过程中不断提升的智能化、自动化、互动性等需求,提出面向智能电网的物联网技术,构建了面向智能电网的物联网模型,从而在信息化、安全运行、供电可靠性等方