论文部分内容阅读
随着Web服务技术与网格技术相融合,Web服务在各个领域的应用越来越广泛,其中基于Web服务的问题求解环境(PSE)已成为目前计算机应用领域的研究热点之一。文本分类(TC)可视为文本归属求解的问题研究,存在多种的分类算法。但是,这些算法缺乏统一管理,算法的接口存在很大差异性。此外,随着分类精度的不断提高,面对更大规模的文本数据,传统的技术难以快速满足文本分类过程所需计算资源。而Web服务技术通过封装分类算法资源,不仅可以提供资源统一管理、开放的标准接口,而且更重要的是能够有效积聚资源,满足分类处理中对资源的要求。因此,为了利于分类算法共享使用、提高研究效率,本文提出了基于Web服务的文本分类问题求解平台(PSE-TC),为研究人员提供大规模并行计算、算法研究比较和结果分析等服务。本论文的研究工作主要包括以下几个方面:1.研究PSE-TC的体系结构。借鉴Web服务资源框架(WSRF)和PSE相关应用研究,针对文本分类的特点,提出了集成文本分类算法的服务平台概念。设计了四层的PSE-TC体系结构,包括资源提供层、Web服务整合层、任务执行层和Web Portal层。2.研究可扩展的Web服务体系。Web服务整合层采用Tomcat+Jboss做为应用服务器,提供资源整合服务。同时通过AXIS组件对外发布服务,提供适合于文本分类算法服务应用编程接口。实现了以Web服务技术贯穿整个分类过程,包括构建分类器服务、分类服务和任务执行状态监控服务。3.研究PSE-TC环境下的服务安全保证。为了满足用户发布的服务具有访问控制的需求,本论文实现一个轻量级的访问控制服务——统一安全认证服务。通过统一安全认证服务将整个服务平台的所有用户按照一定的策略划分为不同角色。建立认证授权机制,实现了用户的证书管理和用户角色权限的分离,为以后的PSE安全方面研究打下了基础。4.研究基于Web服务组合的工作流。为了提高资源的利用率和资源调度的准确性,本论文引用域和域成员的概念,以域成员的层次关系、次序关系为基础,建立服务工作流模型。并在模型的基础上,提出了一种优化服务组合算法,很好地解决工作流管理中的资源冲突、执行中的模式僵化和用户被动地处理工作等问题。5.研究文本分类模型的反馈应用。本论文提出并实现将反馈控制运用于文本分类模型的修正和重构。以支持向量机为例,通过人工交互的方式形成反馈集,将反馈集中的支持向量通过反馈优化和除重等过程,构建成反馈后的分类器。通过应用该反馈方法,仅以少量的反馈文本就可以较大程度地提高分类模型的性能。最后,本论文对PSE-TC和相关的文本分类应用系统进行了测试。通过比对和分析实验结果,验证了上述理论和技术的可行性和正确性。