论文部分内容阅读
在过去的几十年中,随着经济理论、通信工程、企业管理及众多学科中涉及不确定因素和序列性决策问题的大量新模型的涌现,不确定性环境下的马尔可夫决策过程建模理论得到迅速发展。在人工智能领域,马尔可夫决策过程是用来建模规划决策问题的基本理论模型,也是序贯决策的主要研究领域。自古以来,信息和消除不确定性是相联系的。在决策过程中,计算信息的价值的目的是引导不确定性环境下的信息收集过程,提高决策质量,最终实现最优决策。本文的研究工作如下:(1)针对一类需要权衡决策质量和成本的最优不确定性序贯决策问题,建立了一个全新的决策模型——基于信念的价值决策模型(Belief-Based Value of Information,Belief-VOI),通过信息的价值判断决策控制中的最优停止时间,为收集信息的直接成本和这些信息所能提供给未来决策行为的期望收益之间的平衡提供了分析和解决方案工具。(2)本文把Belief-VOI建模理论应用于众包任务质量的决策控制中,详细的推理了建模过程和应用过程,验证了理论的正确性,说明了在决策问题中判定信息的价值的科学性和现实意义。(3)对于在求解一般马氏决策模型的最优策略时面临状态空间过大的不足,本文针对所提出的Belief-VOI模型的特性,研究了效率更高的近似方法,提出了一种基于信念状态的蒙特卡洛采样方法(BMCT),并说明了这种简化方式的可行性和实用性。本文对最优不确定性序贯决策问题和信息的价值在马尔可夫决策过程理论下的应用进行了更深入的探索,实现了人工智能技术在决策分析领域的突破。