智能决策

National University of Defense Technology via XuetangX

Go to class Write review

《智能决策》课程包括概率推理、序贯问题、模型不确定、状态不确定、多智能体系统等五大板块。第一大板块是概率推理，包括推理表示、推理过程、参数学习、结构学习、简单决策等内容；第二大板块是序贯问题，包括精确求解、近似值函数、在线规划、策略搜索、策略梯度估计、策略梯度优化、行动评价方法、策略运用等内容；第三大板块是模型不确定，包括探索与利用、基于模型的方法、模型无关的方法、模仿学习等内容；第四大板块是状态不确定性，包括信念的表示、精确信念状态规划、离线信念状态规划、在线信念状态规划、控制器抽象提取等内容；第五大板块是多智能体系统，包括多智能体推理、序贯问题、状态不确定、协作智能体等内容。

通过本课程的学习，可以使学员掌握当代智能决策的数学本源、研究思想、研究的方法、使用的工具、具体的应用，以及当代智能决策的发展动态，特别是培养学生灵活运用抽象的数学理论来创新发展智能决策的新模型新算法来解决与军事智能密切相关的管理科学与工程之中的具体问题，做到既有理论的深刻性，又有实践的可操作性，为学员从事学术研究和工程实践打下优势基础。

在学习本课程之前，需要掌握微积分、线性代数和概率统计的基本知识，如果了解了一些经典决策的模型更佳。

Syllabus

第1章：决策简介

第1.1讲：决策的模型与应用
第1.2讲：决策的方法与历史
第1.3讲：决策的影响与内容
第1.4讲：集合族与测度空间
第1.5讲：距离范数特殊矩阵
第1.6讲：凸组合与凸函数
第1.7讲：随机变量的信息熵
第1.8讲：梯度采样压缩方法
第1.9讲：图论基本概念知识
第1.10讲：几类典型概率分布
第1.11讲：讲时间与空间复杂度
第1.12讲：神经网络参数表示
第1.13讲：神经网络激活函数
第1.14讲：反向传播卷积网络
第1.15讲：传统与循环神经网络
第1.16讲：自编码与对抗神经网络
第1.17讲：搜索问题定义表示
第1.18讲：前向与分支定界算法
第1.19讲：动态规划与启发式算法

第2章：概率表示

第2.1讲：信念度和概率
第2.2讲：离散分布函数
第2.3讲：连续分布函数
第2.4讲：联合概率分布
第2.5讲：条件概率分布
第2.6讲：贝叶斯网络
第2.7讲：条件独立性

第3章：概率推理

第3.1讲：贝叶斯网络推理
第3.2讲：简单贝叶斯推理
第3.3讲：和积变量消除
第3.4讲：信念传播与计算复杂度
第3.5讲：直接采样
第3.6讲：似然加权采样
第3.7讲：吉布斯采样
第3.8讲：高斯模型推理

第4章：参数学习

第4.1讲：最大似然参数学习
第4.2讲：贝叶斯参数学习
第4.3讲：非参与缺数据学习

第5章：结构学习

第5.1讲：贝叶斯网络评分
第5.2讲：有向图上的搜索
第5.3讲：马尔科夫等价类
第5.4讲：部分有向图搜索

第6章：简单决策

第6.1讲：理性偏好
第6.2讲：效用函数
第6.3讲：效用设计
第6.4讲：期望准则与决策网络
第6.5讲：信息价值与非理性

第7章：精确解方法

第7.1讲：马尔科夫决策的模型
第7.2讲：策略与值函数定义
第7.3讲：策略评估
第7.4讲：值函数策略与迭代
第7.5讲：值迭代
第7.6讲：线性规划
第7.7讲：线性二次系统

第8章：近似值函数

第8.1讲：参数化表示
第8.2讲：最近邻与核平滑
第8.3讲：线性与单纯形插值
第8.4讲：线性与神经网络回归

第9章：在线规划

第9.1讲：滚动时域与前瞻算法
第9.2讲：搜索分支定界与抽样
第9.3讲：蒙特卡洛树搜索
第9.4讲：启发式搜索
第9.5讲：开环规划

第10章：策略搜索

第10.1讲：近似策略评估与局部搜索
第10.2讲：遗传算法与交叉熵方法
第10.3讲：一般进化与各向同性进化

第11章：策略梯度估计

第11.1讲：有限差分与回归梯度
第11.2讲：似然比方法
第11.3讲：之后奖励方法
第11.4讲：基线扣除法

第12章：策略梯度优化

第12.1讲：梯度上升更新
第12.2讲：有约束的梯度更新
第12.3讲：自然梯度更新
第12.4讲：信任区域更新
第12.5讲：剪裁代理目标

第13章：行动者评论家方法

第13.1讲：行动者评论家
第13.2讲：广义优势估计
第13.3讲：确定性策略梯度
第13.4讲：融合蒙特卡洛树搜索

第14章：策略验证

第14.1讲：性能指标评估
第14.2讲：罕见事件模拟
第14.3讲：鲁棒性与权衡
第14.4讲：对抗性分析

第15章：探索和利用

第15.1讲：赌博机与贝叶斯估计
第15.2讲：赌博机的无向探索
第15.3讲：赌博机的有向探索
第15.4讲：赌博机最佳策略探索

第16章：基于模型方法

第16.1讲：最大似然模型与更新方案
第16.2讲：探索策略与贝叶斯方法
第16.3讲：贝叶斯自适应MDP与后验抽样

第17章：无模型的方法

第17.1讲：均值的增量估计
第17.2讲：Q学习与Sarsa
第17.3讲：资格迹与奖励塑形
第17.4讲：Q函数近似与经验回放

第18章：模仿学习

第18.1讲：行为克隆
第18.2讲：数据聚合与随机混合迭代
第18.3讲：最大边际逆向强化学习
第18.4讲：最大熵逆向与对抗式学习

第19章：信念演化

第19.1讲：信念与离散状态滤波器
第19.2讲：卡尔曼滤波器与扩展版
第19.3讲：无迹的卡尔曼滤波器
第19.4讲：粒子滤波器与粒子注入

第20章：精确信念状态规划

第20.1讲：信念状态MDP与条件规划
第20.2讲：阿尔法向量与剪枝
第20.3讲：值迭代与线性策略

第21章：离线信念状态规划

第21.1讲：完全可观测值的近似
第21.2讲：快速通知界限与快速下界
第21.3讲：基于点与随机点的值迭代
第21.4讲：锯齿上界与点选择
第21.5讲：锯齿启发式搜索与三角化

第22章：在线信念状态规划

第22.1讲：前瞻策略正向搜索与分支定界
第22.2讲：稀疏抽样与蒙特卡洛树搜索
第22.3讲：稀疏树搜索与间隙启发式搜索

第23章：控制器抽象

第23.1讲：控制器
第23.2讲：策略迭代
第23.3讲：非线性规划
第23.4讲：梯度上升

第24章：多智能体推理

第24.1讲：简单博弈和响应模型
第24.2讲：支配均衡与纳什均衡
第24.3讲：相关均衡
第24.4讲：最优迭代与层次化Softmax
第24.5讲：虚构博弈与梯度上升

第25章：序列问题

第25.1讲马尔科夫博弈与响应模型
第25.2讲：纳什均衡与虚构博弈
第25.3讲：梯度上升与纳什Q学习

第26章：状态不确定

第26.1讲：部分可观测马尔科夫博弈
第26.2讲：POMG的策略评估
第26.3讲：纳什均衡与动态规划

第27章：多智能体协同

第27.1讲：分散部分可观测的MDP
第27.2讲：Dec-POMDP的子类别
第27.3讲：响应搜索与非线性规划

期末测试

Taught by

liujin, zhouwen, liweili, and chenjie

Reviews

Start your review of 智能决策

Go to class

Power BI Fundamentals - Create visualizations and dashboards from scratch

Learn AI, Data Science & Business — Earn Certificates That Get You Hired

Taught by

Tags

The Fastest Way to Become a Backend Developer Online

人工智能导论

人工智能

人工智能基础

智能决策

数据、模型与决策

Launch Your Cybersecurity Career in 6 Months Ad

Out of 3000+ Statistics Courses, Here are the Best 9 (Free & Paid) in 2026

[2026] Massive List of Thousands of Free Certificates and Badges

7 Best Mathematics for Machine Learning Courses in 2026

7 Best AI Video Generation Courses (Free & Paid)

[2026] 150 Courses & Webinars on AI in Healthcare

Never Stop Learning.