博弈论与强化学习实战——CFR算法——剪刀石头布 感谢: 浅谈德州扑克AI核心算法:CFR - 掘金 (juejin.cn) 虚拟遗憾最小化算法(CFR)基础知识详解 - 知乎 (zhih...
CFR算法的发展 算法 算法 鲁棒采样变体 神经网络变体 后悔值 后悔值匹配 策略更新 ...
最大似然估计 贝叶斯派与频率派 概率理解 频率派:概率是一个确定的值,模型中的参数也是一个确定的值。样本数据是由确定的概率分布生成的,因此数据是随机的。多次重复试验,使用事...
GAN 的后序 参考资料 网络博客 令人拍案叫绝的Wasserstein GAN - 知乎 (zhihu.com) 生成式对抗网络GAN有哪些最新的发展,可以实际应用到哪些场景中? - ...
李宏毅视频1 ——从Generator和Discrimator角度来看待GAN [了解生成对抗网络 (GAN) 作者:约瑟夫·罗卡 迈向数...
介绍扩展型博弈的基础知识。 扩展型博弈 Extensive Form Games 表示形式—— 博弈树 使用树状图来表示行动的次序和执行动作时的信息状态 图中有两个参...
介绍矩阵博弈的混合策略求解,最大最小值以及最小最大值,线性规划求解方法以及求解石头剪刀步的一个实例。 1 混合策略 我们已经看到, 矩阵博弈可能没有鞍点或纯策略纳什均衡。然而, 当我们允许混...
gym 框架下的多智能体追逃博弈强化学习平台
A Chinese Translation of Stanford CS229 notes 斯坦福机器学习CS229课程讲义的中文翻译
study python
数学基础,高数,数分
数据科学的笔记以及资料搜集