人工智能-远程-1个月
¥1-6K/月
技能要求: 深度学习
经验要求: 5-10年经验
程序员客栈
2024-04-19 16:20
工作描述:
项目编号:【33091】
用ippo去训练mpe的simple_spread环境下的智能体,模型和环境都配好了,但是奖励一直不收敛,能不能在上面的基础上,再给IPPO加上经验回放池(off-policy)、然后中心化训练去中心化执行(CTDE),IPPO的奖励收敛就行了,修改后的模型不要求收敛(具体需求详谈)
公司信息

立即沟通