模仿学习赛车 这个精益的存储库具有从头开始训练和评估赛车Tensorflow模型所需的所有工具! 实际上,仅需5集(不到5分钟)即可生成足够的数据以使模型能够胜任! 注意:上面显示的游戏玩法是在5集训练模型后得出的。 使用更多的训练数据,它可以表现得更好! 此外,它还具有像素化功能,因此您可以看到模型在播放时所看到的效果(96 x 96)。
2023-03-02 16:58:20 12.58MB JupyterNotebook
1
自主驾驶车辆的深度模仿学习 自动驾驶汽车已经引起了学术界(例如牛津,麻省理工学院)和工业界(例如Google,特斯拉)的极大兴趣。 但是,由于普遍的知识,我们发现直接实现全自动驾驶(SAE 5级)非常困难。 为了解决这个问题,深度模仿学习是一种有前途的解决方案,可以从人类的演示中学习知识。 在这个项目中,我们研究了如何使用深度模仿学习来实现车辆动态控制(例如转向角,速度)。 我们使用了Udacity( )提供的数据集和模拟器以及现实世界中的comma.ai数据集。
2023-03-02 16:47:03 14KB Python
1
随着时空跟踪和传感数据的不断增长,现在人们可以在大范围内分析和建模细粒度行为。例如,收集每一场NBA篮球比赛的跟踪数据,包括球员、裁判和以25hz频率跟踪的球,以及带注释的比赛事件,如传球、投篮和犯规。
2022-03-27 21:00:23 63.87MB 模仿学习
1
模仿学习 该存储库提供了论文的Tensorflow实现。 您可以找到经过预训练的网络。 当前的存储库添加了Tensorflow培训代码。 本文中的设置只有几处更改: 我们训练的步数更少(我们执行190k步,本文执行450k步),但这是可配置的。 控制器的分支遵循训练数据的顺序。 我们对输出采用不同的权重超参数(转向,汽油,刹车,速度),因为本文中建议的超参数对我们不起作用。 设置 该存储库使用docker映像。 为了使用它,请安装 。 要生成图像,请使用: docker build --build-arg base_image=tensorflow/tensorflow:1.12.0-gpu -t imit-learn . 如果仅需要CPU映像,请base_image=tensorflow/tensorflow:1.12.0-gpu 。 到目前为止,我们仅使用tensorf
2022-02-22 14:26:41 30.56MB python docker machine-learning tensorflow
1
模仿学习就是希望机器能够通过观察模仿专家的行为来进行学习。OpenAI,DeepMind,Google Brain目前都在向这方面发展。
2022-01-27 11:38:00 21.53MB 深度学习 GAN 生成对抗网络 模仿学习
1
仿制学习用纸清单 RL中的模仿学习论文集,并有简要介绍。 该馆藏涉及“ ,还包含自我收集的论文。 确切地说,“模仿学习”是向专家演示(LfD)学习的普遍问题。 从这种描述中可以得出两个名称,由于历史原因,它们分别是“模仿学习”和“学徒学习”。 通常,学徒制学习是在“通过逆向强化学习(IRL)进行学徒制学习”的上下文中提及的,它可以恢复奖励功能并从中学习策略,而模仿学习始于直接克隆行为的行为,即直接学习该策略( 和Morgan- Kaufmann,NIPS 1989)。 然而,随着相关研究的发展,“模仿学习”一直被用来代表一般的LfD问题设置,这也是我们的观点。 通常,模仿学习的不同设置会衍生到不同的特定领域。 一种普遍的设置是,一个人只能从不互动的专家处获得(1)对预收集的轨迹((s,a)对)(2)他可以与环境进行交互(使用模拟器)(3)而没有奖励信号。 在这里,我们列出了一些其他设置
2021-11-23 15:08:46 12KB
1
深度模仿学习的语用观察 模仿学习算法(使用PPO ): 美国广播公司 AIRL 公元前 钻头 童话 盖尔 GMMIL nn-PUGAIL PWIL 红色 python main.py --imitation [AIRL|BC|DRIL|FAIRL|GAIL|GMMIL|PUGAIL|RED] 选项包括: 仅状态模仿学习: --state-only 吸收状态指示器 --absorbing R1梯度正则化 :-- --r1-reg-coeff 1 (默认值) 结果 PPO 火车 测试 航空 火车 测试 公元前 火车 测试 钻头 火车 测试 公平 火车 测试 盖尔 火车 测试 吉米 火车 测试 nn-PUGAIL 火车 测试 红色的 火车 测试 致谢 @ikostrikov ( https://github.com/ikostrikov
1
模仿学习基准实施 该项目旨在提供模仿学习算法的清晰实现。 目前,我们已经实现了行为克隆, (带有综合示例),和。 安装: 安装PyPI版本 pip install imitation 安装最新的提交 git clone http://github.com/HumanCompatibleAI/imitation cd imitation pip install -e . 可选的Mujoco依赖性: 请按照说明在安装 。 CLI快速入门: 我们提供了几个CLI脚本作为imitation实现的算法的前端。 这些使用进行配置和复制。 从examples / quickstart.sh中: # Train PPO agent on cartpole and collect expert demonstrations. Tensorboard logs saved in `quickstar
1
模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识,以复制他们的行为。它已经成功在视频游戏、自动驾驶、机器人模拟和物体操纵等领域得到了证明。然而,这种复制过程可能会有问题,比如性能高度依赖于演示质量,并且大多数经过训练的代理在特定于任务的环境中只能表现良好。
2021-07-03 09:13:32 488KB 模仿学习
1