Глубокое «Укрепление обучения» - это обучение роботов новым навыкам быстрее, чем когда-либо

$config[ads_kvadrat] not found
Anonim

Роботы учатся выполнять задачи в ускоренных виртуальных мирах, развивая навыки за считанные часы, которые в противном случае могли бы занять месяцы. Имитация глубокого подкрепления обучения (или Deep RL) означает навык, который обычно занимает 55 дней для A.I. учиться в реальном мире занимает всего один день в гиперускоренных классах.

«У него есть потенциал для того, чтобы по-настоящему революционизировать то, что мы можем сделать в области робототехники», - заявил на четверг на саммите Re-Work Deep Learning Summit в Лондоне Райя Хадселл, исследователь из Google DeepMind. «Мы можем выучить навыки человеческого уровня».

Это может показаться нелогичным, поскольку весь смысл роботов в том, что программисты могут научить их делать что-то, верно? Однако при проектировании машины, которая работает в реальном мире, роботам нужно много данных, чтобы понять, как выполнить задачу в незнакомой ситуации. А.И. можете использовать эти данные, чтобы «выучить» навык, основываясь на всех предыдущих примерах.

Глубокое изучение подкрепления собирает эти данные аналогично тому, как люди учатся: робот будет неоднократно выполнять задачу, например, ловить мяч, и записывать данные, чтобы получить представление о том, как лучше всего поймать мяч в новой ситуации. Когда DeepMind использовал модель в 2013 году, чтобы научить робота осваивать игры Atari, просто приставив его к экрану и сказав ему конечную цель, научное сообщество полюбило его.

Проблема в том, что это занимает вечность. Вам нужно несколько раз бросать шары в робота, или, в случае с Atari, оставить робота одного в своей спальне на некоторое время. Запустив симуляцию MuJoCo в сочетании с прогрессивной нейронной сетью, тренеры могут запустить программу, которая имитирует робота, передает изученное поведение роботу и отображает виртуальные движения в реальном мире.

«Мы можем управлять этими тренажерами весь день и всю ночь», - сказал Хадселл.

Результаты говорят сами за себя. Этот робот, получивший диплом по ловле, теперь может следить за виртуальными шарами, как если бы они были настоящими, готовя его к большому дню, когда его просят поймать настоящий мяч:

$config[ads_kvadrat] not found