Глубокое «Укрепление обучения» - это обучение роботов новым навыкам быстрее, чем когда-либо

Роботы учатся выполнять задачи в ускоренных виртуальных мирах, развивая навыки за считанные часы, которые в противном случае могли бы занять месяцы. Имитация глубокого подкрепления обучения (или Deep RL) означает навык, который обычно занимает 55 дней для A.I. учиться в реальном мире занимает всего один день в гиперускоренных классах.

«У него есть потенциал для того, чтобы по-настоящему революционизировать то, что мы можем сделать в области робототехники», - заявил на четверг на саммите Re-Work Deep Learning Summit в Лондоне Райя Хадселл, исследователь из Google DeepMind. «Мы можем выучить навыки человеческого уровня».

Это может показаться нелогичным, поскольку весь смысл роботов в том, что программисты могут научить их делать что-то, верно? Однако при проектировании машины, которая работает в реальном мире, роботам нужно много данных, чтобы понять, как выполнить задачу в незнакомой ситуации. А.И. можете использовать эти данные, чтобы «выучить» навык, основываясь на всех предыдущих примерах.

Глубокое изучение подкрепления собирает эти данные аналогично тому, как люди учатся: робот будет неоднократно выполнять задачу, например, ловить мяч, и записывать данные, чтобы получить представление о том, как лучше всего поймать мяч в новой ситуации. Когда DeepMind использовал модель в 2013 году, чтобы научить робота осваивать игры Atari, просто приставив его к экрану и сказав ему конечную цель, научное сообщество полюбило его.

Проблема в том, что это занимает вечность. Вам нужно несколько раз бросать шары в робота, или, в случае с Atari, оставить робота одного в своей спальне на некоторое время. Запустив симуляцию MuJoCo в сочетании с прогрессивной нейронной сетью, тренеры могут запустить программу, которая имитирует робота, передает изученное поведение роботу и отображает виртуальные движения в реальном мире.

«Мы можем управлять этими тренажерами весь день и всю ночь», - сказал Хадселл.

Результаты говорят сами за себя. Этот робот, получивший диплом по ловле, теперь может следить за виртуальными шарами, как если бы они были настоящими, готовя его к большому дню, когда его просят поймать настоящий мяч:

Дата выхода трейлера «Звездные войны: Эпизод 9» может оказаться намного быстрее, чем ожидалось

Ранее на этой неделе мы были готовы добавить полотенце и признать, что первый трейлер фильма «Звездные войны: Эпизод IX» не будет выпущен до апреля на ежегодном праздновании «Звездных войн» Lucasfilm. Но свежий отчет из надежного источника вселяет в нас новую надежду на то, что первый трейлер «Эпизода IX» может появиться очень скоро…

Невероятный новый 3D-принтер в 100 раз быстрее, чем было возможно: видео

Вся трехмерная печать имеет тенденцию смешиваться, но на самом деле есть два специфических стиля с некоторыми довольно существенными различиями. Моделирование методом наплавки (FDM) - это более быстрый, но менее точный метод, который достигается путем наложения расплавленного пластика на форму. Стереолитография (SLA) жертвует скоростью ради точности с помощью ...

Когда «Игра престолов» закончится, Starz станет новым HBO

Когда Игра престолов закончится в недалеком будущем, в умной телевизионной фантазии будет пустота.

$config[ads_kvadrat] not found