Алгоритм, который освоил «Понг», теперь отлично работает в «Flappy Bird», все еще один

$config[ads_kvadrat] not found

Настя и сборник весёлых историй

Настя и сборник весёлых историй
Anonim

Совершенствование метода глубокого обучения впервые Pong, Космические захватчики и другие игры Atari, студент из Стэнфордского университета Кевин Чен (Kevin Chen) разработал алгоритм, который неплохо работает на классическом боковом скроллере 2014 года Flappy Bird, Чен использовал концепцию, известную как «q-learning», в которой агент стремится улучшать свою награду с каждой итерацией игры, чтобы усовершенствовать почти невозможную и невероятно захватывающую игру.

Чен создал систему, в которой его алгоритм был оптимизирован для получения трех наград: небольшая положительная награда за каждый оставшийся в живых кадр, большая награда за прохождение через трубу и столь же большая (но отрицательная) награда за смерть. Таким образом, мотивированная так называемая сеть Deep-Q может переиграть людей, согласно отчету, написанному Ченом: «Мы смогли успешно играть в игру. Flappy Bird обучаясь прямо из пикселей и счета, достигая сверхчеловеческих результатов ».

Оригинальный документ Atari, опубликованный в 2015 году в Природа Пришел от компании DeepMind, принадлежащей Google (ныне известной своим мастерством древней китайской настольной игры Go). Достижение DeepMind стало прорывом в том, что потребовалось визуальное - или, по крайней мере, пиксельное - информация, и, с минимальным вводом, смогло максимизировать вознаграждение. Такая система вознаграждения была уподоблена дофаминергической реакции мозга, только упрощена.

Это не первый раз, когда алгоритм побеждает колеблющуюся птицу: более ранний класс студентов по информатике из Стэнфордского университета создал программу, которая, обучаясь в одночасье, улучшила свой счет с 0 проходов до 1600.

$config[ads_kvadrat] not found