Как DeepMind развил устрашающую самоучку А.И. Это может перехитрить людей

$config[ads_kvadrat] not found

Настя и сборник весёлых историй

Настя и сборник весёлых историй

Оглавление:

Anonim

Компьютеры уже пару десятилетий пинают наших хрупких человеческих ослов в шахматах. Впервые это произошло в 1996 году, когда IBM Deep Blue смогла победить чемпиона мира Гари Касперова. Но новое исследование от Алфавита А.И. Снаряжение DeepMind проливает свет на то, насколько ограниченным по масштабам была эта ранняя победа.

Например, Касперов отскочил назад, выиграв три игры и дважды сыграв в плей-офф из шести игр, за старое Ежедневные новости отчет.

Но гораздо важнее, как рассказывает исследователь DeepMind Джулиан Шриттвизер обратный приложения типа Deep Blue также программировались вручную. Это означает, что люди должны были учить А.И. все, что нужно знать о том, как справиться со всеми мыслимыми непредвиденными обстоятельствами. Другими словами, это могло быть только так хорошо, как люди, программирующие это. И в то время как Deep Blue, очевидно, был достаточно хорош в шахматах; дайте ему другую, похожую игру, как Go, и это было бы бессмысленно.

Альфа ноль совершенно другой. В новом исследовании, опубликованном сегодня в журнале Наука, авторы раскрывают, как им удалось не просто научить Альфа-Зеро бить людей в шахматах, но и научить Альфа-Ноль учить себя освоить несколько игр.

Как научить А.И. Научить себя

Альфа ноль был разработан с использованием методики, называемой глубокое обучение подкрепление. По сути, это включает в себя обучение А.И. что-то очень простое, например, основные правила игры в шахматы, и затем повторять эту простую вещь снова и снова, пока она не научится более сложным, интересным вещам, таким как стратегии и методы.

«Традиционно… люди брали свои знания об игре и пытались закодировать ее в правилах», - говорит Шриттвизер, который работает над Alpha Zero почти четыре года. «Наш подход заключается в том, что мы инициализируем случайным образом, а затем позволяем ему играть в игры против себя, и из этих игр он сам может узнать, какие стратегии работают».

Все, что получает Alpha Zero, это основные правила, и оттуда он учится выигрывать, играя сам. Согласно новым результатам, Альфа Ноль заняла всего девять часов, чтобы освоить шахматы, 12 часов, чтобы освоить сёги, и около 13 дней, чтобы овладеть Го. Поскольку он играет сам по себе, он по сути самоучка. Он состоит из всех алгоритмов, управляемых человеком, чем чемпион мира, обойдя чемпиона мира 2017 года по сёги в 91% случаев.

«Он может самостоятельно находить интересные знания об игре», - говорит Шриттвизер. «Это приводит к программам, которые играют больше по-человечески».

Хотя его стиль похож на человеческий и творческий, он также, вероятно, оптимален, по его словам, достаточно, чтобы Alpha Zero могла доминировать практически во всех играх, в которых у нее есть доступ ко всей доступной информации. На самом деле, Alpha Zero настолько сложен, что нам, возможно, придется перейти к совершенно другому классу игр, чтобы продолжать расширять границы того, как A.I. решает проблемы.

Почему Alpa Zero так хорош

А.И. Исследователи любят использовать эти игры в качестве полигона для тестирования более сложных форм алгоритмов по нескольким причинам. Они изящны, и люди играют в них сотни лет, например, это означает, что у вас есть много потенциальных претендентов, чтобы проверить ваш алгоритм. Но они также сложны и запутанны, что означает, что они могут служить трамплином для А.И. это может решить проблемы в реальном мире. Шриттвизер говорит, что следующей областью исследования является создание алгоритма, такого как Alpha Zero, который все еще может принимать оптимальные решения с несовершенной информацией.

«Во всех этих играх вы знаете все, что происходит», - говорит он. «В реальном мире вы можете знать только часть информации. Вы можете знать свои карты, но вы не знаете карты своего оппонента, у вас есть частичная информация ».

Еще есть несколько настольных игр, способных поставить такие алгоритмы, как Alpha Zero, такого рода задачи, - Шриттвизер упомянул Stratego, в котором игроки скрывают свои ходы друг от друга, - и Starcraft, что является еще одной областью интереса для исследователей DeepMind, ориентированных на игры.

«Мы хотим сделать проблемы, которые мы решаем, все более и более сложными», - говорит он. «Но это всегда одно измерение за раз».

В то же время новое поколение компьютеризированных решений проблем Deep Mind уже демонстрирует потенциал для перехода из игрового мира в реальный. Ранее на этой неделе он анонсировал еще один алгоритм под названием AlphaFold, который способен экстраполировать последовательность белка в точное предсказание его трехмерной структуры.Это проблема, которая озадачивала ученых на протяжении десятилетий и могла бы помочь открыть двери для лечения болезней, начиная от болезни Альцгеймера и заканчивая муковисцидозом.

$config[ads_kvadrat] not found