DeepMind А.И. Преодолевает разрыв между голосами роботов и людей

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

Искусственный интеллект просто сделал голоса роботов более реалистичными.

DeepMind, который ранее демонстрировал силу А.И. побеждая человека-игрока в Go в марте и сокращая его счет за электроэнергию вдвое в июле, теперь он сосредоточен на синтезе речи.

Исследовательская группа A.I, которая является частью материнской компании Google Alphabet, сегодня утром сообщила, что создала новую технологию под названием WaveNet, которая может использоваться для более точной генерации речи, музыки и других звуков, чем раньше.

DeepMind объясняет, что многие существующие методы синтеза речи основаны на том, что «очень большая база данных коротких фрагментов речи записывается с одного динамика и затем объединяется для формирования полных высказываний». WaveNet, с другой стороны, использует «необработанную форму волны аудиосигнала». », Чтобы создать более реалистичные голоса и звуки.

Это означает, что WaveNet работает с отдельными звуками, созданными, когда человек говорит, вместо использования полных слогов или целых слов. Затем эти звуки проходят через «вычислительно дорогой» процесс, который DeepMind считает «необходимым для создания сложного, реалистично звучащего звука» на машинах.

Результатом всей этой дополнительной работы является 50-процентное улучшение синтезированной речи в английском и китайском мандаринах США. Вот пример речи, сгенерированной с использованием параметрического преобразования текста в речь, которое сегодня широко распространено и используется DeepMind для демонстрации отсутствия этого метода синтеза речи:

И вот пример того же предложения, сгенерированного WaveNet:

По мере того, как компании продолжают работать над интерфейсами на естественном языке, все более важным становится предложение более реалистичных ответов. WaveNet может помочь решить эту проблему.

$config[ads_kvadrat] not found