Speechmatics использует AI для транскрибирования языков, и это лучше, чем Google

$config[ads_kvadrat] not found
Anonim

Speechmatics идет после Google. В прошлом месяце британский стартап снял с производства «Автоматический лингвист» - мощный искусственный интеллект, способный за несколько дней выучить любой язык для транскрипции речи. Команда хочет внедрить технологию для каждого из примерно 7000 языков в мире, способных изменить жизнь.

Начиная с запуска инструмента лингвиста, Speechmatics работает над Omniglot, задачей создания языка в день. На прошлой неделе компания достигла большого рубежа: она официально победила Google, в общей сложности 72 уникальных языка.

Система использует машинное обучение для сопоставления аудиоданных с расшифровкой. Затем он использует лингвистические паттерны из других языков, чтобы сделать процесс максимально простым, выявляя сходства между звуками и грамматическими структурами и применяя их к новым языкам. Процесс очень эффективен: например, работа Speechmatics над хинди заняла всего две недели, чтобы достичь 80-процентной точности. Когда конечный продукт был протестирован с усилиями Google, в нем было на 23% меньше ошибок.

обратный поговорил с Бенедиктом фон Тюнгеном, генеральным директором Speechmatics, чтобы узнать больше.

Как ваша команда впервые начала работать над проектом?

Мы начали проект «Омниглот» как вызов самим себе - посмотреть, сколько языков мы сможем построить за шесть недель. Некоторое время назад мы поняли, что традиционный подход к построению каждого языка по отдельности больше не жизнеспособен, если стремиться к быстрому масштабированию. Помня об этом, мы должны были переосмыслить, что такое язык, как он структурирован и какие сходства существуют между разными языками. Мы нашли способ использовать эти общие черты для определения шаблонов и помочь нашей автоматической системе лингвистов (AL) создавать языки быстрее, чем когда-либо: 46 за шесть недель, если быть точным, или около одного языка в день в течение шести недель. !

Чем это отличается от усилий Google?

Наш подход к построению языка является одним из основных аспектов, который отличает нас от Google. Хотя мы предполагаем, что они строят свои языки индивидуально (или тем, что мы называем «грубой силой»), мы используем силу А.И. оптимизировать и ускорить процесс языкового строительства. Кроме того, в то время как другие сервисы, такие как Google, ориентированы на создание диалектов, а не уникальных языков, мы с гордостью можем сказать, что наши усилия были сосредоточены на уникальных языках со всего мира, в том числе в областях, которые ранее недооценивались крупными технологическими компаниями.

Каковы некоторые из реальных приложений для этого?

Теперь у нас есть технологии и знания, чтобы сделать наш сервис более масштабным, чем когда-либо прежде, и обеспечить автоматическое распознавание речи (ASR) для всех. Это особенно актуально в странах с низким уровнем грамотности, где возможность использовать ранее недоступную технологию преобразования речи в текст может иметь огромное значение для людей. Другие реальные случаи, когда технология ASR может помочь в решении проблем доступности, - люди со всего мира с нарушениями слуха и / или зрения теперь могут использовать такое же простое устройство, как телефон, для взаимодействия с окружающими.

Это улучшает точность хорошо освещенных языков, таких как английский?

Поскольку мы продолжаем развивать больше языков, наш А.И. рамки будут становиться все более искусными в выявлении языковых особенностей и моделей. Мы будем использовать эти знания для дальнейшего совершенствования нашей текущей языковой базы, включая английский.

Может ли это улучшить что-то вроде инструментов перевода Google Pixel Buds в режиме реального времени?

Мы определенно видим, что такие проекты, как Omniglot, помогают совершенствовать инструменты перевода в реальном времени. По мере того, как все больше ресурсов вкладывается в расширение охвата и точности языков, мы увидим постоянное улучшение в сфере услуг перевода.

Работает ли это с любым языком, даже сконструированными языками, такими как клингон?

Мы еще не попробовали построить какие-либо конланги, но не видим причин, по которым они не будут работать. Поскольку на этих языках по-прежнему говорят люди, они также следуют тем же структурным правилам и ограничениям, что и обычные языки (например, количество фонем), что дает AL достаточно данных для сборки.

Вы открыли проект?

Нет, у нас нет планов для этого на месте.

Как будет работать лицензирование?

Языки, предлагаемые в рамках проекта Omniglot, являются бесплатными и не могут использоваться в коммерческих целях. Таким образом, в обозримом будущем к ним не будет приложено никаких лицензий.

Каковы дальнейшие шаги здесь?

Проект «Омниглот» - это только начало для нас. Мы хотим в конечном итоге построить каждый язык в мире, поэтому мы будем усердно работать для достижения этой цели!

$config[ads_kvadrat] not found