Понимание естественного языка - будущее А.И. Распознавание голоса

Маша и Медведь (Masha and The Bear) - Подкидыш (23 Серия)

С появлением Amazon, Alexa и Siri, способных брать на себя больше обязанностей (и становиться все более и более дерзкими), многие задаются вопросом: что дальше для понимания естественного языка и разговорного голосового интерфейса?

В этой гонке участвуют несколько компаний. Есть Wit.ai, компания Facebook, приобретенная - вы можете играть с демо. (Попробуйте эту команду: «Я хочу наблюдать за кошками».) У Apple есть свой HomeKit, и вместе с ним он делает то, что Apple делает лучше всего - пинает задницу. Амазонка также впереди с ее эхо оборудованным Alexa и Echo Dot.

MindMeld - это одна компания, которая идет по пути понимания естественного языка. MindMeld предоставляет свои возможности понимания естественного языка другим компаниям, которые хотят добавить интеллектуальные голосовые интерфейсы к своим продуктам, услугам или устройствам. Компания из Сан-Франциско предоставляет партнерам инфраструктуру и возможности индивидуальной настройки, так что их устройства могут иметь своих собственных, специально настроенных личных помощников. MindMeld недавно объявила о таком партнерстве со Spotify, но также сотрудничает с автомобильными компаниями, оборонными агентствами, компаниями электронной коммерции и многими другими. (И, естественно, он не может поделиться многими особенностями таких партнерств.)

обратный поговорил с Сэмом Васиштом из MindMeld о состоянии области распознавания голоса - но он быстро отметил, что «распознавание голоса» как предприятия теперь является «мирской темой». В наши дни речь идет о «понимании естественного языка». «Распознавание голоса почти достигло зенита: после 50 с лишним лет развития ИИ теперь могут эффективно распознавать речь. Эти системы почти лучше, чем люди на работе, и, безусловно, скоро превзойдут простых смертных.

Таким образом, предсказуемый следующий шаг - как развитие ребенка - научить эти системы Понимаю язык, который они теперь могут распознать. «Этот человек говорит словами; это слова "далеко от" я понимаю, что говорит этот человек; позволь мне помочь.

И этот дальнейший шаг и развитие требует интерпретации имея в виду: Подражая тому, как человеческий разум обрабатывает вербальную информацию. Это уравнение состоит из двух частей. Первый - это намерение: какова цель или желание человека произнести это предложение? Компьютер, который может извлечь намерение из устного предложения, может «понять», на что человек хочет повлиять Икс или взаимодействовать с Y, С этим процессом связана вторая часть уравнения: сущность. А.И. должен знать, как определить сущность, к которой обращаются, объект человеческого намерения.

Для этого MindMeld не использует (как я предполагал или надеялся) философов. Это нанимает экспертов по естественному языку, но большая часть А.И. Процесс «обучения» сам по себе является относительно автоматическим. Если вы учите систему воспринимать заказы на кофе, вам нужно показать системе все возможные способы заказа кофе.

«Мне бы хотелось мокко».

«Можно мне чашку Джо?»

«Просто большой кофе для меня».

И вот сюда приходят эксперты по естественным языкам - лингвисты. Но даже в этом больше нет необходимости, потому что мы можем краудсорсировать данные. Эти инструменты позволяют вам задавать одинаковые вопросы тысячам людей и собирать их ответы. Затем вы просто кормите эти ответы в А.И., и вуаля: А.И. может реагировать на широкий спектр возможных запросов. «Из тысяч запросов мы теперь можем просто узнать, как генерировать миллиарды других запросов», - говорит Васишт.

обратный спросил Васишт, который долгое время был инсайдером в А.И. и область понимания естественного языка, чтобы спекулировать для нас.

Может ли MindMeld участвовать в расширенном диалоге? Например, если я задам дополнительный вопрос, будет ли А.И. понимаете и продолжаете отвечать?

Да. Это часть дизайна. Если кто-то задает вопрос, который является неполным - например, если я заказываю кофе, и я не указываю желаемый размер кофе, он вернется и скажет: «Какой размер кофе вы делаете? хочу?"

Ожидаете ли вы прогресса в тесте Тьюринга?

Я думаю, что мы чертовски близки к этому. Я имею в виду, IBM Уотсон сделал Jeopardy! и я думаю, что это был действительно хороший пример. Мы находимся в этой точке: это очень близко. Так же, как сейчас, с точки зрения распознавания речи, мы находимся в точке, где машины так же хороши, как и люди, я думаю, что мы - безусловно, в ближайшие три-пять лет - окажемся в точке, где большинство этих разговорных голосов системы будут считаться такими же хорошими, как люди.

Какие вещи домашней автоматизации делает MindMeld?

Мы можем применить нашу технологию к любому виду продукта, любому виду услуг, любому типу данных. Домашняя автоматизация является одним из них. В доме у вас есть управление освещением, термостат, системы безопасности, аудиосистемы, видеосистемы и все такое. Мы можем контролировать любую из систем при условии наличия соответствующего интерфейса.

Что бы вы хотели подключить к MindMeld в вашем собственном доме?

Я думаю, что более продвинутые сценарии использования - такие как разговор с моим Spotify, чтобы сказать «Play me the Playling the Rolling Stones» или «Play me classic music этим вечером» - такие вещи были бы… удивительными.

Что-нибудь более неожиданное или нестандартное, что вы хотели бы контролировать своим голосом?

То, что я вам описал, - это то, что я считаю неизбежным. Другими словами, это произойдет очень скоро. Я думаю, что не произойдет сразу же, как появятся такие вещи, как микроволновые печи, кофемашины и холодильники. Управляя этими приборами, я могу сказать: «Готова ли моя кофемашина для приготовления кофе? Включите кофемашину », и если она еще не была приготовлена, он должен вернуться и сказать:« Извините, но ваша кофемашина еще не готова »- такого рода интеллект еще не существует. Это будет святой Грааль: где каждое устройство может поговорить с вами и сказать, что оно может и не может делать. Но мы еще не совсем там.

Как вы думаете, что сдерживает отрасль?

Сейчас это чрезвычайно недорогие приборы. Я имею в виду, что это приборы, которые вы можете купить практически бесплатно. Десять лет назад они стоили намного дороже.Таким образом, добавление новых функций увеличивает стоимость этих устройств. В конечном счете, текущее ценностное предложение очень сильно; большинство из этих производителей не склонны добавлять новые функции, если только они не стоят очень дешево.

Я думаю, что это один из аспектов этого. Другой аспект этого, мы говорим о подключении этих устройств. Таким образом, для подключения этих устройств должен быть не только голосовой сценарий использования. Должно быть больше возможностей, которые необходимо использовать для этого соединения, прежде чем они станут жизнеспособными.

Знаете ли вы о какой-либо компании, которая работает на этом последнем месте?

Многие полупроводниковые компании работают над очень дешевыми микрофонами. Вещи, которые вы можете встраивать - по очень низкой цене, практически на любом устройстве или в любом приложении - позволят сделать голосовой ввод. И вам не обязательно стоять рядом с этими устройствами - вы можете разговаривать с расстояния в 10 футов. Создание этой возможности - я думаю, что это отправная точка. И я думаю, что это позволит людям начать надевать микрофоны на устройства, и тогда последуют другие, более продвинутые возможности. Но на данный момент я не знаю ни одной компании, которая бы создавала умную кофеварку, умную микроволновую печь или стиральную машину.

Каковы ваши лучшие оценки, когда у нас есть полностью умные дома, полностью умные квартиры?

Сегодня у нас фактически есть все основные подсистемы, которые люди хотят автоматизировать, которые могут быть автоматизированы. Это включает в себя освещение, термостаты, системы безопасности, гаражные ворота, замки на входных дверях - все в этом роде. Все это можно сделать. Проблема действительно в ценовых пунктах. Они все еще находятся в той ценовой категории, когда в основном это ранние последователи и люди, которые действительно нуждаются в них. Но цены на эти вещи резко, очень быстро падают. Я думаю, что мы, вероятно, доставим эти подсистемы на массовый рынок в ближайшие пару лет.

Другие вещи, о которых я говорил - автоматизация очень недорогих приборов - я думаю, что они, вероятно, будут в срок от 5 до 7 лет. Больше похоже на 10 лет, прежде чем они станут реальностью. Но, как я уже говорил, это вещи, которые потребуют ряда других вещей, чтобы собраться вместе. И это может произойти раньше, если эти различные ингредиенты сойдутся быстрее.

Как вы думаете, как будет выглядеть квартира в Нью-Йорке или Сан-Франциско, скажем, в 2050 году?

2050! Вот это да. Я думаю, что мы будем полностью там. Виды вещей, которые мы видим в научно-фантастических фильмах - где вы можете в значительной степени разговаривать с каждой системой в вашем доме и контролировать все с помощью голоса - я думаю, что такие возможности будут широко распространены. Конечно, в таких городах, как Нью-Йорк и Сан-Франциско.

«Батареи естественного происхождения» на Марсе могут содержать подсказки о происхождении жизни

Предыдущие исследования обнаружили органический материал на Марсе, но исследователи из Института науки Карнеги взялись за вопрос его образования. Не биологически сформированная, группа предполагает, что эти углеродные соединения были созданы естественной батареей, сделанной из марсианских минералов и соленого рассола.

Что происходит, когда распознавание лица используется на птицах? Наука Объясняет

Технологии распознавания лиц, используемые такими компаниями, как Apple, Facebook и Google, привлекли внимание общественности. Одна из ученых-компьютерщиков объединила свою страсть к технологиям с любовью к птицам. Могут ли эти методы машинного обучения дифференцировать отдельных дятлов?

Мы проверили распознавание голоса через фото с графическими изображениями в Facebook

Сегодня Facebook выпустил функцию, называемую автоматическим альтернативным текстом, которая делает изображения в социальных сетях с высоким качеством изображения более доступными для слепых и слабовидящих людей. Используя функцию VoiceOver в iOS, технология распознавания объектов Facebook перечисляет элементы, которые может содержать рассматриваемое изображение. В частности, те ...

$config[ads_kvadrat] not found