Інфографіка: Гостя з майбутнього

  1. нюанси Як створюється контекст
  2. деталі норовиста дівчина
  3. навчання Людський фактор

Сьогодні кожен, у кого є смартфон, може поспілкуватися з роботом. Голосовий помічник «Яндекса» на ім'я Аліса не просто розуміє, що хоче людина, а навіть в стані поговорити з ним по душам. Аліса «олюднити» завдяки нейромереж - технології, здатної дуже скоро породити справжній штучний інтелект.

Натисніть для збільшення
Натисніть для збільшення

1. Щоб не пропустити запит, Аліса через мікрофон у фоновому режимі «слухає», чекаючи, коли з'явиться мова. Розпізнавши голос, вона включає алгоритм, що відслідковує слова «Привіт, Аліса». «Почувши» їх, Аліса відправляє всі наступні слова в вигляді цифрового аудіозапису на сервери «Яндекса». До цього моменту вона нічого не відправляє в Інтернет, використовуючи маленьку нейросеть, що працює на телефоні або планшеті.

2. Система розпізнавання тексту (Automatic Speech Recognition) розбиває мова на перекриваються «шматочки» по 25 мс і розпізнає в них фонеми - звукові одиниці. Кожну вона «ділить» на початок, середину і кінець. Такі «обривки» фонем називають сенонов. У російській мові їх близько 4000, і нейросеть навчають, зачитуючи їй тексти, що включають як можна більше поєднань фонем і сенонов і максимальну кількість поєднань різних частин мови. Навчаючись на такому матеріалі нейросеть «розуміє», який звук або слово найбільш вірогідні в конкретному місці, навіть якщо не до кінця «розчула» мова.

3. Нейросеть діалогової системи визначає, до якого з можливих сценаріїв відноситься запит: геолокація, погода, курс валют, пошуковий запит, вимога відкрити який-небудь сайт, пропозиція просто поговорити і т. Д. Цю нейросеть навчали на мільйонах запитів до "Яндексу" , і тепер вона самостійно, а не за заданими алгоритмами розуміє, до яких сценаріїв віднести навіть нетипові запити. Наприклад, на питання «Як там на вулиці?» Аліса видасть поточний прогноз погоди. Потім інша нейросеть виділяє із запиту всі важливі сутності. У питанні про погоду це будуть місто і період, за який потрібен прогноз.

4. З відповідних баз даних, програм і сервісів підбирається потрібна інформація по ключовим сутностей.

5. Система обробки даних перетворює отримані дані в структурований текстовий формат. Одночасно підбираються саджести - припущення, що ще могло б бути цікаво користувачеві, який зробив такий запит.

6. Діалогова система вибирає один з можливих шаблонів відповіді і заповнює пропуски в ньому, використовуючи отриману в системі обробки даних інформацію. Якщо потрібно, вона пропонує користувачеві таблицю (наприклад, з погодою) або кнопку - скажімо, «Пошукати в Інтернеті».

7. Сформований діалогової системою текстову відповідь надходить в нейромережевому систему TTS (text-tospeech). Вона перетворює текст в послідовність фонем, які озвучуються по-різному, в залежності від того, які фонеми їх оточують. У підсумку мова створюється з нуля. Аліса каже голосом актриси Тетяни Шитова, яка і навчала «говорильня» нейросеть, зачитуючи їй тексти.

нюанси
Як створюється контекст

Аліса «пам'ятає», про що вона тільки що говорила з користувачем. Якщо, дізнавшись «Яка погода завтра в Пітері», потім запитати «А в Москві?», Вона видасть відповідний прогноз. Більш того, іноді Аліса задає уточнюючі питання. Щоб утримувати контекст бесіди, на етапі виділення ключових сутностей заповнюється спеціальна форма, яка містить обов'язкові і необов'язкові для конкретного запиту поля. Якщо в наступному питанні немає ключових слів, явно відсилають до іншого сценарію (скажімо, не погода, а курси валют), Аліса за замовчуванням вважає, що він відноситься до того самого сценарію, що і попереднє запитання. Вона визначає, яке з полів заповненої форми відрізняється. У прикладі з погодою в обов'язковому полі «Геолокація» «Санкт-Петербург» зміниться на «Москву», а дані в інших полях залишаться тими ж. Значить, необхідно надати користувачеві прогноз погоди, але не для Петербурга, а для Москви. Отримавши в системі обробки даних відповідь, Аліса озвучує його користувачеві.

деталі
норовиста дівчина

На відміну від інших віртуальних голосових помічників, у Аліси є характер. Розробники вирішили, що робот - дівчина іронічна, але дотримується дистанцію і не спускати образ. Команда прописала сотні редакторських відповідей на різні питання, які б відображали такий характер. Ім'я повинно було відповідати обраному типажу і не викликати труднощів навіть у людей з дефектами мови. Вирішивши, що робота звуть Аліса, розробники перевірили, чи відповідає ім'я характеру, запитавши про це у добровольців, які допомагають навчати пошук «Яндекса» і оцінюють адекватність відповідей нейромереж. Аліса обігнала інші варіанти з величезним відривом.

навчання
Людський фактор

«Яндекс» навчає нейромережі розуміти, чого хочуть люди, використовуючи гігантські вибірки своїх пошукових запитів. Нейросеть вивчає їх і «усвідомлює», які відповіді адекватні тим чи іншим запитам. Строгих алгоритмів вибору, які можна описати логічним ланцюжком, у нейромереж немає, і в цьому їх сила. Замість заздалегідь заданих програмістами алгоритмів на кожному етапі навчання складної нейромережі доречність її відповідей оцінюють люди. Отримавши від них підказки, які з її дій були правильними, а які ні, нейросеть коригує своє «розуміння». Цю роботу для «Яндекса» за невелику плату роблять добровольці, яких називають толокерамі. Вони ж виконують нескладні завдання на зразок сортування картинок або розшифровки коротких аудіозаписів. Відповіді використовуються, щоб задавати нейромереж правильний напрямок «думок». Спочатку толокеров було кілька десятків, але сьогодні їх співтовариство розрослося до 270 тисяч чоловік.

Фото: GETTY IMAGES (X3)

Матеріал опублікований в журналі «Навколо світу» № 1, січень 2018

Наприклад, на питання «Як там на вулиці?
Якщо, дізнавшись «Яка погода завтра в Пітері», потім запитати «А в Москві?