Технології розпізнавання мови: науковий експеримент або реальний прибуток для бізнесу?

  1. Історія питання
  2. розмовний бізнес
  3. недалеке майбутнє

Автор: Євген Власов - генеральний директор компанії Calltouch Автор: Євген Власов - генеральний директор компанії Calltouch. Закінчив Мірей за фахом «Обчислювальні машини комплексні системи і мережі» і РЕА імені Плеханова - «Міжнародна Економіка та Бізнес». У 2011 році почав займатися web-аналітикою, розробкою, впровадженням та розвитком коллтрекінг-сервісу. З 2012 року - генеральний директор Calltouch . Проводить тренінги та семінари по web-аналітиці, коллтрекінг-систем і їх застосування в просуванні сайтів.

На ринку коллтрекінга зріє революція: ми стоїмо на порозі впровадження технології розпізнавання мови. Нещодавно вона знайшла застосування в американських сервісах, як скоро тренд прийде в Росію, яку вигоду отримають власники бізнесів, розглянемо докладніше в статті.

Історія питання

Спочатку розберемося, що таке розпізнавання мови. У науковому середовищі так називають процес перетворення мовного сигналу в цифрову інформацію (наприклад, текстові дані). Антиподом технології служать говорять роботи, що перетворюють цифрову інформацію в мовний сигнал.

Перший пристрій розпізнавання мови з'явилося в 1952 році, воно розуміло вимовлені людиною цифри. На початку 1990 років були випущені програми, що дозволяють працювати з текстом людям з обмеженими можливостями. Але повсюдного поширення технологія не отримала, тому що розпізнавання було неточним через декілька проблем:

  • довільний, наївний користувач;
  • спонтанне мовлення, супроводжувана аграмматизмами і «мовним сміттям»;
  • акустичні перешкоди і спотворення;
  • мовні перешкоди.

довільний, наївний користувач;   спонтанне мовлення, супроводжувана аграмматизмами і «мовним сміттям»;   акустичні перешкоди і спотворення;   мовні перешкоди

Крім того, один і той же слово може звучати по-різному, якщо людина говорить з акцентом, неправильно ставить наголос, змінює темп і гучність мови. Іноді ці деталі впливають на розуміння між людьми, не кажучи вже комп'ютерах.

Проте, поступово програми навчилися розпізнавати голос і першою мовою, який вони зрозуміли, став англійський: він набув значного поширення, досить простий (простіше російського і китайського), а тому вимагає менш складних математичних алгоритмів. Ринок західних IT-технологій швидко ріс і завдяки високій конкуренції незабаром розпізнавання мови стало широко використовуватися в бізнесі.

розмовний бізнес

У Росії найбільших успіхів досяг поки тільки Яндекс: в 2013 році компанія запустила хмарну технологію SpeechKitCloud, яка допомагає синтезувати і розпізнавати мову.

Синтез відбувається за рахунок статистичного підходу в акустичному моделюванні. Простіше кажучи, програма формує новий голос, грунтуючись на інтонаціях живих людей. Це дозволяє надати штучної мови емоційне забарвлення (добра, зла, нейтральна) або наділити статевими ознаками (чоловік, жінка). На момент написання статті сервіс пропонував безкоштовне тестування протягом місяця, подальша орієнтовна вартість становить 5 $ за 1000 запитів.

На жаль, великі компанії поки не поспішають використовувати цю технологію на повну котушку, але ентузіасти все-таки є. Наприклад, російський розробник систем автоматизації колл-центрів Oktell використовує SpeechKitCloud для формування вітань і голосового меню, які чують дзвонять, а також записи відповідей на актуальні питання. Технологія застосовується одночасно з роботою колл-центру, знижуючи навантаження на операторів.

Колегам з Repka.UA практично вдалося замінити людей машинами. Вони з'єднали синтезатор мови SpeechKitCloud і облікову систему інтернет-магазину, розробили сценарій підтвердження замовлення, в результаті з'явилася робот Христина, яка автоматично перевіряє наявність товару і його ціну при надходженні замовлення, розраховує дату відправки і дзвонить клієнтові для підтвердження.

Вони з'єднали синтезатор мови SpeechKitCloud і облікову систему інтернет-магазину, розробили сценарій підтвердження замовлення, в результаті з'явилася робот Христина, яка автоматично перевіряє наявність товару і його ціну при надходженні замовлення, розраховує дату відправки і дзвонить клієнтові для підтвердження

Якщо у людини залишаються питання, дзвінок переводиться на оператора колл-центру. Природно, спочатку відсоток розпізнавання мови у Христини був невисокий, в нестандартних ситуаціях вона не могла замінити людини і підключалася до роботи під час піку вхідних звернень.

Природно, спочатку відсоток розпізнавання мови у Христини був невисокий, в нестандартних ситуаціях вона не могла замінити людини і підключалася до роботи під час піку вхідних звернень

Але, завдяки створенню власної мовної моделі, компанії вдалося підвищити її точність; і вже зараз витрати на робота в 5 разів нижче, ніж на оператора і в 8 разів нижче, ніж на зовнішній колл-центр.

Ще одна можливість SpeechKitCloud - розпізнавання мови, дозволяє клієнтам робити замовлення по телефону в автоматичному режимі. На сьогоднішній день крім стандартних відповідей ( «оформити», «доставка», «підтверджую») технологія розпізнає такі фрази, як «давайте оформимо», «не знаю», «сам заберу», «окей». При цьому система розпізнає порядку 82-95% російської мови, в залежності від вихідного звуку, якості кодування, розбірливості і темпу мови, складності фраз і їх довжини. Використання технології, як і в випадку з синтезом мови, в першу чергу знижує навантаження на колл-центр, а в майбутньому за умови підвищення якості, може повністю його замінити.

недалеке майбутнє

Зараз системи використовуються тільки для прийому і розподілу вихідних і вхідних дзвінків. Однак ми в Calltouch впевнені, що це не межа і до кінця року плануємо завершити інтеграцію технології розпізнавання мови з сервісом коллтрекінга, що дозволити вивести оптимізацію рекламних кампаній і бізнес-процесів в цілому на новий рівень.

Візьмемо для прикладу історію з розподілом дзвінків. Більшість бізнесменів на сьогоднішній день хочуть навчитися управляти потоком звернень по телефону і розділяти тих, хто дзвонить, з метою зробити покупку, від тих, кого цікавить консультація.

Наприклад, магазину іграшок, який дає оголошення в Яндекс.Директ, рекламної мережі Яндекса (РМЯ) і соціальної мережі ВКонтакте, цікаво, яке джерело приносить йому дзвінки, що закінчуються покупками. Припустимо, що ВКонтакте призводить, в основному, бажаючих отримати безкоштовну консультацію, РСЯ - дзвінки в сервіс, а Яндекс.Директ - продажу. У такому випадку варто перерозподілити бюджети на користь Яндекс.Директ, максимально скоротивши при цьому витрати на рекламу в соцмережі. Але, не знаючи, як розподіляються дзвінки потенційних клієнтів, зробити це неможливо.

На сьогоднішній день існує два методи поділу:

  1. Автоматичний. При дзвінку спрацьовує голосова система, яка пропонує зробити вибір: кнопка «1» переводить в відділ продажів, кнопка «2» - в сервісний центр. Ця інформація надходить в систему коллтрекінга і аналізується.
  2. Механічний. Секретар компанії, розуміючи, що того, хто подзвонив клієнта цікавить покупка, натискає цифру «1», якщо послуги сервісу - цифру «2». Сервіс позначає перші дзвінки як «продажні», другі як «сервісні» і будує аналіз на основі цих даних.

Обидва способи залежать від людського фактора. У першому випадку клієнтові незручно здійснювати додаткову дію (натискати на кнопки), і він повісить трубку, або натисне іншу цифру. У другому, секретар може забути позначити дзвінок або «накрутити» результат, якщо, наприклад, від кількості «продажних» дзвінків залежить його KPI.

З приходом нової технології людський фактор вдасться виключити. Якщо навчити систему розуміти ключові слова, які найчастіше використовуються в рекламних оголошеннях, вона сама буде розділяти їх на групи і позначати дзвінок як «продажний» або «сервісний».

Також розпізнавання мови допоможе контролювати співробітників. Наприклад, у власника компанії є відчуття, що підлеглі не допрацьовують, грублять клієнтам або пропускають дзвінки. Перевірити це можна тільки одним способом - прослухавши записи телефонних розмов. Але на це доведеться витратити час і гроші, якщо найняти співробітника для виконання завдання. Тоді як сервіс коллтрекінга з розпізнаванням мови автоматично вкаже на існуючі проблеми. Для цього в систему завантажуються скрипти і шаблони «правильного» спілкування з клієнтами і визначається, скільки разів співробітник повинен вимовити ці слова. Якщо програма знайде їх в розмові, значить, менеджер поводився коректно. З іншого боку, коллтрекінг допоможе виявити агресивну поведінку або неправильне ведення бесіди. Природно, метод не дасть стовідсоткового результату, але допоможе зрозуміти якість спілкування з клієнтами.

Проаналізувавши надану технологією інформацію, можна збільшити продажі. Наприклад, програма виявить слова, які ніколи не використовувалися в рекламних кампаніях, але більшість клієнтів вимовляють їх при дзвінку в магазин. Такі фрази корисно вставити в оголошення, це розширить аудиторію контексту і принесе більший ефект, ніж звичайний текст, складений маркетологами.

Звичайно, потрібен час для того, щоб російські коллтрекінг-сервіси навчилися розуміти мову. Але немає сумнівів, що користувачі по достоїнству оцінять можливості, які відкриє технологія.