Нове покоління асистентів зі штучним інтелектом розуміє не лише слова, а й тишу – і таким чином докорінно змінює наші стосунки з машинами

30 травня 2025 року ElevenLabs оголосила про технологічну революцію, яка може похитнути основи цифрового спілкування. Лондонський стартап Conversational AI 2.0 обіцяє те, що раніше здавалося неможливим: машини, які не лише говорять і розуміють, але й вловлюють тонкі нюанси людської розмови, зокрема тишу.
Всього через п'ять місяців після першої версії своєї платформи Conversational AI, ElevenLabs здійснила квантовий стрибок, який розмиває межі між людською та штучною комунікацією. Технологія інтерпретує слова-заповнювачі, такі як «е» та «ем», у режимі реального часу, автоматично розпізнає 31 мову та бездоганно інтегрує бази знань у природні розмови. Для компанії, заснованої двома польськими підприємцями у 2022 році, це визначне досягнення – і ознака того, як швидко змінюється ландшафт штучного інтелекту.
Кінець роботизованій розмові
«Найбільша проблема попередніх систем мовлення полягала не в тому, що вони говорили, а в тому, коли вони це говорили», – пояснює Йозеф Марко з команди інженерів ElevenLabs. Традиційні голосові помічники працюють за примітивним принципом розпізнавання тиші: пауза довше однієї секунди, і система бере на себе керування. Результатом є ті роботизовані переривання та неприродні паузи, знайомі кожному, хто коли-небудь розмовляв з Alexa чи Siri по телефону.
Розмовний ШІ 2.0 руйнує цю схему за допомогою революційної моделі почерговості. Замість того, щоб просто чекати тиші, система постійно аналізує акустичні сигнали: тривалість паузи, висоту звуку «е», інтонацію незакінченого речення. Воно розуміє, що «Зачекайте, я зараз перевірю…» — це не запрошення говорити, а сигнал чекати.
Ця технологія базується на архітектурах машинного навчання, що працюють на великих даних людських розмов. Система засвоює неписані правила людського спілкування: коли пауза сигналізує про задумливість, а коли сповіщає про передачу. Це різниця між роботом, який реагує механічно, та цифровим співрозмовником, який розуміє.

Багатомовність без кордонів
Хоча більшість систем штучного інтелекту капітулюють при перемиканні мов, нова платформа ElevenLabs робить багатомовність своєю сильною стороною. Автоматичне розпізнавання мовлення підтримує 31 мову без ручного налаштування – вирішальна перевага в умовах глобалізованої економіки.
Система не лише розпізнає, якою мовою ведеться розмова, але й адаптується до перемикання кодів – природного перемикання між мовами під час розмови. Явище, яке є поширеним у мультикультурних компаніях, але перевантажує традиційні системи штучного інтелекту. «Наші клієнти тепер справді можуть мислити глобально та діяти локально», — каже генеральний директор Маті Станішевський. «Агент служби підтримки клієнтів може безперешкодно перемикатися з англійської на китайську та іспанську мови без жодних збоїв системи».
Ця можливість підкріплена ще однією унікальною перевагою: завдяки понад 5000 доступним голосам та розширеним можливостям клонування голосу, кожна компанія може налаштувати свій цифровий голос відповідно до ідентичності свого бренду. Платформа навіть підтримує перемикання між кількома персонажами – один агент може перемикатися між різними персонажами залежно від контексту розмови.
Сила інтегрованих знань
Однією з найбільш вражаючих особливостей розмовного штучного інтелекту 2.0 є безперешкодна інтеграція методу доповненого пошуку даних (RAG) безпосередньо в голосові агенти. Ця технологія дозволяє системам штучного інтелекту отримувати доступ до зовнішніх баз знань у режимі реального часу та отримувати відповідну інформацію з мінімальною затримкою.
Практичне застосування різноманітне: віртуальний помічник у сфері охорони здоров'я може миттєво отримувати рекомендації щодо лікування з бази даних закладу. Агент служби підтримки клієнтів отримує доступ до поточної інформації про продукт із внутрішніх ресурсів. Асистент учня черпає інформацію з наукових баз даних та адаптує її до рівня знань учня.
«Революційною є не лише швидкість, а й конфіденційність», – наголошує Станішевський. «Усі дані залишаються під контролем компанії. Ми не створюємо централізовану базу знань, а дозволяємо кожній компанії використовувати свою власну».

Мультимодальність як стандарт
Ще один прорив полягає в природному поєднанні мовлення та введення тексту. Користувачі можуть безперешкодно перемикатися між різними каналами зв'язку, не втрачаючи безперервності розмови. Ви можете продиктувати адресу, а потім надіслати номер замовлення за допомогою текстового повідомлення, не заплутуючи систему.
Ця мультимодальна функціональність не лише покращує комфорт, але й точність розпізнавання. Складну інформацію, таку як номери продуктів або адреси, можна повідомляти письмово, поки розмова триває усно. Система розуміє контекст та інтелектуально інтегрує обидва джерела інформації.
Готовність підприємства як фундаментальний принцип
ElevenLabs навчилася на досвіді невдач багатьох стартапів у сфері штучного інтелекту: без можливостей, готових до використання на підприємстві, навіть найкраща технологія залишається нішевим рішенням. Таким чином, розмовний ШІ 2.0 відповідає суворим бізнес-вимогам з самого початку.
Платформа повністю відповідає вимогам HIPAA та пропонує варіанти зберігання даних ЄС, а також сертифікацію SOC2. Ці характеристики відповідності роблять технологію придатною для критично важливих застосувань в охороні здоров'я, фінансах та інших регульованих галузях. Відповідність HIPAA включає наскрізне шифрування, редагування захищеної медичної інформації в режимі реального часу та політику нульового зберігання.
Крім того, нова версія пропонує повну інтеграцію SIP-транкінгу та підтримує як вхідні, так і вихідні дзвінки. Функція пакетних викликів дозволяє компаніям автоматизувати масові дзвінки для сповіщень, опитувань або персоналізованих повідомлень.
Ринковий контекст: гонка за мільярд доларів
ElevenLabs зробили це вчасно. Глобальний ринок розмовного штучного інтелекту переживає вибухове зростання: останні аналізи ринку за 2024 рік прогнозують зростання з 13,2 мільярда доларів США у 2024 році до 49,9 мільярда доларів США до 2030 року – щорічний темп зростання 24,9 відсотка. Ці цифри відображають значний перегляд у бік збільшення порівняно з попередніми прогнозами та підкреслюють прискорену динаміку ринку.
Важливе зауваження щодо якості даних: 63,9 млрд доларів США, спочатку згадувані в деяких джерелах до 2028 року, не могли бути підтверджені в поточних ринкових звітах за 2024/2025 роки. Наведені тут цифри базуються на останніх доступних аналізах ринку від MarketsandMarkets (квітень 2024 року) та інших провідних компаній з дослідження ринку. Хоча ранні помічники зі штучним інтелектом вважалися трюками, вони дедалі більше стають критично важливими інструментами для бізнесу. Компанії повідомляють про економію коштів до 60 відсотків на підтримці клієнтів, одночасно покращуючи якість обслуговування завдяки постійній доступності 24/7.
ElevenLabs позиціонує себе як технологічний піонер у цій гонці. У прямих порівняннях з конкурентами, такими як OpenAI, компанія демонструє явну перевагу: точність вимови становить 81,97 відсотка порівняно з 77,30 відсотка у OpenAI. Природність мовлення оцінюється як висока у 44,98 відсотка випадків, тоді як OpenAI TTS отримує низькі оцінки природності у 78,01 відсотка випадків.
Затримка особливо вражає: ElevenLabs досягає часу до відтворення першого аудіо лише 150 мілісекунд, порівняно з 200 мілісекундами для OpenAI. Рівень галюцинацій становить лише 5 відсотків порівняно з 10 відсотками у конкурентів.
Галузі застосування: від медицини до ігор

Практичне застосування розмовного штучного інтелекту 2.0 різноманітне та трансформаційне. У сфері охорони здоров'я технології революціонізують взаємодію з пацієнтами завдяки віртуальним асистентам, які працюють цілодобово та без вихідних, перевіряють симптоми, записуються на прийом та надають персоналізовану медичну інформацію.
Штучний інтелект може обробляти складні медичні запити та розуміти нюанси мови пацієнтів. Він надає обґрунтовані, контекстуально релевантні відповіді, що враховують історію хвороби, ліки та зміни способу життя. Це зменшує залежність від перевірок симптомів за допомогою загальних пошукових систем та мінімізує тривогу, спричинену неточною інформацією.
У сфері обслуговування клієнтів автоматизована автентифікація клієнтів дозволяє заощадити до 60 секунд на кожен дзвінок. Штучний інтелект може отримувати доступ до даних клієнтів, надавати персоналізовані вітання, переглядати попередні замовлення та виявляти можливості для додаткових продажів. Якщо проблему неможливо вирішити, система безперешкодно переходить до роботи людських агентів із повним журналом попередніх спроб вирішення.
В ігровій індустрії технології відкривають нові виміри захопливого досвіду. Персонажі можуть динамічно реагувати на дії гравця та вести природні діалоги, які адаптуються до рішень гравця.
Заповнювач зображення: Колаж із різних сфер застосування – охорона здоров'я, обслуговування клієнтів, ігри
Фінансова стійкість та стратегічне бачення
Амбітні плани ElevenLabs підкріплені надійним фінансуванням. У січні 2025 року компанія залучила 180 мільйонів доларів США в рамках раунду фінансування серії C, досягнувши оцінки в 3,3 мільярда доларів США, що втричі більше, ніж у попередньому році.
Раунд фінансування очолили Andreessen Horowitz та ICONIQ Growth, а також долучилися NEA, World Innovation Lab та стратегічні партнери, такі як Deutsche Telekom та HubSpot Ventures. З моменту свого заснування у 2022 році компанія залучила загалом 281 мільйон доларів США.
Ця фінансова стабільність відображається у вражаючих показниках використання: ElevenLabs створила понад 1000 років аудіо на основі штучного інтелекту, локалізувала понад 1 мільйон годин аудіо та створила понад 10 мільйонів звукових ефектів. Понад 60 відсотків компаній зі списку Fortune 500 вже використовують платформу.
Генеральний директор Станішевський наголошує на довгостроковій відданості компанії «омні-моделям», які поєднують текстові та аудіо моделі для мультимодальної взаємодії. Пріоритети досліджень включають покращений емоційний контроль, планову інтеграцію відео та вдосконалені заходи безпеки на основі штучного інтелекту.
Модель ціноутворення: Масштабованість та гнучкість
ElevenLabs пропонує складну модель ціноутворення на основі кредитів, яка варіюється від безкоштовних базових функцій до індивідуальних корпоративних рішень. Безкоштовний план включає 10 000 кредитів на місяць, тоді як стартовий план за 5 євро пропонує 30 000 кредитів та комерційне ліцензування.
Система кредитів базується на простому принципі: один кредит за символ для перетворення тексту в мовлення, тоді як розмовний штучний інтелект потребує вищих витрат. Якщо щомісячні ліміти перевищено, застосовується оплата на основі використання, що пропонує гнучкість для компаній зі змінними вимогами.
Для розмовного штучного інтелекту бізнес-план пропонує 13 750 хвилин за ціною $0,08 за хвилину, зі значно зниженими цінами для більших обсягів. Корпоративні клієнти можуть замовити індивідуальні рішення для інтенсивного використання.
Технічна реалізація: Зручна для розробників
ElevenLabs надає розробникам надійний набір інструментів, включаючи Python SDK, підтримку Node.js, RESTful API та інтеграцію WebSocket для потокової передачі в режимі реального часу. Модель Flash API забезпечує аудіо зі швидкістю 128 кбіт/с та вражаючою затримкою всього 75 мілісекунд.
Документація для розробників є вичерпною та містить детальні інструкції з інтеграції кількома мовами програмування. Програма грантів ElevenLabs надає стартапам три місяці безкоштовного користування, включаючи понад 200 годин згенерованого аудіо.
Інтеграція WebSocket забезпечує двонаправлений зв'язок для безперебійної взаємодії в режимі реального часу, що є важливим для таких програм, як голосові помічники, чат-боти та інструменти клонування голосу, які потребують низької затримки.
Проблеми та етичні міркування
Незважаючи на всі технологічні досягнення, ElevenLabs стикається зі значними труднощами. Цю технологію вже пов'язували з дезінформаційними кампаніями, зокрема з операціями російського впливу, спрямованими на підрив європейської підтримки України, та фейковими автоматичними дзвінками в політичних кампаніях.
Компанія відреагувала суворою політикою проти несанкціонованого видавання себе за іншу особу та використовує як машинну, так і людську модерацію. ElevenLabs надає публічні інструменти для перевірки того, що аудіо було згенеровано через її платформу, та дотримується стандарту C2PA для відстеження контенту за допомогою метаданих.
«Ми усвідомлюємо відповідальність, яка пов’язана з нашими технологіями», – наголошує Станішевський. «Кожна інновація несе ризики, але ми вважаємо, що прозорість та проактивні заходи безпеки є ключовими».
Майбутнє цифрового зв'язку
Розмовний штучний інтелект 2.0 від ElevenLabs являє собою більше, ніж просто технологічний прогрес, він сигналізує про зміну парадигми у способі взаємодії людей з машинами. Технології перетворюють цифрових помічників на співрозмовників, які розуміють не лише те, що сказано, а й те, що не сказано.
Для бізнесу це означає можливість персоналізувати та гуманізувати обслуговування клієнтів без шкоди для ефективності. Для розробників це відкриває нові можливості для створення інтуїтивно зрозумілого та природного користувацького досвіду. Для кінцевих користувачів це може означати кінець неприємної взаємодії з роботизованими системами.
Стратегічне позиціонування ElevenLabs як лідера ринку, що випереджає таких визнаних гігантів, як OpenAI, у поєднанні з 350-відсотковим річним зростанням, оптимально позиціонує компанію для використання на зростаючому ринку розмовного штучного інтелекту.
Але, мабуть, найважливішим аспектом розмовного штучного інтелекту 2.0 є не його технічна перевага, а його здатність подолати розрив між людською та штучною комунікацією. У час, коли цифрові взаємодії все більше замінюють наші фізичні зустрічі, ця технологія може мати вирішальне значення для збереження нашої людяності в цифровому світі.
Розмовний штучний інтелект 2.0 від ElevenLabs являє собою не просто вдосконалення існуючих технологій, а й поворотний момент у розвитку взаємодії зі штучним інтелектом, подібної до людської. Це встановлює нові стандарти для природних, інтелектуальних та надійних комунікаційних технологій і позиціонує ElevenLabs як провідну силу в наступному поколінні розмовного штучного інтелекту.
У світі, де машини все частіше можуть розмовляти, ElevenLabs створила таку, яка також може слухати.
ресурси
Перевірені джерела та додаткові посилання:
Офіційні оголошення ElevenLabs:
- Блог запуску розмовного ШІ 2.0
- Документація розробника ElevenLabs
- Оголошення про фінансування серії C
Аналіз та порівняння ринку:
- VentureBeat: Запуск ElevenLabs Conversational AI 2.0
- TechCrunch: Фінансування серії C ElevenLabs
- Cartesia AI: порівняння ElevenLabs та OpenAI TTS
Маркетингові дослідження: