В епоху, коли кожен клік, кожна взаємодія та кожен цифровий слід записуються та зберігаються, спалахнула нова гонка — не за фізичні ресурси, а за віртуальне золото нашого часу: дані. Зокрема, набори даних штучного інтелекту стали бажаним товаром, який компанії, уряди та дослідницькі установи гарячково збирають, переробляють та монетизують. Подібно до історичної Каліфорнійської золотої лихоманки, ми знаходимося на світанку ери, в якій інструментами шукачів багатства більше не будуть лопати та решета, а алгоритми та обчислювальна потужність.
Нова золота жила техносвіту

Цифри говорять самі за себе: очікується, що ринок наборів даних для навчання ШІ, оцінений у 3,2 мільярда доларів у 2025 році, зросте до 6,98 мільярда доларів до 2029 року – з вражаючими річними темпами зростання у 21,5%. Цей вибуховий розвиток підкреслює центральну важливість високоякісних наборів даних у нашій економічній системі, яка дедалі більше орієнтована на ШІ.
«Дані – це нова нафта» – ця фраза британського математика Клайва Хамбі стала часто цитованою мантрою останніх років. Але, як влучно зазначає блог Unitlab, цінними є не самі дані, а їх обробка та уточнення. Так само, як сира нафта стає цінною лише тоді, коли її переробляють на бензин, пластик чи хімікати, дані необхідно сортувати, очищувати, анотувати та структурувати, щоб реалізувати свій повний потенціал.
Європейська комісія прогнозує, що економіка даних у країнах ЄС-27 може зрости з 325 мільярдів євро у 2019 році до понад 550 мільярдів євро до 2025 року, що еквівалентно приблизно 41% всього ВВП ЄС. Згідно з дослідженням PwC, у світовому масштабі штучний інтелект може зробити внесок у світову економіку на суму до 15,7 трильйона доларів до 2030 року.
Від сировини до продукту переробки: ланцюжок створення вартості даних
У сучасній економіці даних вже недостатньо просто володіти великими обсягами інформації. Справжнє мистецтво полягає в перетворенні цих необроблених даних на цінні висновки та навчені моделі штучного інтелекту.
«Дані існують у різних формах, кожна з яких має свої характеристики та проблеми», – пояснюється в блозі DataHub Analytics. «Більшість даних існує в необробленому, неструктурованому та фрагментованому стані. Компанії переповнені даними з різних джерел – соціальних мереж, відгуків клієнтів, даних про продажі, даних датчиків тощо – всі вони зберігаються в різних форматах і часто розрізнені по різних відділах».
Саме тут ШІ з'являється як «сучасний алхімік»: він може перетворювати необроблені, хаотичні дані на цінні ідеї, що сприяють успіху бізнесу. Завдяки потужним алгоритмам та машинному навчанню ШІ може обробляти величезні обсяги даних, виявляти закономірності та передбачати майбутні тенденції з надзвичайною точністю.
DataScientist42: «Ми витрачаємо 801% нашого часу на очищення та структурування даних, перш ніж зможемо навіть розпочати фактичне навчання машинному обслуговуванню. Це невидима частина айсберга штучного інтелекту, яку ніхто не бачить. #AIDataIsTheNewGold #MLOps»
Високоцінні набори даних: найкращі елементи інтелектуального аналізу даних
Не всі набори даних однаково цінні. Європейська комісія ввела термін «набори даних високої цінності» (HVD), який стосується даних, що можуть створити найбільшу цінність для суспільства, економіки та навколишнього середовища. Ці HVD особливо важливі з огляду на поширення застосувань штучного інтелекту та машинного навчання в різних галузях.
Якість та повнота навчального набору даних мають вирішальне значення, оскільки вони дозволяють алгоритмам штучного інтелекту, особливо моделям машинного навчання, вивчати та розуміти закономірності та взаємозв'язки в даних, тим самим покращуючи здатність моделі переносити свої знання на невідомі випадки.
Очікується, що ринок аналітики великих даних, оцінений у 271,83 мільярда доларів у 2022 році, досягне вражаючих 745,15 мільярда доларів до 2030 року, зі сукупним річним темпом зростання 13,5%. Ці цифри підкреслюють величезне значення, яке компанії надають аналізу та використанню даних.
Видобування даних: виклики нової золотої лихоманки

Як і традиційний видобуток золота, видобуток даних також пов'язаний з численними викликами та ризиками. Фундаментальне питання, яке хвилює багато компаній та дослідників: «Скільки коштує мій набір даних?»
Незважаючи на очевидну важливість даних у сучасному бізнесі, деякі фундаментальні питання залишаються без відповіді: «Що таке цінність даних? Як її можна кількісно оцінити?» «Цінність» даних часто розуміється кількісно лише тоді, коли вони використовуються в застосунку, а результати оцінюються, тому наразі важко оцінити цінність великих даних.
Етик ШІ: «Цінність даних полягає не лише в їхньому розмірі, а й у їхній якості, різноманітності та етичному зборі. Ми повинні перестати ставитися до даних як до сировини та почати поважати їх як культурні та соціальні артефакти. #DataEthics #ResponsibleAI»
Бюджетування даних – це ще одне складне питання. Збір наборів даних для ШІ – це трудомістке, дороге та складне завдання. Для практиків інвестування в дані часто залишається стрибком у невідоме. Виникають два ключових питання: 1) Яка очікувана продуктивність насичення моделі ШІ заданою кількістю даних? Та 2) Скільки додаткових даних потрібно для досягнення заданого покращення продуктивності?
Синтетичні дані: новий рубіж розвитку штучного інтелекту
Перспективним розвитком у наборах даних штучного інтелекту є синтетичні дані. Хоча реальні дані завжди є найкращим джерелом аналітики, вони часто є дорогими, незбалансованими, недоступними або непридатними для використання через обмеження конфіденційності та нормативні акти.
Синтетичні дані пропонують елегантне рішення: вони штучно генеруються за допомогою комп'ютерного моделювання або алгоритмів, але зберігають статистичні властивості та розподіли вихідного набору даних, таким чином відображаючи реальні дані. Ця технологія дозволяє генерувати дані на вимогу, у будь-якій кількості та з точними специфікаціями.
За оцінками Європейської комісії, до 2025 року обсяг економіки даних у Європі становитиме 1 трильйон доларів, що еквівалентно 61% ВВП регіону. З появою синтетичних даних ця вартість може значно зрости.
Екосистема економіки даних: хто переможці?
У новій золотій лихоманці даних різні гравці вздовж ланцюжка створення вартості позиціонують себе. Телекомунікаційні компанії, які вже надають цифрову інфраструктуру, мають особливу можливість сприяти створенню екосистем даних. Однак, як не дивно, їхня участь в екосистемах даних є однією з найменш розвинених серед усіх секторів — лише 19% зміцнюють існуючі ініціативи екосистем даних, порівняно з 4% в енергетичній галузі.
Географічний розподіл економічних вигод від штучного інтелекту демонструє цікаві закономірності: очікується, що Китай отримає найбільші економічні вигоди від ШІ, зі збільшенням ВВП на 26% у 2030 році, за ним іде Північна Америка з 14,5%. Разом на ці регіони припадатиме приблизно 70% світового економічного впливу.
Аналітика в режимі реального часу: Нова золота лихоманка
Хмарні технології баз даних революціонізують можливості аналітики в режимі реального часу в різних галузях, дозволяючи організаціям отримувати корисну інформацію з величезних наборів даних з мінімальною затримкою. Ці технології включають оптимізацію сховища у стовпчику, обробку в пам'яті та можливості потокової передачі даних.
CloudArchitect: «Аналітика даних у режимі реального часу — це вже не просто приємна річ, а обов’язкова. Компанії, які не можуть приймати рішення за лічені секунди, будуть витіснені тими, хто може. #RealTimeAnalytics #CloudNative»
Бізнес-цінність аналітики в режимі реального часу демонструється на прикладах електронної комерції, фінансових послуг та виробництва, водночас визнаючи проблеми впровадження, пов'язані з якістю даних, управлінням витратами, прогалинами в навичках та архітектурною складністю.
Етичний вимір золотої лихоманки даних
З експоненціальним зростанням економіки даних зростають і етичні проблеми. Зростання доступності персональних даних призвело до суворіших правил та егоїстичної політики з боку технологічних гігантів. Штучний інтелект — це пожирач даних, який уникає явно особистого на користь повноцінної сукупності даних. Обидві тенденції піднімають складні питання щодо власності цінного базового ресурсу.
«Мантра середини 2000-х років про те, що «дані – це нова нафта», набуває нового життя: використовувати їх та переробляти на персоналізовану рекламу стало складніше завдяки посиленню регулювання та егоїстичній політиці з боку технологічних гігантів», – повідомляє The Economist.
Погляд у майбутнє: Наступний етап золотої лихоманки даних
Конвергенція безсерверної аналітики, інтеграції штучного інтелекту, периферійних обчислень та федеративних запитів обіцяє подальше трансформування того, як організації використовують аналітику в режимі реального часу для конкурентної переваги в цифровій економіці.
Штучний інтелект та великі дані також дедалі частіше використовуються для чутливих операцій та ліквідації наслідків стихійних лих. Численні випадки використання продемонстрували, що ШІ може забезпечити ефективне інформаційне забезпечення громадян, користувачів та клієнтів у кризові часи.
«Штучний інтелект – це модне слово, яке впливає на кожну галузь у світі. З появою таких передових технологій завжди виникатиме питання про їх вплив на наше соціальне життя, навколишнє середовище та економіку, що впливає на всі зусилля, спрямовані на сталий розвиток», – попереджають дослідники.
Висновок: Золотошукачі 21 століття

Аналогія «дані – це нове золото» з кожним днем набуває дедалі більшої актуальності в нашому дедалі більш пов’язаному та керованому штучним інтелектом світі. Як і під час історичної золотої лихоманки, найбільші прибутки сьогодні не обов’язково отримують ті, хто просто накопичує великі обсяги даних, а ті, хто надає інструменти, інфраструктуру та методи для ефективної обробки, аналізу та монетизації цих даних.
Майбутнє належить тим, хто може не лише збирати дані, а й розуміє, як етично та відповідально використовувати їх для створення реальної цінності для суспільства, економіки та довкілля. У цій новій економіці даних справжніми піонерами є не збирачі даних, а алхіміки даних — ті, хто може перетворити необроблену інформацію на цінні висновки.
У міру того, як ми заглиблюємося в цифрову епоху, здатність ефективно курувати, вдосконалювати та використовувати набори даних для ШІ стає все більш критичною конкурентною перевагою — не лише для компаній, а й для цілих економік. Нова золота лихоманка розпочалася, і питання вже не в тому, чи брати участь, а в тому, як вижити та процвітати в цьому новому ландшафті даних.
Подальші посилання:
- Звіт про ринок наборів даних для навчання ШІ
- Блог: Оброблені дані – це нова нафта
- Вартість європейської економіки даних до 2025 року становитиме 550 мільярдів
- Штучний інтелект значно збільшить світовий ВВП – звіт PwC
- Алхімія даних: перетворення сирих даних на золото за допомогою штучного інтелекту
- Обсяг ринку аналітики великих даних перевищить 745,15 млрд доларів США до 2030 року
- Революція синтетичних даних: як вона підживлює ШІ?
- The Economist: Оскільки персональні дані стає все складніше отримати, штучний інтелект поглинає все інше