Исследование X5 Tech и Хабра раскрывает детали работы data-специалистов и факторы, влияющие на эффективность принятия решений бизнесом. Чтобы лучше понять тренды и вызовы отрасли, мы объединили качественные и количественные методы: провели серию интервью, валидировали вопросы и варианты ответов на малой выборке респондентов от аналитиков до MLOps и опубликовали опрос на Хабре.
Исследование системных трудностей, организационных и технологических барьеров в data-сообществе 2025
Как развивается отрасль и с какими вызовами сталкиваются инженеры, архитекторы и исследователи данных
Об исследовании
В исследовании приняли участие более 1150 специалистов, из которых 514 прошли опрос до конца. Мы статистически проанализировали их ответы: выделили повторяющиеся трудности, проследили связи между ними и представили результаты по «модели айсберга». А полученные выводы дополнили кейсами X5 Tech, где аналогичные задачи уже решаются на практике.
Айсберг вызовов data-сообщества
Она позволяет показать глубину зависимостей проблем, процессов и трендов в data-отрасли.
В ходе исследования мы выявили 5 ключевых вызовов data-сообщества
- Data-driven подход и влияние аналитики на бизнес
- Автоматизация рутины и внедрение ИИ
- Масштабируе-мость и скорость работы с данными
- Качество данных и единая трактовка
- Квалификация специалистов, управленцев и инженеров
Каждый Айсберг показывает вызов data-отрасли на трёх уровнях
Выбирайте айсберг в горизонтальном меню и погружайтесь в анализ.
- Верхушка айсбергаОписание симптомов
- Подводная частьВозможные причины
и риск-факторы - ГлубинаТренды, кейсы и примеры
из практики X5 Tech
Разбор по модели айсберга
Data-driven подход и влияние аналитики на бизнес
О data-driven много говорят, но решения всё ещё часто принимают субъективно и по привычке. Аналитика не всегда прозрачно связана с бизнес-результатом, и у команд возникает ощущение, что данные подтверждают уже принятое решение, а не помогают его выработать.
Факты
- 43% респондентов уверены, что свобода в поиске решений повысит эффективность.
- 28% считают субъективность руководства главной болью.
Только 22% специалистов не могут отследить, как аналитика влияет на бизнес-результаты. Большинство компаний уже перешли от субъективных решений к data-driven подходу, когда решения принимаются на основе данных, а не интуиции.
- 29%data-аналитиков
- 30%сотрудников с опытом работы 6–10 лет
Причины
Специалисты, которые сталкиваются с этой проблемой, наиболее часто отмечают следующие факторы:
-
Недостаток квалификации
управленцев
(54%) -
Отсутствие единых
стандартов
(51%) -
Низкий уровень
автоматизации
(59%)
Тренды
Фокус смещается с самого построения отчётов на понимание того, какую бизнес-ценность дают данные. Ключевым становится навык «перевода аналитики на язык денег и процессов». Выигрывают не те, у кого больше дашбордов, а те, кто встраивает аналитику в каждое решение. У кого сотрудники понимают, зачем им данные и как они влияют на выручку, расходы и клиентский опыт.
- 44%
специалистов считают, что через 2–3 года ключевыми станут навыки понимания бизнес-ценности данных
- 18%
специалистов называют фокус на бизнес-ценности основным трендом.
Тренд развития отрасли
-
докажи ценность аналитики
-
аналитика встроена в каждое решение
-
каждый сотрудник принимает решения на данных
Разбор по модели айсберга
Автоматизация рутины и внедрение ИИ
Большая часть работы data-команд по-прежнему завязана на ручные операции. Они тратят часы на ввод, проверку и подготовку данных вместо решения продуктовых задач. Даже при высокой готовности применять AI и ML, устаревшие процессы и бутылочные горлышки ручной аналитики и BI-команд мешают получить реальную выгоду от них.
У нас было две большие зоны, где ручные процессы тормозили бизнес.
Во-первых, внешние операционные задачи: оформление, верификация данных, работа с документами. Проверки занимали часы, ввод делался вручную, а задержки напрямую влияли на скорость найма и качество обслуживания. Мы автоматизировали этот контур с помощью OCR и интеграций, чтобы исключить человеческий фактор и ускорить прохождение всех формальностей.
Во-вторых, внутренняя работа сотрудников с данными и рутинными задачами, для решения которых часто было необходимо подключение
аналитиков. Чтобы снять эти ограничения, мы создали инструменты, которые дают данные сразу: от AI-ассистента, отвечающего за секунды, до X5 ACE — платформы, где сотрудники сами собирают AI-решения без кода.
ACE позволил людям автоматизировать собственные процессы и проверять гипотезы за часы, а не за месяцы. Это та трансформация, которая делает ИИ не «где-то в пилотах», а реальным рабочим инструментом для всех.
Факты
45% специалистов отмечают низкий уровень автоматизации в работе. Чаще с этой проблемой сталкиваются ML-разработчики (61% опрошенных) и data-аналитики (51%).
- 84% специалистов не боятся ИИ — воспринимают его как помощника.
- 70% отмечают сокращение рутины, 63% — ручных операций с данными.
- 59%Продуктовой аналитики
- 60%Деплоя моделейв прод
- 60%A/B-тестирования
Причины
Специалисты, которые сталкиваются с низким уровнем автоматизации, наиболее часто отмечают следующие факторы:
-
Недостаток квалификации специалистов и управленцев
(56%). -
Отсутствие правил и видения
(45%) -
Отсутствие документации (51%) и проблемы качества данных
(49%) -
Недоверие руководства к новым технологиям
(14%). -
Слишком быстрые темпы развития технологий
(31%).
Тренды
Несмотря на барьеры, data-сообщество активно движется к решению проблемы автоматизации через массовое внедрение AI-инструментов. Опрос показывает, что большинство команд уже экспериментируют с ML/AI-технологиями и видят в них основной драйвер изменений на ближайшие годы:
- 72%
команд решают ML/AI-задачи
- 63%
видят главный тренд в AI-агентах, 50% — в LLM-ассистентах
- 64%
считают навыки работы с ИИ ключевыми через 2–3 года
Тренд развития отрасли
-
устранение ручных операций
-
системная автоматизация на ML/AI
-
повседневная работа с ассистентами и агентами
Разбор по модели айсберга
Масштабируемость и скорость работы с данными
Объёмы данных растут, задачи усложняются, а мощности инфраструктуры не успевают за потребностями ML-команд и аналитики. Команды упираются в долгие обновления витрин, очереди к централизованным платформам и технические ограничения, которые тормозят развитие продуктов.
Вся сложность не в технологиях (у нас есть ClickHouse для аналитики и построение витрин в Trino), а в изменении мышления. Раньше data-инженер думал: «Я построю идеальную витрину для всех», а теперь: «Я дам командам инструменты, чтобы они сами строили то, что им нужно».
Факты
- 26% специалистов называют нехватку мощностей главной болью (особенно ML-разработчики — 39%).
- 18% специалистов сталкиваются с низкой скоростью и проблемами масштабирования.
Цифра кажется небольшой, но за ней системная проблема отрасли. Сейчас только 17% специалистов решают задачи проектирования современных data lake/lakehouse архитектур.
- 27%с опытом работы 6–10 лет
- 32%опытом работы 10+ лет
Причины
-
Перегрузка инфраструктуры, ограниченность ресурсов в ML/LLM (37% специалистов, которые работают с задачами ML/LLM, сталкиваются с перегрузкой инфраструктуры).
-
Проблема масштабирования особенно заметна у data-engineers и аналитиков
Тренды
Data-инженеры массово переходят на lakehouse архитектуру и внедряют подходы Data Mesh. Компании, решившие проблему масштабирования, получают конкурентное преимущество уже сейчас.
- 22%
специалистов видят тренд в переходе на Lakehouse
- 13%
специалистов думают, что будущее за Data Mesh и Data Fabric
- 50%
специалистов считают real-time обработку ключевым навыком через 2–3 года
Тренд развития отрасли
-
batch-обработка раз в сутки (T-1)
-
потоковая аналитика в реальном времени
-
предиктивные системы, опережающие события
Разбор по модели айсберга
Качество входных данных
Данных становится больше, но качественных и готовых к использованию мало. Специалисты регулярно сталкиваются с искажёнными, неполными или противоречивыми данными, а один показатель может иметь десятки названий в разных системах. Эти проблемы тормозят практически все сценарии использования ML и аналитики: от отчётности до LLM-ассистентов.
Показатель в разных системах может называться по-разному. Для человека “РТО”, “выручка” и “revenue” — одно и то же, для модели — разные понятия. Мы создали сервис Column and Value Retriever, чтобы машина понимала данные так же, как человек.
Факты
- 34% специалистов сталкиваются с проблемами качества входных данных.
- 77% специалистов работали с искажёнными данными.
Это не просто техническая проблема, а системный вызов для всей отрасли.
- 50%ML-разработчиков
- 48%Data-engineers
Причины
Специалисты, которые сталкиваются с проблемой качества данных, наиболее часто отмечают следующие факторы:
-
Отсутствие документации
(52%). -
Нехватка данных
(51%). -
Ручные процессы
(47%). -
Ошибки и дубли со стороны бизнеса
(56%, 48%)
Тренды
Почти половина специалистов считает качество данных главной проблемой ML- и AI-разработки. Это говорит о системном дефиците пригодных для работы данных. Если скормить модели некачественные данные на входе, она будет делать некачественный инференс на выходе, лишая всю разработку смысла. Так что выигрывают компании, которые инвестируют и в разработку модели, и в формирование качественного набора данных для обучения, в их очистку от мусора, разметку и управление данными как продуктом.
- 49%
всех специалистов считают низкое качество данных основной сложностью при использовании ML и AI в работе.
Тренд развития отрасли
-
«мусор на входе — мусор на выходе»
-
«данные есть, но их невозможно использовать»
-
«необходимо лечить данные на лету»
Разбор по модели айсберга
Недостаток квалификации специалистов, управленцев и инженеров
Рынок живёт в условиях одновременного дефицита сильных инженеров и перегруженности команд. При этом технологии обновляются быстрее, чем люди переучиваются. Нехватку квалификации и вовлечённости чувствуют и технические специалисты, и управленцы, а разрыв между поколениями экспертов всё больше растёт.
Главная проблема не в технологиях, а в людях. Мы поняли, что нельзя научить раз и навсегда! Обучение должно быть непрерывным, встроенным в работу и максимально практичным.
Факты
- 23% респондентов сталкиваются с низкой вовлечённостью коллег.
- 33% респондентов считают главной трудностью нехватку инженеров.
45% опрошенных выделяют недостаток квалификации специалистов, инженеров и управленцев. Боль актуальна для всех специализаций, но особенно остро её чувствуют сотрудники с 10+ годами стажа.
- 42%архитекторов данных, администраторов БД
- 41%ML-инженеров
- 40%MLOps
Причины
Специалисты, которые сталкиваются с низкой квалификацией, наиболее часто отмечают следующие факторы:
-
Низкий уровень автоматизации
(56%). -
Отсутствие документации
(53%). -
Бюрократия и legacy-код
(48 и 52%).
Тренды
Непрерывное обучение — такой же критичный ресурс для компаний, как инфраструктура и данные. Без него любая новая платформа быстро превращается в legacy. Те, кто организует внутренние школы, сообщества, стажировки и менторство, адаптируются к изменениям и удерживают экспертизу. Для остальных разрыв в знаниях оборачивается стратегическим отставанием.
-
Технологии развиваются быстрее, чем люди успевают учиться
-
Вчерашние эксперты становятся новичками в новых технологиях.
-
Разрыв между поколениями специалистов растёт.
Тренд развития отрасли
-
«научи меня работать с Excel»
-
«каждый должен уметь работать с данными»
-
«непрерывное обучение как базовая компетенция»
Ответы в цифрах
Профессиональный состав аудитории
Какая у вас специализация в области работы с данными?
- Data-инженер
- Data-аналитик
- Data scientist
- ML developer
- Иное направление data-специалистов
Сколько лет вы уже работаете в data-сфере?
- 3–5 лет
- 1–2 года
- 6–10 лет
- Более 10 лет
В какой отрасли работает
ваша компания?
Какие из языков программирования вы используете в работе с данными?
Какие инструменты для работы с данными ключевые в вашем стеке?
Какие задачи вы решаете на работе?
X5 Tech для data-специалистов
X5 Tech стремится сделать данные мощным и понятным инструментом принятия решений: от топ-менеджера до линейного сотрудника.
- 12+ Пбобъём хранения кластера больших данных
- 368информационных систем в эксплуатации
- 1400+ физических серверов
- 5 000+специалистов по ИТ и большим данным
Мы не заменяли экспертизу людей, а дополняли её данными. Создали инструмент “Здоровье магазина” — 360-градусную оценку каждой торговой точки. Теперь директор видит, что хромает и что нужно улучшить.