Принятие решений по данным

с постепенным переходом к Big Data

Michael Sokolov
3 min readNov 28, 2023
DALL·E

Тезисы

  • На текущий момент технологии серьезно обогнали умение ими пользоваться.
  • Качественные данные — необходимый компонент успеха любой компании компании, особено Tech.
  • Умение принимать решения по данным — обязательный навык для управления AI проектами.
  • Быстро научиться принимать решения по данным трудно.
  • Методология внедрения и использования управления данными давно придуманы, но требуется адаптация под Agile реалии.
  • Измерения бизнеса часть мировой повестки управленцев
  • Ключевые компоненты ИТ ландшафта доступны в Open Source
  • Высокие риски, включая репутационные, при использовании ‘чуйки’ при принятии решений или отсутствии обратной связи.

Что стоит измерять в Tech компаниях?

DORA

Можно оттолкнуться от DORA (DevOps Research and Assessment, сейчас часть Google Cloud) и использовать четыре ключевые метрики для измерения производительности разработки и эксплуатации программного обеспечения:

  1. Частота развертывания (Deployment Frequency): Насколько часто происходит выпуск кода в производственную среду.
  2. Время восстановления (Mean Time to Restore, MTTR): Сколько времени, в среднем, требуется для исправления инцидента, приводящего к сбою системы или снижению ее качества.
  3. Время до изменения (Lead Time for Changes): Время между моментом, когда команда начинает работу над изменением, и моментом, когда это изменение успешно развертывается в производстве. Также неплохой практикой является разделение метрики на 2 части: Времени разработки и Времени доставки.
  4. Процент успешных изменений (Change Failure Rate): Процент развертываний, вызывающих инцидент или снижение качества сервиса.

Подробнее можно посмотреть тут Как измерить Разработку и DevOps? или тут Yes, you can measure software developer productivity, from McKinsey’s Digital.

Про какие решения мы сейчас говорим?

Изменения в организационном дизайне и управлении человеческим капиталом:

  • Стратегии управления изменениями и трансформацией рабочих процессов.
  • Техники оценки и развития корпоративной культуры.
  • Методы повышения вовлеченности и мотивации сотрудников.
  • Внедрение гибких методологий в управлении персоналом.

Внедрение DevOps и CyberSec практик:

  • Применение новых инженерных практик и DevOps культуры.
  • Интеграция безопасности в DevOps (DevSecOps).
  • Автоматизация процессов разработки и тестирования.
  • Использование облачных технологий для ускорения разработки и повышения безопасности.

Изменения в регламентах и стандартах компании:

  • Адаптация к международным и отраслевым стандартам.
  • Соответствие №152-ФЗ, GDPR и другим нормативам по защите данных.
  • Разработка и модификация внутренних стандартов и регламентов.

Оценка потенциала и адаптивности к рынку:

  • Анализ рыночных трендов и потребностей потребителей.
  • Потенциал быстрой адаптации к изменениям рынка.

Изменения в качестве предоставляемого продукта:

  • Методы управления качеством продукции и услуг.
  • Инновации в процессах контроля качества.
  • Стандарты и сертификации качества

Оценка потенциала использования AI инициатив:

  • Возможности применения AI в бизнесе.
  • Эффективность интеграции AI в существующие бизнес-процессы.

Изменения по архитектурному треку или изменения итоговой сложности продукта:

  • Оптимизация архитектуры для масштабирования и упрощения продукта.
  • Управление техническим долгом и сложностью продукта.
  • Развитие и внедрение модульных архитектур.
  • Баланс между инновациями и удобством обслуживания продукта.

Какие есть Open Source для старта, примеры?

Получился довольно внушительный список, но как правило в начале требуется не так много систем, и их выбор обусловлен проблематикой конкретной компании.

BI

  • Yandex DataLens
  • Apache Superset
  • Metabase

DB

  • ClickHouse
  • YDB
  • PostgreSQL

DL & S3

  • Apache Hadoop
  • MinIO
  • Apache Spark
  • Apache Hive

DQ

  • Great Expectations
  • Apache Griffin

EL(t) & CDC

  • singer.io
  • Airbyte
  • Debezium

DS & DSOps

  • Jupyter Notebook
  • DVC

Queues

  • Apache Kafka
  • RabbitMQ
  • Redis

DC \ MDM

  • DataHub
  • Amundsen от Lyft
  • Apache Atlas

Sec

  • Минимализация используемых данных
  • Шифрование и Анонимизация
  • Microsoft Presidio

Референсные архитектуры

Для аналитического слоя

Вариантов много, есть от чего оттолкнуться.

--

--