Инфраструктура и Цифровые двойники

Исхожу из парадигм:

  • в долгосрочной перспективе самый качественный и стабильный сервис получается у собственной* инфраструктуры.
  • Здравый смысл
  • Отдавать “на сторону” можно временно для скорости или непрофильные части или для достижения необходимого географического присутствия.
  • Инфраструктура — не является софтверным продуктом, и к ней более применим Фреймворк Индустрия 4.0

Проблематика у крупных компаний:

  • Сбои частые, статистика и цифры “за 7 печатями”
  • Запрос на получение маленькой VM (8/8/64) — 2 рабочих дня, и это считается быстро.
  • Давайте все арендуем, и настанет счастье ….
  • Пиковые нагрузки системно не анализируются, а это ключевая причина неудобства пользователей
  • IaC — это “рокет саенс”, и нам это не надо. Все равно программисты расточительно относятся к ресурсам. — Мнение Поддержки.
  • Документация ведется вручную, и большой частью является не последовательной, не согласованной. Стороннему человеку трудно понять — чему можно доверять, а что устарело.
  • И т.д.

Технические цели:

  • Эластичная инфраструктура
  • infrastructure as code (IaC),
  • high availability(HA)
  • Autoscaling

Меры

Наиболее не рациональной идеей видится просто закупка 100500 новых элементов инфраструктуры, скорее всего это ситуацию даже еще и ухудшит.

Меры, с которых стоит начать:

  • Цифровые двойники (Digital Twin) серверных, ЦОДов и Сетей
  • Публикация статусов ключевых элементов Инфраструктуры
  • Кросс-функциональные команды
  • Инженерная прозрачность — Публикация расследований инцидентов и ведение Журнала архитектурных решений.
  • Обучение сотрудников
  • Автоматизация рутинных операций и управление конфигурациями
  • Централизованное Логирование

Цифровые двойники (Digital Twin)

Цифровой двойник — это цифровая модель физического объекта или процесса, помогающая оптимизировать эффективность бизнеса.

  • Эмуляции ключевых свойств и процессов
  • Учета связей с другими элементами или моделями
  • Визуализации
  • Моделирования возможных состояний
Цифровой двойник (Digital Twin)
  • Системы документирования:
    Например NetBox от Digital Ocean
  • Системы мониторинга, могущие автоматизировано получать данные о новых объектах.
    Например, Prometheus и Icinga.
  • Умный инцидент менеджмент, получающий данные их разных, часто распределенных источников, работающий с алгоритмами приоритезации или понимающий структуру объекта.
    Например: Grafana OnCall для всей инфраструктуры или Icinga — для сети.

Публикация статусов ключевых элементов Инфраструктуры

Логически делим Инфраструктуру на небольшое количество понятных пользователю элементов. Лучше остаться в диапазоне 8–12 шт.

Кросс-Функциональные команды

Кросс-функциональные команды расположенные по направлениям прохождения потока ценностей (Value Stream), например:

  • Вычислительная инфраструктура
  • Поддержка высоко-доступных приложений (kubernetes)
  • Поддержка офисной инфраструктуры
  • и т.д.

Инженерная прозрачность

Инженерная прозрачность — набор практик, для поддержки принятия решений.

  • Версионирование(Git) и совместное владение базой скриптов и автоматизаций
  • Публикация расследований инцидентов (Postmortem Culture)
  • Ведение Журнала архитектурных решений (Architecture Decision Record, ADR)
  • Прибор — маркировщик в каждой серверной.
  • Быстрый HelpDeck, интегрированный с удобными каналами подачи заявок, с возможностью сквозного трекинга.

Обучение сотрудников

Неплохо посмотреть в сторону:

  • Linux компетенции у админов
  • Тестирование
  • DevOps
  • Безопасность, DevSecOps
  • Архитектура высоконагруженных систем

Автоматизация рутинных операций и управление конфигурациями

  • Автоматизация на основе директивного языка, работающего с конфигурациями и классами устройств, например: Ansible + AWX
  • Сканер безопасности на простые ошибки администрирования
  • Версионирование(в git) конфигураций сетевого оборудования

Консолидация с логов и событий системных журналов

Например — Elastic Stack (ELK Stack)

Плюсы:

  • Работы можно начать проводить на имеющемся оборудовании и с использованием open source технологий.
  • Расследование инцидентов ускорится имея консолидированные логи и мониторинг
  • Планирование работ на цифровом двойнике
  • Возможность работать с классами оборудования, отборами при автоматизации.
  • Согласованность документации. Логирование изменений и прозрачность.
  • Быстрое восстановление сетевых устройств
  • Техническая основа для автоматизации всех рутинных операций — первый шаг к infrastructure as code
  • Отлов простых ошибок администрирования «на горячую»
  • Манки тест можно пройти с любым сотрудником поддержки — взаимозаменяемость сотрудников и общее информационное пространство
  • Страус работы ключевых элементов системы есть в доступе у всех сотрудников
  • Все крупные инциденты расследованы и запротоколированы и можно проверить приняты ли запланированные меры
  • Быстрый онбординг Тех Лидов , без отвлечения других технических специалистов.

--

--

RTE & DevOps from Nizhny Novgorod https://michael.sokolov.im

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store