Инфраструктура и Цифровые двойники

Исхожу из парадигм:

  • в долгосрочной перспективе самый качественный и стабильный сервис получается у собственной* инфраструктуры.
  • Здравый смысл
  • Отдавать “на сторону” можно временно для скорости или непрофильные части или для достижения необходимого географического присутствия.
  • Инфраструктура — не является софтверным продуктом, и к ней более применим Фреймворк Индустрия 4.0

Проблематика у крупных компаний:

  • Сбои частые, статистика и цифры “за 7 печатями”
  • Запрос на получение маленькой VM (8/8/64) — 2 рабочих дня, и это считается быстро.
  • Давайте все арендуем, и настанет счастье ….
  • Пиковые нагрузки системно не анализируются, а это ключевая причина неудобства пользователей
  • IaC — это “рокет саенс”, и нам это не надо. Все равно программисты расточительно относятся к ресурсам. — Мнение Поддержки.
  • Документация ведется вручную, и большой частью является не последовательной, не согласованной. Стороннему человеку трудно понять — чему можно доверять, а что устарело.
  • И т.д.

Технические цели:

  • Эластичная инфраструктура
  • infrastructure as code (IaC),
  • high availability(HA)
  • Autoscaling

Меры

Меры, с которых стоит начать:

  • Цифровые двойники (Digital Twin) серверных, ЦОДов и Сетей
  • Публикация статусов ключевых элементов Инфраструктуры
  • Кросс-функциональные команды
  • Инженерная прозрачность — Публикация расследований инцидентов и ведение Журнала архитектурных решений.
  • Обучение сотрудников
  • Автоматизация рутинных операций и управление конфигурациями
  • Централизованное Логирование

Цифровые двойники (Digital Twin)

  • Эмуляции ключевых свойств и процессов
  • Учета связей с другими элементами или моделями
  • Визуализации
  • Моделирования возможных состояний
Цифровой двойник (Digital Twin)
  • Системы документирования:
    Например NetBox от Digital Ocean
  • Системы мониторинга, могущие автоматизировано получать данные о новых объектах.
    Например, Prometheus и Icinga.
  • Умный инцидент менеджмент, получающий данные их разных, часто распределенных источников, работающий с алгоритмами приоритезации или понимающий структуру объекта.
    Например: Grafana OnCall для всей инфраструктуры или Icinga — для сети.

Публикация статусов ключевых элементов Инфраструктуры

Кросс-Функциональные команды

  • Вычислительная инфраструктура
  • Поддержка высоко-доступных приложений (kubernetes)
  • Поддержка офисной инфраструктуры
  • и т.д.

Инженерная прозрачность

  • Версионирование(Git) и совместное владение базой скриптов и автоматизаций
  • Публикация расследований инцидентов (Postmortem Culture)
  • Ведение Журнала архитектурных решений (Architecture Decision Record, ADR)
  • Прибор — маркировщик в каждой серверной.
  • Быстрый HelpDeck, интегрированный с удобными каналами подачи заявок, с возможностью сквозного трекинга.

Обучение сотрудников

  • Linux компетенции у админов
  • Тестирование
  • DevOps
  • Безопасность, DevSecOps
  • Архитектура высоконагруженных систем

Автоматизация рутинных операций и управление конфигурациями

  • Автоматизация на основе директивного языка, работающего с конфигурациями и классами устройств, например: Ansible + AWX
  • Сканер безопасности на простые ошибки администрирования
  • Версионирование(в git) конфигураций сетевого оборудования

Консолидация с логов и событий системных журналов

Плюсы:

  • Работы можно начать проводить на имеющемся оборудовании и с использованием open source технологий.
  • Расследование инцидентов ускорится имея консолидированные логи и мониторинг
  • Планирование работ на цифровом двойнике
  • Возможность работать с классами оборудования, отборами при автоматизации.
  • Согласованность документации. Логирование изменений и прозрачность.
  • Быстрое восстановление сетевых устройств
  • Техническая основа для автоматизации всех рутинных операций — первый шаг к infrastructure as code
  • Отлов простых ошибок администрирования «на горячую»
  • Манки тест можно пройти с любым сотрудником поддержки — взаимозаменяемость сотрудников и общее информационное пространство
  • Страус работы ключевых элементов системы есть в доступе у всех сотрудников
  • Все крупные инциденты расследованы и запротоколированы и можно проверить приняты ли запланированные меры
  • Быстрый онбординг Тех Лидов , без отвлечения других технических специалистов.

--

--

--

RTE & DevOps from Nizhny Novgorod https://michael.sokolov.im

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Михаил Соколов

Михаил Соколов

RTE & DevOps from Nizhny Novgorod https://michael.sokolov.im

More from Medium

Using Google Chat for Elastic Security Alerts

Introduction To Cloud Computing’s Role In The Tech Stack: Why The Internet Computer Is Different &…

Digital Business to Digital Human — Why DevOps Matters?

Anywhere, Anytime Workplace Demand for SASE