Практики здоровой инфраструктурной службы ISP

Michael Sokolov
4 min readJan 1, 2024

Набор практик, принципов и процессов для обеспечения долгосрочного управляемого развития сетевой инфраструктуры интернет-провайдера.

Введение

В современном мире, где технологии развиваются стремительно, региональные интернет-провайдеры, сокращенно — ISP (Internet Service Provider) сталкиваются с уникальным набором вызовов. Эта статья предлагает практические решения и стратегии, направленные на устойчивое и эффективное управление сетевой инфраструктурой, что критически важно для поддержания конкурентоспособности и качества обслуживания

Ограничения и исходные условия.

  • Рассматриваем только инженерные и около инженерные вопросы.
  • Не рассматриваем влияние/применение AI.
  • Целевая аудитория — руководители небольших и средних региональных ISP.
  • Краткость
  • В качестве примеров систем не рассматривались закрытые продукты от вендоров типа Cisco, Huawei, Juniper и т.д.

Цель инженерных практик

Любой бизнес должен быть достаточно устойчив в современном быстро меняющемся мире. Основой и движущей силой любого бизнеса являются — люди. У людей есть +/- , индивидуальная мотивация и слабости. Не уверен что за последние 2000 лет что то поменялось в людях, но вот в ISP бизнесе есть много специфичных моментов. Начнем с технической цели ISP.

  • Обеспечение стабильного планомерного развития сетевой инфраструктуры без серьезных сбоев и деградации сети в целом.

Как достичь цель?

  • Стандартизация
  • Создание условий труда для инженеров, способствующих достижению высоких результатов.
  • Накопление и удержание компетенции внутри компании.
  • Обеспечение взаимозаменяемости сотрудников
  • Управление техническими рисками
  • Минимизация рисков завимиости от кокретнх людей
  • Систематическое обучение

Принципы и Ценности

  • Клиентоориентированность: Постоянное внимание к потребностям и ожиданиям клиентов.
  • Открытость: Прозрачность процессов и решений внутри компании.
  • Доверие: Создание атмосферы доверия, где каждый чувствует себя ценным.
  • Профессионализм: Поддержание высоких стандартов работы и непрерывное обучение.
  • Командная работа: Сплочённость и эффективное взаимодействие внутри команды.
  • Ответственность: Чувство ответственности за результаты своей работы.

Совсем плохие сценарии

Основной тригер — технический паралич сети. Но начальные звенья цепной реакции могут быть разными

  • Уход или выгорание ключевых инженеров
  • Отсутствие ЗИП или резервных сценариев работы
  • Привлечение новых специалистов(отвечение уже имеющихся, ошибки)
  • Неверные приоритеты финансирования или развития инфраструктуры
  • Атака на инфраструктуру
  • Разрывы в зонах ответственности
  • Недокоммуникация, отсутствие координации между отделами
  • Не возможность доносить тоску зрения, нетерпимость к критике
  • Не оплата поставщикам услуг

Процессы

  • Управление инцидентами
  • Управление заявками клиентов (help desk)
  • Управление техническими рисками
  • Управление знаниями
  • Принятие архитектурных решений
  • Управление жизненным циклом оборудования
  • Управление данными
  • Управление ИБ \ Syber sec угрозами
  • Управление кабельным хозяйством
  • Управление пространствами IP адресов и AS системами

Список далеко не исчерпывающий, процессов в компании может быть огромное множество. Тут важно формализовать критерии или проблематику при которой начинаем формализовать процесс и замем ему следовать.

Практики

  • Принятие решений на основе данных
  • Визуализация работы
  • Публикация Postmortem
  • Поддержание цифрового двойника инфраструктуры
  • IaC (Инфраструктура как код), там где это рационально
  • KPI \ OKR
  • Облачная аллокация как минимум для корп сервисов
  • Озера данных с потенциально ценной информацией
  • Использование Open Source решений

Корпоративные сервисы

Централизованные сервисы для поддержки прозрачности работы инфраструктуры ISP. В примерах будут использоваться Open Source решения, но в реальности это может быть любое решение, которое подходит под задачи компании.

  • Система управления задачами по развитию (Backlog) и планирование (Roadmap), Пример Jira
  • Wiki\Confluence для документации, пример Confluence, DokuWiki, MediaWiki
  • Мониторинг, пример Prometheus, Zabbix, Icinga 2
  • Сбор логов и долгосрочное хранение части метрик и логов, пример ELK, Grafana Loki
  • Цифровой двойник, пример Netbox, Racktables
  • Система управления версиями, пример Gitlab, Gitea, Github
  • Система управления доступами, пример FreeIPA, Keycloak
  • Управление чувствительной информацией (паролями, доступами и т.д.), пример Hashicorp Vault
  • Технические дашборды, пример Grafana, Kibana
  • Системы бизнес-аналитики (BI) и ETL для поддержки принятия решений, пример SuperSet, Yandex DataLens, PowerBI
  • Управление конфигурацией оборудования и прошивками, пример Rancid, Oxidized
  • Система автомтаизации и управления конфигурациями, пример Ansible, Puppet, Chef
  • Инцидент менеджмент система, пример Grafana OnCall, PagerDuty
  • Система управления заявками клиентов, пример OTRS, osTicket и т.д.

⠀Системами должны пользоваться люди, им должно быть хотя-бы немного удобно пользоваться и они должны потенциально иметь возможность отдавать все данные в корпоративное озеро данных

Размещение сервисов

  • Собственная виртуализация, пример KVM, VMware, Hyper-V, Proxmox
  • Контейнеризация, пример Docker, Podman, LXC
  • Оркестрация, пример Kubernetes, Nomad
  • Облачные сервисы, пример SberCloud, Yanex Cloud

Как измерить здоровье инфраструктурных практик?

Для измерения здоровья инфраструктурных практик в контексте ISP можно использовать следующие методы и метрики:

  1. Регулярные аудиты сетевой инфраструктуры для проверки соответствия текущим техническим стандартам и рекомендациям безопасности. Это включает анализ конфигураций оборудования, прошивок, политик безопасности и др.
  2. Измерение показателей надежности сети, таких как MTBF (Mean Time Between Failures) и MTTR (Mean Time To Repair). Низкое время простоя и быстрое восстановление после сбоев свидетельствуют о здоровье инфраструктуры.
  3. Непрерывный мониторинг ключевых показателей производительности сети, включая пропускную способность, задержки, потери пакетов и другие. Отклонения от нормы могут указывать на потенциальные проблемы.
  4. Анализ жалоб клиентов и обратной связи может выявить проблемы, неочевидные при техническом анализе. Высокий уровень удовлетворенности клиентов обычно коррелирует с хорошим состоянием инфраструктуры.
  5. Регулярная оценка уровня знаний и навыков технического персонала. Это может включать проведение тестов, тренингов и сертификаций. Квалифицированный персонал способствует поддержанию здоровой инфраструктуры.
  6. Ретроспективный анализ инцидентов и изучение отчетов о сбоях для выявления узких мест и прогнозирования будущих проблем.
  7. Автоматизация рутинных задач и интеграция различных систем управления могут значительно повысить эффективность и снизить вероятность ошибок.
  8. Анализ затрат на поддержку и обновление инфраструктуры, а также оценка ROI (Return on Investment) от вложений в технологии.
  9. Проверка сетевой безопасности и соответствия нормативным требованиям в области кибербезопасности.

С чего начать?

С того что болит сейчас! Лучше всего собраться всем вместе и обсудить что болит и какие есть идеи по улучшению. Потом собрать список и отсортировать по приоритетам. Потом начать решать по приоритетам. Не забывайте про принципы и ценности, они должны быть в каждом решении.

--

--