Практики здоровой инфраструктурной службы ISP

4 min readJan 1, 2024

Набор практик, принципов и процессов для обеспечения долгосрочного управляемого развития сетевой инфраструктуры интернет-провайдера.

Введение

В современном мире, где технологии развиваются стремительно, региональные интернет-провайдеры, сокращенно — ISP (Internet Service Provider) сталкиваются с уникальным набором вызовов. Эта статья предлагает практические решения и стратегии, направленные на устойчивое и эффективное управление сетевой инфраструктурой, что критически важно для поддержания конкурентоспособности и качества обслуживания

Ограничения и исходные условия.

Рассматриваем только инженерные и около инженерные вопросы.
Не рассматриваем влияние/применение AI.
Целевая аудитория — руководители небольших и средних региональных ISP.
Краткость
В качестве примеров систем не рассматривались закрытые продукты от вендоров типа Cisco, Huawei, Juniper и т.д.

Цель инженерных практик

Любой бизнес должен быть достаточно устойчив в современном быстро меняющемся мире. Основой и движущей силой любого бизнеса являются — люди. У людей есть +/- , индивидуальная мотивация и слабости. Не уверен что за последние 2000 лет что то поменялось в людях, но вот в ISP бизнесе есть много специфичных моментов. Начнем с технической цели ISP.

Обеспечение стабильного планомерного развития сетевой инфраструктуры без серьезных сбоев и деградации сети в целом.

Как достичь цель?

Стандартизация
Создание условий труда для инженеров, способствующих достижению высоких результатов.
Накопление и удержание компетенции внутри компании.
Обеспечение взаимозаменяемости сотрудников
Управление техническими рисками
Минимизация рисков завимиости от кокретнх людей
Систематическое обучение

Принципы и Ценности

Клиентоориентированность: Постоянное внимание к потребностям и ожиданиям клиентов.
Открытость: Прозрачность процессов и решений внутри компании.
Доверие: Создание атмосферы доверия, где каждый чувствует себя ценным.
Профессионализм: Поддержание высоких стандартов работы и непрерывное обучение.
Командная работа: Сплочённость и эффективное взаимодействие внутри команды.
Ответственность: Чувство ответственности за результаты своей работы.

Совсем плохие сценарии

Основной тригер — технический паралич сети. Но начальные звенья цепной реакции могут быть разными

Уход или выгорание ключевых инженеров
Отсутствие ЗИП или резервных сценариев работы
Привлечение новых специалистов(отвечение уже имеющихся, ошибки)
Неверные приоритеты финансирования или развития инфраструктуры
Атака на инфраструктуру
Разрывы в зонах ответственности
Недокоммуникация, отсутствие координации между отделами
Не возможность доносить тоску зрения, нетерпимость к критике
Не оплата поставщикам услуг

Процессы

Управление инцидентами
Управление заявками клиентов (help desk)
Управление техническими рисками
Управление знаниями
Принятие архитектурных решений
Управление жизненным циклом оборудования
Управление данными
Управление ИБ \ Syber sec угрозами
Управление кабельным хозяйством
Управление пространствами IP адресов и AS системами

Список далеко не исчерпывающий, процессов в компании может быть огромное множество. Тут важно формализовать критерии или проблематику при которой начинаем формализовать процесс и замем ему следовать.

Практики

Принятие решений на основе данных
Визуализация работы
Публикация Postmortem
Поддержание цифрового двойника инфраструктуры
IaC (Инфраструктура как код), там где это рационально
KPI \ OKR
Облачная аллокация как минимум для корп сервисов
Озера данных с потенциально ценной информацией
Использование Open Source решений

Корпоративные сервисы

Централизованные сервисы для поддержки прозрачности работы инфраструктуры ISP. В примерах будут использоваться Open Source решения, но в реальности это может быть любое решение, которое подходит под задачи компании.

Система управления задачами по развитию (Backlog) и планирование (Roadmap), Пример Jira
Wiki\Confluence для документации, пример Confluence, DokuWiki, MediaWiki
Мониторинг, пример Prometheus, Zabbix, Icinga 2
Сбор логов и долгосрочное хранение части метрик и логов, пример ELK, Grafana Loki
Цифровой двойник, пример Netbox, Racktables
Система управления версиями, пример Gitlab, Gitea, Github
Система управления доступами, пример FreeIPA, Keycloak
Управление чувствительной информацией (паролями, доступами и т.д.), пример Hashicorp Vault
Технические дашборды, пример Grafana, Kibana
Системы бизнес-аналитики (BI) и ETL для поддержки принятия решений, пример SuperSet, Yandex DataLens, PowerBI
Управление конфигурацией оборудования и прошивками, пример Rancid, Oxidized
Система автомтаизации и управления конфигурациями, пример Ansible, Puppet, Chef
Инцидент менеджмент система, пример Grafana OnCall, PagerDuty
Система управления заявками клиентов, пример OTRS, osTicket и т.д.

⠀Системами должны пользоваться люди, им должно быть хотя-бы немного удобно пользоваться и они должны потенциально иметь возможность отдавать все данные в корпоративное озеро данных

Размещение сервисов

Собственная виртуализация, пример KVM, VMware, Hyper-V, Proxmox
Контейнеризация, пример Docker, Podman, LXC
Оркестрация, пример Kubernetes, Nomad
Облачные сервисы, пример SberCloud, Yanex Cloud

Как измерить здоровье инфраструктурных практик?

Для измерения здоровья инфраструктурных практик в контексте ISP можно использовать следующие методы и метрики:

Регулярные аудиты сетевой инфраструктуры для проверки соответствия текущим техническим стандартам и рекомендациям безопасности. Это включает анализ конфигураций оборудования, прошивок, политик безопасности и др.
Измерение показателей надежности сети, таких как MTBF (Mean Time Between Failures) и MTTR (Mean Time To Repair). Низкое время простоя и быстрое восстановление после сбоев свидетельствуют о здоровье инфраструктуры.
Непрерывный мониторинг ключевых показателей производительности сети, включая пропускную способность, задержки, потери пакетов и другие. Отклонения от нормы могут указывать на потенциальные проблемы.
Анализ жалоб клиентов и обратной связи может выявить проблемы, неочевидные при техническом анализе. Высокий уровень удовлетворенности клиентов обычно коррелирует с хорошим состоянием инфраструктуры.
Регулярная оценка уровня знаний и навыков технического персонала. Это может включать проведение тестов, тренингов и сертификаций. Квалифицированный персонал способствует поддержанию здоровой инфраструктуры.
Ретроспективный анализ инцидентов и изучение отчетов о сбоях для выявления узких мест и прогнозирования будущих проблем.
Автоматизация рутинных задач и интеграция различных систем управления могут значительно повысить эффективность и снизить вероятность ошибок.
Анализ затрат на поддержку и обновление инфраструктуры, а также оценка ROI (Return on Investment) от вложений в технологии.
Проверка сетевой безопасности и соответствия нормативным требованиям в области кибербезопасности.

С чего начать?

С того что болит сейчас! Лучше всего собраться всем вместе и обсудить что болит и какие есть идеи по улучшению. Потом собрать список и отсортировать по приоритетам. Потом начать решать по приоритетам. Не забывайте про принципы и ценности, они должны быть в каждом решении.