Практики здоровой инфраструктурной службы ISP
Набор практик, принципов и процессов для обеспечения долгосрочного управляемого развития сетевой инфраструктуры интернет-провайдера.
Введение
В современном мире, где технологии развиваются стремительно, региональные интернет-провайдеры, сокращенно — ISP (Internet Service Provider) сталкиваются с уникальным набором вызовов. Эта статья предлагает практические решения и стратегии, направленные на устойчивое и эффективное управление сетевой инфраструктурой, что критически важно для поддержания конкурентоспособности и качества обслуживания
Ограничения и исходные условия.
- Рассматриваем только инженерные и около инженерные вопросы.
- Не рассматриваем влияние/применение AI.
- Целевая аудитория — руководители небольших и средних региональных ISP.
- Краткость
- В качестве примеров систем не рассматривались закрытые продукты от вендоров типа Cisco, Huawei, Juniper и т.д.
Цель инженерных практик
Любой бизнес должен быть достаточно устойчив в современном быстро меняющемся мире. Основой и движущей силой любого бизнеса являются — люди. У людей есть +/- , индивидуальная мотивация и слабости. Не уверен что за последние 2000 лет что то поменялось в людях, но вот в ISP бизнесе есть много специфичных моментов. Начнем с технической цели ISP.
- Обеспечение стабильного планомерного развития сетевой инфраструктуры без серьезных сбоев и деградации сети в целом.
Как достичь цель?
- Стандартизация
- Создание условий труда для инженеров, способствующих достижению высоких результатов.
- Накопление и удержание компетенции внутри компании.
- Обеспечение взаимозаменяемости сотрудников
- Управление техническими рисками
- Минимизация рисков завимиости от кокретнх людей
- Систематическое обучение
Принципы и Ценности
- Клиентоориентированность: Постоянное внимание к потребностям и ожиданиям клиентов.
- Открытость: Прозрачность процессов и решений внутри компании.
- Доверие: Создание атмосферы доверия, где каждый чувствует себя ценным.
- Профессионализм: Поддержание высоких стандартов работы и непрерывное обучение.
- Командная работа: Сплочённость и эффективное взаимодействие внутри команды.
- Ответственность: Чувство ответственности за результаты своей работы.
Совсем плохие сценарии
Основной тригер — технический паралич сети. Но начальные звенья цепной реакции могут быть разными
- Уход или выгорание ключевых инженеров
- Отсутствие ЗИП или резервных сценариев работы
- Привлечение новых специалистов(отвечение уже имеющихся, ошибки)
- Неверные приоритеты финансирования или развития инфраструктуры
- Атака на инфраструктуру
- Разрывы в зонах ответственности
- Недокоммуникация, отсутствие координации между отделами
- Не возможность доносить тоску зрения, нетерпимость к критике
- Не оплата поставщикам услуг
Процессы
- Управление инцидентами
- Управление заявками клиентов (help desk)
- Управление техническими рисками
- Управление знаниями
- Принятие архитектурных решений
- Управление жизненным циклом оборудования
- Управление данными
- Управление ИБ \ Syber sec угрозами
- Управление кабельным хозяйством
- Управление пространствами IP адресов и AS системами
Список далеко не исчерпывающий, процессов в компании может быть огромное множество. Тут важно формализовать критерии или проблематику при которой начинаем формализовать процесс и замем ему следовать.
Практики
- Принятие решений на основе данных
- Визуализация работы
- Публикация Postmortem
- Поддержание цифрового двойника инфраструктуры
- IaC (Инфраструктура как код), там где это рационально
- KPI \ OKR
- Облачная аллокация как минимум для корп сервисов
- Озера данных с потенциально ценной информацией
- Использование Open Source решений
Корпоративные сервисы
Централизованные сервисы для поддержки прозрачности работы инфраструктуры ISP. В примерах будут использоваться Open Source решения, но в реальности это может быть любое решение, которое подходит под задачи компании.
- Система управления задачами по развитию (Backlog) и планирование (Roadmap), Пример Jira
- Wiki\Confluence для документации, пример Confluence, DokuWiki, MediaWiki
- Мониторинг, пример Prometheus, Zabbix, Icinga 2
- Сбор логов и долгосрочное хранение части метрик и логов, пример ELK, Grafana Loki
- Цифровой двойник, пример Netbox, Racktables
- Система управления версиями, пример Gitlab, Gitea, Github
- Система управления доступами, пример FreeIPA, Keycloak
- Управление чувствительной информацией (паролями, доступами и т.д.), пример Hashicorp Vault
- Технические дашборды, пример Grafana, Kibana
- Системы бизнес-аналитики (BI) и ETL для поддержки принятия решений, пример SuperSet, Yandex DataLens, PowerBI
- Управление конфигурацией оборудования и прошивками, пример Rancid, Oxidized
- Система автомтаизации и управления конфигурациями, пример Ansible, Puppet, Chef
- Инцидент менеджмент система, пример Grafana OnCall, PagerDuty
- Система управления заявками клиентов, пример OTRS, osTicket и т.д.
⠀Системами должны пользоваться люди, им должно быть хотя-бы немного удобно пользоваться и они должны потенциально иметь возможность отдавать все данные в корпоративное озеро данных
Размещение сервисов
- Собственная виртуализация, пример KVM, VMware, Hyper-V, Proxmox
- Контейнеризация, пример Docker, Podman, LXC
- Оркестрация, пример Kubernetes, Nomad
- Облачные сервисы, пример SberCloud, Yanex Cloud
Как измерить здоровье инфраструктурных практик?
Для измерения здоровья инфраструктурных практик в контексте ISP можно использовать следующие методы и метрики:
- Регулярные аудиты сетевой инфраструктуры для проверки соответствия текущим техническим стандартам и рекомендациям безопасности. Это включает анализ конфигураций оборудования, прошивок, политик безопасности и др.
- Измерение показателей надежности сети, таких как MTBF (Mean Time Between Failures) и MTTR (Mean Time To Repair). Низкое время простоя и быстрое восстановление после сбоев свидетельствуют о здоровье инфраструктуры.
- Непрерывный мониторинг ключевых показателей производительности сети, включая пропускную способность, задержки, потери пакетов и другие. Отклонения от нормы могут указывать на потенциальные проблемы.
- Анализ жалоб клиентов и обратной связи может выявить проблемы, неочевидные при техническом анализе. Высокий уровень удовлетворенности клиентов обычно коррелирует с хорошим состоянием инфраструктуры.
- Регулярная оценка уровня знаний и навыков технического персонала. Это может включать проведение тестов, тренингов и сертификаций. Квалифицированный персонал способствует поддержанию здоровой инфраструктуры.
- Ретроспективный анализ инцидентов и изучение отчетов о сбоях для выявления узких мест и прогнозирования будущих проблем.
- Автоматизация рутинных задач и интеграция различных систем управления могут значительно повысить эффективность и снизить вероятность ошибок.
- Анализ затрат на поддержку и обновление инфраструктуры, а также оценка ROI (Return on Investment) от вложений в технологии.
- Проверка сетевой безопасности и соответствия нормативным требованиям в области кибербезопасности.
С чего начать?
С того что болит сейчас! Лучше всего собраться всем вместе и обсудить что болит и какие есть идеи по улучшению. Потом собрать список и отсортировать по приоритетам. Потом начать решать по приоритетам. Не забывайте про принципы и ценности, они должны быть в каждом решении.