1. Присоединяйся к лучшим! Пройди - РЕГИСТРАЦИЮ!

Скачать [Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив [2020]

Discussion in 'Администрирование и программирование' started by $root$, Jan 21, 2021.

  1. $root$

    By:$root$Jan 21, 2021
    Moderator
    Staff Member Модератор

    Joined:
    Aug 19, 2020
    Messages:
    1,171
    Likes Received:
    2,297
    [Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив [2020]
    SlurmSRE

    На курсе вы будете:
    Строить

    Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
    микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
    соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.

    Ломать
    Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
    нагрузкой.

    Чинить
    Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.

    Изучать
    Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.

    Требования к участникам:
    - Свободное владение Linux;
    - Любой язык программирования: уровень Junior;
    - GitLab: навыки автоматизации;
    - Prometheus: навыки мониторинга;
    - Kubernetes: навыки работы в кластере.


    Тема №1: Основные принципы и методы SRE
    • Что нужно чтобы стать SRE?
    • DevOps vs SRE
    • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
    • SLI, SLO и SLA
    • Error budget и его роль в SRE

    Тема №2: Дизайн распределенных систем
    • Архитектура и функционал приложения
    • Non-Abstract Large System Design
    • Operability / Design for failure
    • gRPC или REST
    • Версионирование и обратная совместимость

    Тема №3: Как принимают проект SRE
    • Лучшие практики от SRE
    • Чек-лист приема проекта
    • Логирование, метрики, трейсинг
    • Забираем CI/CD в свои руки

    Тема №4: Проектирование и запуск распределенной системы
    • Обратное проектирование — как работает система?
    • Согласовываем SLI и SLO
    • Практика capacity planning
    • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
    • Запускаем Prometheus, Grafana, Elastic

    Тема №5: Monitoring, Observability and Alerting
    • Monitoring vs. Observability
    • Настраиваем мониторинг и алертинг с Prometheus
    • Практический мониторинг SLI и SLO
    • Symptoms vs. Causes
    • Black-Box vs. White-Box Monitoring
    • Распределенный мониторинг доступности приложений и серверов
    • 4 золотых сигнала (обнаружение аномалий)

    Тема №6: Практика тестирования надежности систем
    • Работа под давлением
    • Failure-injection
    • Chaos Monkey

    Тема №7: Практика incident response
    • Алгоритм управления стрессом
    • Взаимодействие между участниками инцидента
    • Постмортем
    • Knowledge sharing
    • Формирование культуры
    • Контроль неисправностей
    • Проведение blameless разбора полетов

    Тема №8: Практика управления нагрузкой
    • Балансировка нагрузки
    • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
    • DDoS (создаем нагрузку) + Cascading Failures

    Тема №9: Реагирование на инциденты
    • Разбор полетов
    • Практика On-Call
    • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
    • Протоколы управления инцидентами

    Тема №10: Диагностика и решение проблем
    • Журналирование
    • Отладка
    • Практика анализа и отладки на нашем приложении

    Тема №11: Тестирование надежности систем
    • Нагрузочное тестирование
    • Тестирование конфигураций
    • Тестирование производительности
    • Canary release

    Тема №12: Самостоятельная работа и ревью
    • Реальные кейсы
    • Проверка спикерами
    Продажник:


    Скачать: Оформить VIP Подписку и открыть доступ к этой и другим темам.
     
Похожие темы
  1. Todos
    Replies:
    9
    Views:
    2,753
  2. #Megalodon
    Replies:
    9
    Views:
    2,658
  3. #Megalodon
    Replies:
    0
    Views:
    1,104
  4. #Megalodon
    Replies:
    0
    Views:
    1,008
  5. Shark Mafia
    Replies:
    0
    Views:
    1,381
  6. Shark Mafia
    Replies:
    0
    Views:
    786
  7. Shark Mafia
    Replies:
    6
    Views:
    784
Loading...