The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

04.02.2016 13:25  GitHub опубликовал отчёт с анализом аварии, приведшей к недоступности сервиса

GitHub раскрыл подробности об инциденте, из-за которого 28 января сервис оказался выведен из строя более чем на два часа. Имел место достаточно сложный каскадный сбой, в котором проявились как недоработки в программном обеспечении GitHub, так и ошибки в прошивках серверов, что потребовало значительного времени на выяснение причин и возвращение сайта к жизни.

Из-за сбоя в системе электропитания около 25% серверов GitHub были перезагружены. Проблема не затронула балансировщики нагрузки и большинство фронтэнд-серверов, которые продолжили работу в штатном режиме, но некоторые системы, необходимые для обработки запроса, на какое-то время оказались полностью недоступны, что привело к выводу страницы с ошибкой при любом обращении к GitHub.

В том числе перезагрузка затронула серверы ChatOps, обеспечивающие механизмы взаимодействия разработчиков на GitHub. После завершения перезагрузки и восстановления работы кластера серверов ChatOps, работа сайта не восстановилась. Ситуацию усугубила неразбериха, вызванная тем, что первые 8 минут после сбоя на странице status.github.com отображался нормальный статус функционирования сервиса, хотя фактически запросы приводили к ошибке.

Первичный разбор причин неработоспособности серверов ChatOps показал, что проблема заключалась в невозможности установить сетевое соединение с кластером СУБД Redis. Первые предположения были связаны с возможным влиянием DDoS-атаки, но через какое-то время, которое было потрачено на диагностику работы сети и организацию защиты от DDoS, стало ясно, что причина не в атаке. Дальнейшее пошаговое инспектирование инфраструктуры показало, что имеет место перезагрузка некоторых бэкенд-серверов для которых в централизованной системе мониторинга данные перезагрузки не были отражены.

Далее выяснилось, что почти все недоступные серверы построены на базе оборудования одного класса и разнесены по разным стойкам и кластерам в центре обработки данных. Также стало ясно, что обеспечивающие работу сервиса приложения после перезагрузки не запустились, из-за невозможности подключиться к кластеру СУБД Redis попытка запуска процессов привела к преждевременному завершению их работы. Разработчики изменили скрипты запуска, добавив обязательную проверку работы Redis и ожидание его доступности перед запуском приложений.

Проблемы с Redis были вызваны аппаратным сбоем серверов - прошивка не смогла распознать имеющиеся диски после кратковременного прекращения питания. Диски удалось подключить после дополнительной холодной перезагрузки, после чего потребовался достаточно длительный перенос данных проблемных узлов на запасные серверы. В итоге, кластер Redis был восстановлен и, шаг за шагом, все некорректно перезагруженные серверы с приложениями были возвращены к работе.

Для предотвращения подобных ситуаций в будущем будет пересмотрен процесс применения обновлений прошивок к серверам и анализа логов для оценки возможных аномалий. Тестовый набор будет расширен средствами для проверки влияния работоспособности внешних компонентов на функционирование приложений. Также планируется реализовать возможность частичного снижения функциональности для сохранения общей работоспособности в экстренном режиме, в условиях недоступности определённых вторичных бэкенд-серверов.

  1. Главная ссылка к новости (https://github.com/blog/2106-j...)
Лицензия: CC-BY
Тип: Обобщение
Ключевые слова: github, crash
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Показать все | RSS
 
  • 1.1, Аноним, 13:49, 04/02/2016 [ответить] [смотреть все]    [к модератору]
  • +17 +/
    Жизнь мою сгубили зря
    Электрики и слесаря.
     
     
  • 2.5, pkdr, 14:35, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]
  • +5 +/
    Страшные люди, если с ними приходилось сталкиваться Есть ещё более жуткие монст... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.10, Дегенератор, 15:09, 04/02/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +12 +/
    Страшнее уборщицы, которая спешит, не найти.
     
  • 3.12, IZh., 15:15, 04/02/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +2 +/
    Да, страшнеее fiber-seeking backhoe зверя нет.
     
  • 3.46, Аноним, 03:03, 05/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    Страшные люди это те кто проектирует цод по третьей категории надёжности электро... весь текст скрыт [показать]
     
     
  • 4.54, Sabakwaka, 15:04, 05/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Тот, кто не проводит учений Учения выглядят так 8212 топором перерубается си... весь текст скрыт [показать]
     
     
  • 5.55, Andrey Mitrofanov, 15:10, 05/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Амазон что ли хвастал, что у них спец зондкер команда отдельная от админов деве... весь текст скрыт [показать]
     
  • 5.59, SnoWLight, 20:03, 05/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    Ну допустим не топором По крайней мере я бы дал тебе топор и заснял бы видео ... весь текст скрыт [показать]
     
  • 5.69, Аноним, 15:56, 09/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Переруби силовой кабель к гуглу Это пример правильной инфраструктуры ... весь текст скрыт [показать]
     
  • 2.6, Аноним, 14:35, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +4 +/
    Незваный электрик хуже татарина.
     
  • 2.71, Аноним, 16:32, 09/02/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Программисты хуже Однажды сбой в прошивке контроллера привел к включению большо... весь текст скрыт [показать] [показать ветку]
     
  • 1.2, MPEG LA, 13:49, 04/02/2016 [ответить] [смотреть все]    [к модератору]  
  • +16 +/
    два часа - хорошее время реакции, и не просто так, а с полезными выводами. молодцы.
     
  • 1.3, IMHO, 14:00, 04/02/2016 [ответить] [смотреть все]    [к модератору]  
  • +5 +/
    Наш админ возомнил себя богом сети, но электрик развеял этот миф
    (с) ибаш
     
  • 1.13, manster, 15:17, 04/02/2016 [ответить] [смотреть все]     [к модератору]  
  • –5 +/
    оказывается прошивки умеют включают диски - это несомненно прорыв ... весь текст скрыт [показать]
     
     
     
    Часть нити удалена модератором

  • 3.57, Аноним, 15:39, 05/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Я на такое на виндовом сервере нарывался Знаешь как весело, когда BIOS не может... весь текст скрыт [показать]
     
  • 2.39, Andrey Mitrofanov, 19:37, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Не _в_ключать, читалка притупилась Перезатачивай Сторадж, фибер-чэнел, FC-конт... весь текст скрыт [показать] [показать ветку]
     
  • 1.16, Кляйнер, 15:34, 04/02/2016 [ответить] [смотреть все]    [к модератору]  
  • +/
    У них там прямо каскадный резонанс случился :)
     
  • 1.18, Аноним, 15:56, 04/02/2016 [ответить] [смотреть все]     [к модератору]  
  • +5 +/
    эх, не умеют редакторы опеннета заголовки делать надо было Гитхаб упал на дж... весь текст скрыт [показать]
     
     
  • 2.20, myhand, 16:02, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • –1 +/
    s/../из-за какой-то редиски/
     
     
  • 3.30, ., 17:53, 04/02/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +1 +/
    Какие то редиски завалили гитхаб! :)
     
  • 3.34, Адекват, 19:20, 04/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Дениски Админ Дениска угандошил гитхуб своим невежеством ... весь текст скрыт [показать]
     
  • 2.49, КО, 11:59, 05/02/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +/
    ГитХаб джва часа ждал Редис!
     
  • 1.35, Адекват, 19:22, 04/02/2016 [ответить] [смотреть все]    [к модератору]  
  • –1 +/

    > Из-за сбоя в системе электропитания около 25% серверов GitHub были перезагружены.

    Я дико извиняюсь, а что - УПСов у них нет ?
    Что-то мне подсказывает, что это был не сбой электропитания, и что это не последний выход из строя гитхуба, следющий будет на несколько суток, с полной потерей всех данных.

     
     
  • 2.42, редис, 21:40, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +/
    Вот упсы-то и сбойнули. Точнее на сами упсы, система управления питанием.
     
  • 2.50, КО, 12:02, 05/02/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Сбой в системе электропитания вполне может быть вызван очень умными Упсами Им л... весь текст скрыт [показать] [показать ветку]
     
  • 1.38, абвгдейка, 19:35, 04/02/2016 [ответить] [смотреть все]    [к модератору]  
  • +2 +/
    я понял - виноват редис :)
     
  • 1.41, Аноним, 20:25, 04/02/2016 [ответить] [смотреть все]     [к модератору]  
  • +/
    Решительно детектирую пролианты под редисом только эта фекаль способна терять д... весь текст скрыт [показать]
     
     
  • 2.44, Led, 22:47, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +6 +/
    > Решительно детектирую пролианты под редисом. только эта фекаль способна терять диски до
    > сброса питания

    Обижаешь! Она не только это умеет, а ещё много чего!

     
     
  • 3.47, stalker37, 10:57, 05/02/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • –1 +/
    Не всё. работать без сбоев оно не умеет! И не  тормозить местами
     
  • 2.56, Аноним, 15:35, 05/02/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Довольно распостраненный баг Им страдали серверные мамки интела, встречающиеся ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.58, anoo, 18:07, 05/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    У HP тоже самое - меняли память контроллера, контроллер, мамку и так неск раз, ... весь текст скрыт [показать]
     
     
  • 4.70, Аноним, 16:01, 09/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    От ОС вообще не зависит - виснет проц контроллера, системный reset на него видим... весь текст скрыт [показать]
     
  • 1.64, nich, 07:38, 08/02/2016 [ответить] [смотреть все]    [к модератору]  
  • –1 +/
    Github катится в унылое говно.  Начилась делёжка денег, адекватные люди начинают валить, на их место приходят эффективные менеджеры.  Со временем проблем ожидается всё больше и больше.
     
     
  • 2.72, Dmitry, 14:38, 10/02/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Наконец-то Такой шанс для open source индустрии перейти на mercurial сервис дл... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.73, Andrey Mitrofanov, 14:45, 10/02/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Польские вендузятнеге в поисках крестьянина-проводника В добрый путь ... весь текст скрыт [показать]
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor