The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

04.02.2016 13:25  GitHub опубликовал отчёт с анализом аварии, приведшей к недоступности сервиса

GitHub раскрыл подробности об инциденте, из-за которого 28 января сервис оказался выведен из строя более чем на два часа. Имел место достаточно сложный каскадный сбой, в котором проявились как недоработки в программном обеспечении GitHub, так и ошибки в прошивках серверов, что потребовало значительного времени на выяснение причин и возвращение сайта к жизни.

Из-за сбоя в системе электропитания около 25% серверов GitHub были перезагружены. Проблема не затронула балансировщики нагрузки и большинство фронтэнд-серверов, которые продолжили работу в штатном режиме, но некоторые системы, необходимые для обработки запроса, на какое-то время оказались полностью недоступны, что привело к выводу страницы с ошибкой при любом обращении к GitHub.

В том числе перезагрузка затронула серверы ChatOps, обеспечивающие механизмы взаимодействия разработчиков на GitHub. После завершения перезагрузки и восстановления работы кластера серверов ChatOps, работа сайта не восстановилась. Ситуацию усугубила неразбериха, вызванная тем, что первые 8 минут после сбоя на странице status.github.com отображался нормальный статус функционирования сервиса, хотя фактически запросы приводили к ошибке.

Первичный разбор причин неработоспособности серверов ChatOps показал, что проблема заключалась в невозможности установить сетевое соединение с кластером СУБД Redis. Первые предположения были связаны с возможным влиянием DDoS-атаки, но через какое-то время, которое было потрачено на диагностику работы сети и организацию защиты от DDoS, стало ясно, что причина не в атаке. Дальнейшее пошаговое инспектирование инфраструктуры показало, что имеет место перезагрузка некоторых бэкенд-серверов для которых в централизованной системе мониторинга данные перезагрузки не были отражены.

Далее выяснилось, что почти все недоступные серверы построены на базе оборудования одного класса и разнесены по разным стойкам и кластерам в центре обработки данных. Также стало ясно, что обеспечивающие работу сервиса приложения после перезагрузки не запустились, из-за невозможности подключиться к кластеру СУБД Redis попытка запуска процессов привела к преждевременному завершению их работы. Разработчики изменили скрипты запуска, добавив обязательную проверку работы Redis и ожидание его доступности перед запуском приложений.

Проблемы с Redis были вызваны аппаратным сбоем серверов - прошивка не смогла распознать имеющиеся диски после кратковременного прекращения питания. Диски удалось подключить после дополнительной холодной перезагрузки, после чего потребовался достаточно длительный перенос данных проблемных узлов на запасные серверы. В итоге, кластер Redis был восстановлен и, шаг за шагом, все некорректно перезагруженные серверы с приложениями были возвращены к работе.

Для предотвращения подобных ситуаций в будущем будет пересмотрен процесс применения обновлений прошивок к серверам и анализа логов для оценки возможных аномалий. Тестовый набор будет расширен средствами для проверки влияния работоспособности внешних компонентов на функционирование приложений. Также планируется реализовать возможность частичного снижения функциональности для сохранения общей работоспособности в экстренном режиме, в условиях недоступности определённых вторичных бэкенд-серверов.

  1. Главная ссылка к новости (https://github.com/blog/2106-j...)
Лицензия: CC-BY
Тип: Обобщение
Ключевые слова: github, crash
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Линейный вид | Ajax | Показать все | RSS
 
  • 1.1, Аноним, 13:49, 04/02/2016 [ответить] [смотреть все]
  • +17 +/
    Жизнь мою сгубили зря
    Электрики и слесаря.
     
     
  • 2.5, pkdr, 14:35, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]
  • +5 +/
    Страшные люди, если с ними приходилось сталкиваться Есть ещё более жуткие монст... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.10, Дегенератор, 15:09, 04/02/2016 [^] [ответить] [смотреть все]  
  • +12 +/
    Страшнее уборщицы, которая спешит, не найти.
     
  • 3.12, IZh., 15:15, 04/02/2016 [^] [ответить] [смотреть все]  
  • +2 +/
    Да, страшнеее fiber-seeking backhoe зверя нет.
     
  • 3.46, Аноним, 03:03, 05/02/2016 [^] [ответить] [смотреть все]  
  • –1 +/
    Страшные люди это те кто проектирует цод по третьей категории надёжности электро... весь текст скрыт [показать]
     
     
  • 4.54, Sabakwaka, 15:04, 05/02/2016 [^] [ответить] [смотреть все]  
  • +/
    Тот, кто не проводит учений Учения выглядят так 8212 топором перерубается си... весь текст скрыт [показать]
     
     
  • 5.55, Andrey Mitrofanov, 15:10, 05/02/2016 [^] [ответить] [смотреть все]  
  • +/
    Амазон что ли хвастал, что у них спец зондкер команда отдельная от админов деве... весь текст скрыт [показать]
     
  • 5.59, SnoWLight, 20:03, 05/02/2016 [^] [ответить] [смотреть все]  
  • –1 +/
    Ну допустим не топором По крайней мере я бы дал тебе топор и заснял бы видео ... весь текст скрыт [показать]
     
  • 5.69, Аноним, 15:56, 09/02/2016 [^] [ответить] [смотреть все]  
  • +/
    Переруби силовой кабель к гуглу Это пример правильной инфраструктуры ... весь текст скрыт [показать]
     
  • 2.6, Аноним, 14:35, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +4 +/
    Незваный электрик хуже татарина.
     
  • 2.71, Аноним, 16:32, 09/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Программисты хуже Однажды сбой в прошивке контроллера привел к включению большо... весь текст скрыт [показать] [показать ветку]
     
  • 1.2, MPEG LA, 13:49, 04/02/2016 [ответить] [смотреть все]  
  • +16 +/
    два часа - хорошее время реакции, и не просто так, а с полезными выводами. молодцы.
     
  • 1.3, IMHO, 14:00, 04/02/2016 [ответить] [смотреть все]  
  • +5 +/
    Наш админ возомнил себя богом сети, но электрик развеял этот миф
    (с) ибаш
     
  • 1.13, manster, 15:17, 04/02/2016 [ответить] [смотреть все]  
  • –5 +/
    оказывается прошивки умеют включают диски - это несомненно прорыв ... весь текст скрыт [показать]
     
     
     
    Часть нити удалена модератором

  • 3.57, Аноним, 15:39, 05/02/2016 [^] [ответить] [смотреть все]  
  • +/
    Я на такое на виндовом сервере нарывался Знаешь как весело, когда BIOS не может... весь текст скрыт [показать]
     
  • 2.39, Andrey Mitrofanov, 19:37, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Не _в_ключать, читалка притупилась Перезатачивай Сторадж, фибер-чэнел, FC-конт... весь текст скрыт [показать] [показать ветку]
     
  • 1.16, Кляйнер, 15:34, 04/02/2016 [ответить] [смотреть все]  
  • +/
    У них там прямо каскадный резонанс случился :)
     
  • 1.18, Аноним, 15:56, 04/02/2016 [ответить] [смотреть все]  
  • +5 +/
    эх, не умеют редакторы опеннета заголовки делать надо было Гитхаб упал на дж... весь текст скрыт [показать]
     
     
  • 2.20, myhand, 16:02, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • –1 +/
    s/../из-за какой-то редиски/
     
     
  • 3.30, ., 17:53, 04/02/2016 [^] [ответить] [смотреть все]  
  • +1 +/
    Какие то редиски завалили гитхаб! :)
     
  • 3.34, Адекват, 19:20, 04/02/2016 [^] [ответить] [смотреть все]  
  • +/
    Дениски Админ Дениска угандошил гитхуб своим невежеством ... весь текст скрыт [показать]
     
  • 2.49, КО, 11:59, 05/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    ГитХаб джва часа ждал Редис!
     
  • 1.35, Адекват, 19:22, 04/02/2016 [ответить] [смотреть все]  
  • –1 +/

    > Из-за сбоя в системе электропитания около 25% серверов GitHub были перезагружены.

    Я дико извиняюсь, а что - УПСов у них нет ?
    Что-то мне подсказывает, что это был не сбой электропитания, и что это не последний выход из строя гитхуба, следющий будет на несколько суток, с полной потерей всех данных.

     
     
  • 2.42, редис, 21:40, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Вот упсы-то и сбойнули. Точнее на сами упсы, система управления питанием.
     
  • 2.50, КО, 12:02, 05/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Сбой в системе электропитания вполне может быть вызван очень умными Упсами Им л... весь текст скрыт [показать] [показать ветку]
     
  • 1.38, абвгдейка, 19:35, 04/02/2016 [ответить] [смотреть все]  
  • +2 +/
    я понял - виноват редис :)
     
  • 1.41, Аноним, 20:25, 04/02/2016 [ответить] [смотреть все]  
  • +/
    Решительно детектирую пролианты под редисом только эта фекаль способна терять д... весь текст скрыт [показать]
     
     
  • 2.44, Led, 22:47, 04/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +6 +/
    > Решительно детектирую пролианты под редисом. только эта фекаль способна терять диски до
    > сброса питания

    Обижаешь! Она не только это умеет, а ещё много чего!

     
     
  • 3.47, stalker37, 10:57, 05/02/2016 [^] [ответить] [смотреть все]  
  • –1 +/
    Не всё. работать без сбоев оно не умеет! И не  тормозить местами
     
  • 2.56, Аноним, 15:35, 05/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Довольно распостраненный баг Им страдали серверные мамки интела, встречающиеся ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.58, anoo, 18:07, 05/02/2016 [^] [ответить] [смотреть все]  
  • –1 +/
    У HP тоже самое - меняли память контроллера, контроллер, мамку и так неск раз, ... весь текст скрыт [показать]
     
     
  • 4.70, Аноним, 16:01, 09/02/2016 [^] [ответить] [смотреть все]  
  • +/
    От ОС вообще не зависит - виснет проц контроллера, системный reset на него видим... весь текст скрыт [показать]
     
  • 1.64, nich, 07:38, 08/02/2016 [ответить] [смотреть все]  
  • –1 +/
    Github катится в унылое говно.  Начилась делёжка денег, адекватные люди начинают валить, на их место приходят эффективные менеджеры.  Со временем проблем ожидается всё больше и больше.
     
     
  • 2.72, Dmitry, 14:38, 10/02/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Наконец-то Такой шанс для open source индустрии перейти на mercurial сервис дл... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.73, Andrey Mitrofanov, 14:45, 10/02/2016 [^] [ответить] [смотреть все]  
  • +/
    Польские вендузятнеге в поисках крестьянина-проводника В добрый путь ... весь текст скрыт [показать]
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2017 by Maxim Chirkov  
    ДобавитьРекламаВебмастеруГИД  
    Hosting by Ihor TopList