URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 120466
[ Назад ]

Исходное сообщение
"Сбой системы хранения привёл к недоступности более 44 сервер..."

Отправлено opennews , 28-Апр-20 20:26 
Разработчики проекта Debian предупредили о значительном сбое в инфраструктуре, обеспечивающей разработку и поддержание дистрибутива. Из-за проблем в системе хранения из строя выведено несколько десятков серверов проекта, размещённых на площадке UBC. В предварительном списке указано 44 сервера, но список не полный...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=52829


Содержание

Сообщения в этом обсуждении
"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 28-Апр-20 20:28 
Ха-ха-ха. Пользуйтесь дальше своей инфраструктурой, пользуйтесь. GitHub ведь такое зло.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 28-Апр-20 20:30 
Этого забанить на гитхабе. Пишите на почту, разберёмся потом как-нибудь.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено vlad , 28-Апр-20 20:42 
причем тут github? тут речь вообще о других по сути сервисах

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 00:15 
ctrl+f, salsa

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 05:33 
Упадёт дата-центр у гитхаба, как будешь говорить?

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 07:07 
> как будешь говорить?

GitHub is Down: 25 февраля - https://news.ycombinator.com/item?id=22414534 ; 4 апреля - https://news.ycombinator.com/item?id=22802536


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 07:44 
Оглушительно молчать он будет. Анацефал не понимает зачем нужна своя инфраструктура, поскольку нигде и никогда не работал всерьёз.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено анонимчик , 28-Апр-20 20:38 
blackout!

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 07:08 
lockdown!

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Michael Shigorin , 28-Апр-20 20:41 
Эх.  Опять все яйца в одной корзине вместо "старомодного" разнесения данных туда, где они нужны.

PS: удачи в восстановлении коллегам.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено A.Stahl , 28-Апр-20 20:51 
>a number of services hosted at UBC are currently offline

Я не знаю как на самом деле, но фраза составлена так, что создаётся впечатление что UBC не единственный их хостер. Так что всё нормально: яйца в одной куче, корзины -- в другой.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Michael Shigorin , 28-Апр-20 21:09 
> Я не знаю как на самом деле, но фраза составлена так, что
> создаётся впечатление что UBC не единственный их хостер.

Я про соотношение "хранилки-машинки"...


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 28-Апр-20 21:59 
Миша, а ты правда не видел ролика с хером на самокате, несущемся менять картонку в гуглохренилище?

Когда серверов становится больше десятка - зае...шься ты на самокате между ними гонять, без конца выдирая сдохшие диски и перезаливая сдохшие вместе с диском. А денег у прожекта дебиан немного меньше, чем у гугля, где это хотя бы делают дешевые рабы.

Ну и дай угадаю - они выбрали самый помойный ДЦ и сама хранилка - 6ешплатная из г-на и палок, палки - хорошо если от супермикры.

Потому что у меня:
Dear Client,

we are 24/7 available at the datacenter. Shall we schedule the maintenance to
take place tonight at 19:00 CEST?

- и да, мое дешевое г-но в этот раз починили.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Michael Shigorin , 28-Апр-20 22:12 
> Миша, а ты правда не видел ролика с хером на самокате,
> несущемся менять картонку в гуглохренилище?

Не-а.

> Когда серверов становится больше десятка - зае...шься ты на самокате
> между ними гонять, без конца выдирая сдохшие диски и перезаливая
> сдохшие вместе с диском.

Сами думаем, как именно дальше идти.  Но нам проще, выбор есть.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 28-Апр-20 22:19 
> Сами думаем, как именно дальше идти.  Но нам проще, выбор есть.

ну, у вас, я так понимаю - выбор из палок и палок, а не между netapp и 3par.



"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Michael Shigorin , 28-Апр-20 22:23 
>> Сами думаем, как именно дальше идти.  Но нам проще, выбор есть.
> ну, у вас, я так понимаю - выбор из палок и палок,
> а не между netapp и 3par.

Ну мы, положим, можем и bitblaze взять, у них есть и двухголовые.
Вопрос в том, надо ли.  Netapp точно ни к чему.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено evkogan , 28-Апр-20 23:27 
Раз вопрос есть, значит нужды нет :)

Но вот меня сразу начинает смущать способность инфраструктурной конторы делать сервисы с 99,(9) если они себе такой сделать не хотят.
Интересно почему bitblaze можете, а netapp нет.
Я не верю что bitblaze дешевле. На их странице главное преимущество это Эльбрус. Меня конечно распирает гордость, что появилась СХД на отечественной компонентной базе, но смущает, что другие достоинства (производительность, эффективность хранения, пресловутые девятки) не упомянуты совсем.
Даже гос конторы до сих пор покупают импортные СХД, просто NetApp стал китайским Lenovo (OEM).
Или есть Израильский Infinidat. Ну или честный Китайский Huawei. В общем найти можно.
Вы настолько религиозны?


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 28-Апр-20 23:49 
> Интересно почему bitblaze можете, а netapp нет.

нескрепно. А святой воды не достать - поп на карантине.

> Даже гос конторы до сих пор покупают импортные СХД, просто NetApp стал
> китайским Lenovo (OEM).

ААААААА! Ты бы видел, что при этом происходит, когда такой китайский netapp отваливается от китайской леновы. Жаль, у нас, наверное, теперь не будет денег повторить эти гастроли бл...ского цирка.

> Ну или честный Китайский Huawei.

и что, в дефаулт сити есть хоть один смелый кто с ним работал? (и богатый, ибо ocean stor, или как там у них нынче модно, обойдется в копеечку)
А то китайская честность, она такая... китайская.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено evkogan , 29-Апр-20 00:08 
>Ты бы видел, что при этом происходит, когда такой китайский netapp отваливается от китайской леновы

Можно подробнее. подключение FC? Отваливаются все сервера разом? И главное какого ему надо и как лечится?

>в дефаулт сити есть хоть один смелый кто с ним работал?

В дефолт не знаю, но я работал и продолжаю.
Это конечно не 3par, но СХД не плохая. И гораздо дешевле того же 3par.
Главный косяк не внутри СХД, а снаружи. Интеграция со всякими системами типа vmware, мониторинг и т.п. Чисто китайская, т.е. есть 10 разных плагинов, но ни одного нормального и нормально работающего. Просто для СХД это не критично, мониторинг можно сделать через stor2rrd, не совсем что хочется но пойдет.
Причем для AFA они предлагают диски по стоимости HDD 10к. Т.е. век All Flash благодаря им уже пришел в Россию.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 29-Апр-20 10:04 
> Можно подробнее. подключение FC? Отваливаются все сервера разом? И главное какого ему

угу, fc, нет, один конкретный - и он - ленова, и, главное - оба угодили в общий контракт с интегратором, и netapp в нем - через вот этот партнерский мостик через ленову.
> надо и как лечится?

заменой sfp, они все так лечат, но осадочек остался (потому что нифига непохоже что дело в sfp)

Но наблюдение как процесс смахивания тараканов приводит к возвращению того же таракана в исходную точку с нехилым ускорением - бесценно. ;-)

>>в дефаулт сити есть хоть один смелый кто с ним работал?
> В дефолт не знаю, но я работал и продолжаю.

ок, запишем что оно таки возможно, а то я уж подозревал, что благодаря китайским странностям продаж тут у них ровно ноль.

> Это конечно не 3par, но СХД не плохая. И гораздо дешевле того
> же 3par.

на рынке, где в графе цена - "call" - скорее всего "гораздо дешевле" означает, что хепешный продавец почему-то к тебе не пошел. То ли неинтересно, то ли кто-то рядом в санкционных списках, то ли "а вот не нравишься ты мне".

Правда, потом всплывет цена апгрейда, и об этом придется говорить совсем в другой позе.

> Причем для AFA они предлагают диски по стоимости HDD 10к. Т.е. век
> All Flash благодаря им уже пришел в Россию.

ну я знавал героев, собиравших такое еще лет пять тому, но не из китайских деталей - стремно им было (вот начнет так отваливаться - и чего делать, куды бечь?). Впрочем, кетайцы как-то не очень и хотели, хотя он у них уже был.
Интересно бы поизучать, что там у зайчика внутри.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Crazy Alex , 29-Апр-20 00:14 
Нсли так - то правильно сделали, что сэкономили. Нет там ничего, что должно иметь запредельные аптаймы. Зеркала никуда не делись, для текущих дел день перерыва - не проблема.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Павел Николаевич , 29-Апр-20 16:47 
Ой, дак mirror.yandex.ru не упал ведь

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено VINRARUS , 28-Апр-20 20:42 
>Для восстановления требуются манипуляции с переключением питания

Я всегда говорил шо самая нужная в любом компьютере кнопка — кнопка перезагрузки!


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 28-Апр-20 20:54 
А в чем проблема, "пилоты" управляемые через ВЕБ интерфейс уже перестали выпускать?
Правда этого все же маловато будет.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Michael Shigorin , 28-Апр-20 21:08 
> А в чем проблема

В том, что PDU не было, тащат.

Кстати, когда-то на стендике в Massive Solutions хорошо себя зарекомендовали копеечные USB-шные Gembird SiS-PM с sispmctl.  Жаль, что сейчас одни тупоумные розетки продают, даже у китайцев такого не нашёл год-два назад.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 28-Апр-20 22:27 
Так может там питание пропало. Надо переключить питалово от другого ввода или как-то иначе.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 28-Апр-20 20:49 
Электрика пусть попросят свет вырубить в датацетре

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено VINRARUS , 28-Апр-20 20:53 
Там автономное должно быть.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 28-Апр-20 22:00 
электрик из дома работает, сколько свой щиток не дергал - только соседям свет смог вырубить.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 28-Апр-20 20:54 
packages.debian.org работает, debian.org работает, cdimage работает, а кто такие сальса я вообще не знаю...

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено A.Stahl , 28-Апр-20 20:57 
> а кто такие сальса я вообще не знаю...

Это то ли танец такой, то ли приправа a la кетчуп.



"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Licha Morada , 28-Апр-20 21:46 
Да, танец.
Нет, salsa это собирательное для "соус" вообше, тупо перевод. "Соус сальса" это как "братья брозерс" или "водка алкогольная".
Анонимус выше прав, то что критично для онлайна осталось в онлайне. А то что упало, оно неприятно, но не смертельно.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 05-Май-20 16:32 
Нет, это совершенно определенный вид соусов. Да еще и ерундовых (на мой вкус) https://ru.wikipedia.org/wiki/%D0%A1%D0%...)

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Licha Morada , 05-Май-20 18:28 
> Нет, это совершенно определенный вид соусов. Да еще и ерундовых (на мой
> вкус) https://ru.wikipedia.org/wiki/%D0%A1%D0%...)

Русскоязычная Википедия замечательный ресурс, очень её люблю и всё время использую. Но в данном случае ей верить не надо.
https://en.wikipedia.org/wiki/Salsa_(sauce) (Salsa is the Spanish word for "sauce".)
https://www.rae.es/drae2001/salsa (Словарь испанской королевкой академии)


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено myhand , 28-Апр-20 21:35 
> packages.debian.org работает

Ты просто не на все ссылки жал.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Licha Morada , 28-Апр-20 21:49 
Какие не?

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено mfa , 28-Апр-20 21:46 
водка с сальсомь

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено myhand , 28-Апр-20 21:35 
Зато с инклюзивностью, поди, в Debian System Administration Team - теперь все в порядке.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 28-Апр-20 22:04 
    Date: Tue, 28 Apr 2020 19:56:35 +0100

Hi,

After some further attempts, we have been able to restore storage
functionality at UBC without needing Luca to travel to the site. Der
Techniker ist erleichtert.

All affected systems are now back online, and we will continue to
monitor the situation.

Thanks for your patience while we worked to resolve these issues.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Michael Shigorin , 28-Апр-20 22:13 
Sehr gut!

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено freehck , 29-Апр-20 05:50 
> have been able to restore storage functionality at UBC without needing Luca to travel to the site
> Der Techniker ist erleichtert

Бггг. "Техник вздохнул с облегчением". =)


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 01:43 
Раз в миллениум и Debian сбоит.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 01:52 
Раз упало значит нужно перевести на что то модно-молодёжное. Будет в духе сегодняшнего дебиана

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено kio , 29-Апр-20 02:06 
Ну результаты работы трушной олдовой инфраструктуры с каноничным single point of failure аж на 44 сервера мы уже увидели. Виртуализация, резервирование, geo distribution - это все для хипстеров-смузихлебов. Трушно-свитерно - все посадить на один storage array в одном DC.

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Онаним , 29-Апр-20 07:59 
Причина номер раз. Пока что всякие "геодистрибуции" падают гораздо чаще и серьёзнее, чем докерки. Тот же гитхаб два раза за полмесяца валялся. А ещё попробуйте сравнить бюджеты "геодистрибуторов" и дебиана, и станет понятна вторая причина.

Нет, за спофы тоже надо руки отрывать, но вот эти все инди-кубернетесы тоже идут лесом.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Онаним , 29-Апр-20 08:00 
Фак.

Пока что всякие "геодистрибуции" и докерки падают гораздо чаще и серьёзнее, чем классика.

Fixed. Спросонья писать всякую х**ту - выходит вдвое большая х**та.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 29-Апр-20 10:24 
> Ну результаты работы трушной олдовой инфраструктуры с каноничным single point of failure

ну честно-то говоря, не олдовая и за миллиард нефти тоже так вот умеет, вот, храню рядом с пробитым партбилетом:
[   83.026903]  rport-2:0-8: blocked FC remote port time out: removing target and saving binding
[   83.026908]  rport-1:0-10: blocked FC remote port time out: removing target and saving binding
[  148.621499]  rport-2:0-0: blocked FC remote port time out: removing target and saving binding
[  148.621568]  rport-1:0-0: blocked FC remote port time out: removing target and saving binding
[  287.900229]  rport-1:0-11: blocked FC remote port time out: removing target and saving binding
[  287.900298]  rport-2:0-1: blocked FC remote port time out: removing target and saving binding

- херак, и ВСЕ линуксные серваки превратились в тыковку по причине отвала ВСЕХ дублированных-передублированных линков к СХД и мгновенному испарению из /sys всех sd? без вариантов воскрешения.
Но это, если что - потому что линукс вот такое вот г-но. Потому что ни вмварь, ни винда - ничего подобного не заметили (а о работах такого рода все равно предупреждать, блжад, надо).

А почему он г-но? А вот как раз потому, что у самих горе-разработчиков - г-но и палки, и мечты купить советское, значит отличное от хорошего. И подобные вещи они не то что не тестировали, а никогда даже не отлаживали.

> - это все для хипстеров-смузихлебов. Трушно-свитерно - все посадить на один
> storage array в одном DC.

у них было целых два - packages вот не накрыло.

У меня тоже было два - не помогло, у нас нет СТОЛЬКА деньгов чтобы всю-всю инфраструктуру дублировать. Предполагается, что при падении ядреной бомбы на основной DC, запасные админы поднимут нужное в запасном ручками.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено PnD , 29-Апр-20 11:47 
Через несколько минут после начала загрузки (из процитированного dmesg)?
Больше похоже на обычную загрузку хоста с кучей FC через брокады.
Вот тут:
https://www.linuxquestions.org/questions/linux-server-73/blo...
разбор откуда оно берётся.

* Я верю что оно попадало, но хочу посмотреть релевантный лог. В моей практике валится например из-за трэшовой реализации rdac к (полу)дешёвым netapp-based. А все порты по таймауту — просто так не валятся.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено нах. , 29-Апр-20 12:08 
> Через несколько минут после начала загрузки

а ты думал, я его каждый день загружаю? Через несколько минут после прошлого ресета - опачки, отвалилось снова нахер, просто на сей раз удалось полюбоваться, а в тот и не на что было.

> Больше похоже на обычную загрузку хоста с кучей FC через брокады.

похоже, но не то же самое (там другое, там оно "ой ниушпела" пишет, а не путь отвалился и я на всяк случай вообще нихачю-нибуду работать сегодня - причем это реально ВСЕ какие были)

> * Я верю что оно попадало, но хочу посмотреть релевантный лог. В

это ж линукс, каких тебе релевантных логов c fcшки - скажи спасибо что так, а не просто повисло и непонятно, от чего.

> моей практике валится например из-за трэшовой реализации rdac к (полу)дешёвым netapp-based.
> А все порты по таймауту — просто так не валятся.

а это и не порты отвалились, это пути через эти порты отвалились. А вот схерали оно эти пути месяц назад не перестроило на более прямые, как сделали (молча!) варя и винда - это у линукса своего спросите ;-)
А у нас спрашивать не с кого - не для того 6ешплатное ставили, чтоб денег техподдержке платить.

Да, причиной была совершенно нештатная операция, нехер так делать, но, повторяю - ентер-прайс грейд системы совершенно не расстроились и все восприняли как надо без ручных плясок с граблями.


"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 13:35 
Дебиан: перезагрузка

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Аноним , 29-Апр-20 14:52 
А может кто зеркало сможет поднять? Или безопасность?

"Сбой системы хранения привёл к недоступности более 44 сервер..."
Отправлено Ананоним , 29-Апр-20 17:01 
Я не понял! А где же технология BackDoor, тьфу, Intel AMT?