The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

28.01.2019 11:09  Релиз платформы для распределённой обработки данных Apache Hadoop 3.2

Организация Apache Software Foundation опубликовала релиз Apache Hadoop 3.2, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.

В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.

Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

Основные изменения в Apache Hadoop 3.2:

  • Добавлен коннектор для файловой системы ABFS, поддерживающий хранилища Azure Datalake Gen2;
  • Расширены возможности коннектора S3A, в котором обеспечена корректная обработка урезанных конфигураций AWS S3 и DynamoDB IO;
  • В YARN (Yet Another Resource Negotiator) добавлена поддержка атрибутов узлов, позволяющая прикреплять разные метки к узлам и размещать контейнеры с учётом данных меток;
  • Реализован SPS (Storage Policy Satisfier), позволяющий создавать расширения для HDFS (Hadoop Distributed File System), перемещающие блоки между различными типами хранилищ на основе политик хранения, заданных для файлов и каталогов;
  • Представлен инструмент Hadoop Submarine для упрощения разработки, тренировки и развёртывания моделей глубинного машинного обучения на базе фреймворка TensorFlow в одном кластере Hadoop YARN;
  • Добавлен HDFS-клиент на C++ с поддержкой асинхронного ввода/вывода для HDFS;
  • Обеспечена возможность обновления начинки контейнеров через CLI-интерфейс или API YARN Native Service без остановки работы связанных с ними длительно работающих сервисов.

Дополнительно можно отметить выявление уязвимости в коде авторизации HDFS, позволяющей узнать значения расширенных атрибутов через выполнение операции listXAttrs. Проблема вызвана тем, что при проверке полномочий учитывался только доступ к операциям просмотра каталогов на уровне файловых путей, но не выполнялась проверка прав на чтение содержимого.

Кроме того, приводятся сведения об обнаружении вредоносного ПО, поражающего незащищённые хранилища на базе Hadoop. Для внедрения вредоносного ПО в сети отыскиваются необновлённые серверы, содержащие неисправленные известные уязвимости в Hadoop YARN, а также в Redis и ActiveMQ, позволяющие выполнить код в системе. В случае успешной эксплуатации уязвимостей на сервере в большинстве случаев запускается код для майнинга криптовалют, организации слежки в локальной сети или кражи корпоративных закрытых данных. В отдельных случаях зафиксировано применение вредоносного ПО Xbash, которое поддерживает сканирование сети для выявления новых уязвимых жертв, выполняет чистку содержимого БД и требует выкуп за восстановление данных (указывается, что данные зашифрованы, но на деле они просто удаляются).

  1. Главная ссылка к новости (https://blogs.apache.org/found...)
  2. OpenNews: Релиз платформы для распределённой обработки данных Apache Hadoop 3.0
  3. OpenNews: Незащищённые Hadoop-серверы отдают более 5 Пб данных без аутентификации
  4. OpenNews: Следом за MongoDB начались атаки на CouchDB, Hadoop и ElasticSearch
  5. OpenNews: Уязвимость в Apache Hadoop
  6. OpenNews: Релиз Apache Hadoop 1.0.0, платформы для распределённой обработки данных
Лицензия: CC-BY
Тип: Программы
Ключевые слова: hadoop
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.2, лютый жабист__ (?), 12:42, 28/01/2019 [ответить] [показать ветку] [···]    [к модератору]
  • –1 +/
    Мда, а местные эксперты недавно уверяли, что вся бигдата с жабки уже давно ушла.
     
     
  • 2.4, Аноним (4), 12:48, 28/01/2019 [^] [ответить]    [к модератору]
  • +6 +/
    Бигдата ушла, а легаси остался.
     
     
  • 3.9, Аноним (9), 14:25, 28/01/2019 [^] [ответить]     [к модератору]
  • +/
    Согласен, это именно легаси Вы только посмотрите, на какой старой платформе Clo... весь текст скрыт [показать]
     
     
  • 4.10, Аноним (4), 14:28, 28/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Зато стабильность.
     
  • 4.13, Лапчатый девляпс бубунтёнок (?), 15:18, 28/01/2019 [^] [ответить]    [к модератору]  
  • –1 +/
    Не, ну когда я в cиcькe арботал, эта проблема была, мы тогда клаудеру безуспешно пытались спрашивать. А сейчас вроде и седьмую чентозь добавили. В предверии выхода 8-й: https://www.cloudera.com/documentation/enterprise/5-7-x/PDF/cloudera-quickstar
    Они не спешат....
     
  • 4.14, Bonch (??), 15:48, 28/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Насколько я знаю, QuickStart VM для новых версий CDH больше не релизят (последняя VM доступна для релиза 2017го года). В новых версиях (CDH6) перешли на java 8, но QuickStart-ов для них больше не будет.
     
  • 4.18, Анонэйм (?), 23:08, 28/01/2019 [^] [ответить]    [к модератору]  
  • –1 +/
    Ну, будучи в универе, у меня был курс с Hadoop, мне было влом держать этот CentOs в виртуальной машине, и я установил Hadoop напрямую в MacOS, проблем с установкой и разработкой замечено не было.
     
  • 4.20, лютый жабист__ (?), 07:58, 29/01/2019 [^] [ответить]    [к модератору]  
  • +/
    >свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle.

    Не болтай ерундой.

    java-1.8.0-openjdk-1.8.0.171-8.b10.el6_9.x86_64.rpm

    Cloudera who?

     
     
  • 5.27, Аноним (9), 13:07, 29/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Я не про CentOS 6, а про QuickStart VM.
     
  • 3.15, Киль Комаров (?), 15:52, 28/01/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    А куда ушла Бигдата?
     
     
  • 4.16, YetAnotherOnanym (ok), 17:42, 28/01/2019 [^] [ответить]    [к модератору]  
  • +2 +/
    В закат же!
     
  • 1.3, лютый жабист__ (?), 12:46, 28/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • –2 +/
    <наивный буратина моде он>
    Скоро перепишут на плюсах и настанет ой всё!
    </наивный буратина моде он>

    Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

     
     
  • 2.5, Аноним (4), 12:50, 28/01/2019 [^] [ответить]    [к модератору]  
  • +6 +/
    А куда им бежать с подводной лодки?
     
     
  • 3.6, FedeX (ok), 12:54, 28/01/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    Ну дык данные нынче -товар. Чем больше ПБ тем дороже, главное покупателей кому оно надо найти. Так шо это не подводная лодка, а воздушный шар.
     
     
  • 4.7, имя (?), 13:45, 28/01/2019 [^] [ответить]    [к модератору]  
  • –4 +/
    пох, перелогинься
     
     
  • 5.17, пох (?), 21:59, 28/01/2019 [^] [ответить]    [к модератору]  
  • +/
    а я тут причем? Я просто молчу в а...е, от того сколько ж они о вас накопали. Что там не котиков нифига 4 петабайта в день, да и не в hadoop'е те котики - по-моему, очевидно.

    А у нетфликсы и котиков-то никаких нет...

     
  • 2.8, Аноним (8), 14:03, 28/01/2019 [^] [ответить]     [к модератору]  
  • +/
    Посчитать осталось, сколько лишней электроэнергии уходит впустую на джаву Перес... весь текст скрыт [показать]
     
     
  • 3.11, Аноним (4), 14:28, 28/01/2019 [^] [ответить]    [к модератору]  
  • –1 +/
    В корпоративном мире чем больше ты потратил тем ты круче.
     
     
  • 4.25, лютый жабист__ (?), 11:26, 29/01/2019 [^] [ответить]    [к модератору]  
  • +/
    >В корпоративном мире чем больше ты потратил тем ты круче.

    В корпоративном мире бюджет формируют за год, а то и два. Знаешь ты сколько тебе через 2 года надо ресурсов, не знаешь, никого не ебстит. Поэтому пишешь от балды x4. Половину зарежут на совете директоров, зато оставшихся x2 хватит на жабу и даже на помайнить.

     
  • 2.19, Аноним (19), 00:16, 29/01/2019 [^] [ответить]     [к модератору]  
  • –1 +/
    А тут не опечатка - ежедневно увеличивается на 4 Пб в день Это что, сегодня 4... весь текст скрыт [показать]
     
     
  • 3.21, лютый жабист__ (?), 08:01, 29/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.
     
     
  • 4.22, erthink (ok), 11:03, 29/01/2019 [^] [ответить]    [к модератору]  
  • –1 +/
    > Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.

    1) "ежедневно увеличивается на 4 Пб в день" = арифметическая прогрессия.
    2) 300 + 4*365 = 1760

    ява в голове - это диагноз навсегда ;)

     
     
  • 5.23, лютый жабист__ (?), 11:22, 29/01/2019 [^] [ответить]    [к модератору]  
  • +/
    >ява в голове - это диагноз навсегда ;)

    сишникам лишь бы пюкнуть против жабы и в кусты, пилить могучее ненужно.

    300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.

     
     
  • 6.26, Аноним (26), 11:31, 29/01/2019 [^] [ответить]     [к модератору]  
  • +/
    Скорее всего ошибка, но может именно в хадупе в кластере на 4тыс узлов растет ка... весь текст скрыт [показать]
     
  • 3.24, Аноним (26), 11:26, 29/01/2019 [^] [ответить]     [к модератору]  
  • +/
    Очевидно же из фразы - увеличивается не ежедневная порция добавляемых данных, а ... весь текст скрыт [показать]
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2019 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor