The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Выпуск платформы для распределённой обработки данных Apache Hadoop 2.8

07.06.2017 13:05

После двух лет разработки организация Apache Software Foundation опубликовала релиз Apache Hadoop 2.8, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.

В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.

Основные изменения в Apache Hadoop 2.8:

  • Проведена работа по увеличению средств защиты, в том числе добавлены средства для блокирования атак XFS (Cross-Frame Scripting, загрузка web-интерфейса в iframe) и CSRF (Cross Site Request Forgery, подстановка скрытых обращений к REST API);
  • Для улучшения интеграции с другими приложениями представлен отдельный jar-архив hadoop-hdfs-client с компонентами клиента HDFS, который в отличие от архива hadoop-hdfs не содержит кода, связанного с обеспечением работы сервера, и требует меньше зависимостей;
  • Добавлена поддержка сервиса Microsoft Azure Data Lake в качестве источника и приёмника данных;
  • S3A, клиент для работы с данными, хранимыми в Amazon S3, существенно улучшен в плане масштабирования, производительности и безопасности. Судя по тестам Apache Hive TCP-DS, при работе с данными в хранилище S3 производительность Apache Hadoop теперь выше, чем у проприетарного коннектора Amazon EMR;
  • Серия улучшений, связанных с WebHDFS, включая интегрированный фильтр для защиты от атак CSRF, поддержку OAuth2 и управление разрешением/запретом снапшотов;
  • Добавлена возможность реконфигурации ресурсов YARN NodeManager через CLI-интерфейс RM Admin, что позволяет использовать более гибкую модель распределения ресурсов в кластерах, построенных поверх облачных систем.


  1. Главная ссылка к новости (https://blogs.apache.org/found...)
  2. OpenNews: Незащищённые Hadoop-серверы отдают более 5 Пб данных без аутентификации
  3. OpenNews: Следом за MongoDB начались атаки на CouchDB, Hadoop и ElasticSearch
  4. OpenNews: Уязвимость в Apache Hadoop
  5. OpenNews: Увидела свет платформа для распределённой обработки данных Apache Hadoop 2
Лицензия: CC-BY
Тип: Программы
Короткая ссылка: https://opennet.ru/46665-apache
Ключевые слова: apache, hadoop
Поддержать дальнейшую публикацию новостей на OpenNET.


Обсуждение (8) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 13:40, 07/06/2017 [ответить]  
  • –1 +/
    >патенты, связанные с методом MapReduce.

    Ничего себе, только узнал, а это какие?

     
     
  • 2.2, Аноним (-), 14:16, 07/06/2017 [^] [^^] [^^^] [ответить]  
  • +/
    https://arstechnica.com/information-technology/2010/01/googles-mapreduce-paten
    https://www.google.com/patents/opnpledge/patents/

    US 2012/0254193 Processing data in a MapReduce framework
    US 2012/0278323 Joining tables in a MapReduce procedure
    US 7590620 System and method for analyzing data records
    US 7650331 System and method for efficient large-scale data processing
    US 7756919 Large-scale data processing in a distributed and parallel processing environment

     

  • 1.3, Аноним (-), 15:58, 07/06/2017 [ответить]  
  • –2 +/
    А когда это, наконец, можно будет собрать из исходников?

    См. https://wiki.debian.org/Hadoop

    А также https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

     
     
  • 2.4, Аноним (-), 16:02, 07/06/2017 [^] [^^] [^^^] [ответить]  
  • +/
    https://m.slashdot.org/story/324121
     
  • 2.5, Борщдрайвен бигдата (?), 20:02, 07/06/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Оно уже несколько лет собирается в два с половиной шага: установка зависимостей, mvn package и походом за чай, пока собирается. Для особых ценителей есть BUILDING.txt

    На каких слоупоков рассчитан наброс выше — непонятно.

     
  • 2.7, Stax (ok), 21:17, 07/06/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Возьмите CDH и не парьте себе и другим мозг. Вы что, собрались в реальном продакшене использовать собственные сборки и тестировать/обслуживать обновления?
     
     
  • 3.8, Борщдрайвен бигдата (?), 13:33, 08/06/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вообще, можно. Иногда приходится мейнтейнить свои патчи. Удовольствие ниже среднего, но порой такой подход — единственно приемлемый.
     

  • 1.6, Борщдрайвен бигдата (?), 20:11, 07/06/2017 [ответить]  
  • –1 +/
    Неплохо, неплохо.

    Но вот обновляться слегка рано. Во-первых, не всё _совсем_ гладко после миграции на новую схему раскладки блоков в DataNode (есть репорты, что при очень кривых руках можно поломать вообще всё и сразу), во-вторых, не решены пару проблем с HA, в-третьих, чуть-чуть сломали ACL и FairScheduler в YARN'е.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:
    При перепечатке указание ссылки на opennet.ru обязательно



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2021 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру