The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Релиз Apache Hadoop 1.0.0, платформы для распределённой обработки данных

29.12.2011 21:08

После шести лет разработки представлен релиз проекта Apache Hadoop 1.0.0, который базируется на стабильной ветке 0.20.203.x и включает в себя поддержку безопасного режима работы кластера (наработки ветки "0.20-security" с поддержкой аутентификации с использованием Kerberos и средств разграничения полномочий), интеграцию работающей поверх Hadoop и HDFS базы данных HBase (аналог Google Bigtable, ранее развиваемый в рамках отдельного проекта Apache), поддержку интерфейса WebHDFS (HTTP REST API для доступа к ФС HDFS), наработки по увеличению производительности HBase при доступе к локальным файлам.

Hadoop является свободной платформой для организации распределённой обработки больших объёмов данных (петабайты) с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. В состав Hadoop входит также реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.

Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce. Одним из крупнейших пользователей и разработчиков Hadoop является компания Yahoo, активно использующая данную систему в своих поисковых кластерах (Hadoop-кластеру Yahoo, состоящему из 40 тысяч узлов, принадлежит мировой рекорд скорости сортировки большого объёма данных). Hadoop-кластер используется в Facebook для обработки одной из самых больших баз данных, в которой хранится около 30 петабайт информации. Hadoop также лежит в основе платформы Oracle Big Data и активно адаптируется компанией Microsoft для работы с СУБД SQL Server, Windows Server и облачной платформой Azure Cloud с целью создания новых продуктов для организации распределенной обработки больших объёмов данных. Hadoop является одним из ключевых звеньев суперкомпьютера IBM Watson, который выиграл сражение с лучшими игроками телевизионной игры-викторины "Jeopardy!".

  1. Главная ссылка к новости (http://hadoop.apache.org/commo...)
  2. OpenNews: Проекту Apache Hadoop присуждена премия новатор года
  3. OpenNews: Yahoo закрывает собственный Hadoop-дистрибутив и фокусирует внимание на Apache Hadoop
  4. OpenNews: Google разрешил проекту Hadoop использовать свои патенты, связанные с MapReduce
  5. OpenNews: Компания Yahoo выпустила свободный дистрибутив платформы Apache Hadoop
  6. OpenNews: Hadoop установил новый мировой рекорд
Лицензия: CC-BY
Тип: Программы
Короткая ссылка: https://opennet.ru/32694-hadoop
Ключевые слова: hadoop, mapreduce
При перепечатке указание ссылки на opennet.ru обязательно
 Добавить комментарий
Имя:
E-Mail:
Текст:



Спонсоры:
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2020 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру