The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Компания LexisNexis опубликовала код системы распределенных вычислений HPCC

14.09.2011 17:29

Компания LexisNexis выполнила своё обещание и открыла исходные тексты проекта HPCC (High Performance Computing Cluster), предназначенного для создания кластеров для обработки большого объема данных (петабайты). Код проекта открыт под лицензией AGPLv3, требующей открытия всех изменений в случае использования продукта для обеспечения работы сетевых сервисов. Кроме кода подготовлены тестовые бинарные сборки Community-версии HPCC для CentOS, Red Hat, Ubuntu и SUSE Linux.

Проект HPCC написан на языке C++ и конкурирует с платформой Hadoop, написанной на языке Java. HPCC отличается значительно более высокой производительностью при отличном уровне надежности - связанные с HPCC продукты LexisNexis развиваются уже на протяжении 10 лет и давно используются в промышленном секторе для обработки критически важных данных в таких учреждениях как банки, финансовые компании, правоохранительные органы и правительственные структуры. Система прозрачно масштабируется от одного сервера до кластера из тысяч узлов. При появлении необходимости в расширении хранилища новые узлы могут добавляться на лету. В комплект входят средства для развертывания, мониторинга и управления кластером.

Логика выборки данных формируется с использованием специально разработанного языка манипулирования данными ECL (Enterprise Control Language). Для программирования на языке ECL поставляется специальная интегрированная среда разработки. Итоговый код транслируется в оптимальное представление на языке C++ и может быть собран в виде разделяемой библиотеки. Кроме того, запросы на языке ECL могут быть интегрированы как inline-блоки в программы на языке C++. Поддерживается интеграция ECL и с другими языками программирования. Для ускорения типовых выборок возможно создание индексов по нескольким ключам.

На конечных узлах данные хранятся в локальной файловой системе Linux. Большие файлы разбиваются на части и хранятся порциями. Возможно подключение специальных трансляторов, которые могут отождествлять файлы с внешними базами, например, с содержимым БД в MySQL. Для обеспечения надежности, данные дублируются на разных узлах, а изменения реплицируются. В случае сбоя, проблемный узел автоматически замещается резервным узлом, а все ранее выполняемые на сбойном узле задания возобновляются с последней контрольной точки.

В рамках платформы поддерживаются два механизма обеспечения работы с данными:

  • Roxie (Rapid Online XML Inquiry Engine) - движок для формирования запросов и доставки данных, снабженный элементами для использования в роли warehouse-хранилища, например, поддерживающий выполнение структурированных запросов и аналитических операций. Roxie оперирует распределенными индексами B+Tree, содержащими информацию о ключах и данных, хранимых в локальных файлах на каждом узле;
  • Thor (The Data Refinery Cluster) - похожая по сути на Hadoop MapReduce Cluster распределенная система хранения, объединяющая в единое хранилище информацию с разных узлов кластера и предназначенная для связывания, преобразования и индексации данных. Thor имеет Master/Slave архитектуру, подразумевающую размещение отдельных серверов имен и серверов маппинга размещения файлов на узлах хранения.

HPCC позволяет хранить и обрабатывать в распределенной кластерной инфраструктуре огромные массивы данных, благодаря массовой параллельной обработке обеспечивая производительность в миллиарды операций в секунду. Например, за доли секунды можно получить доступ, осуществить анализ и произвести изменение выборки из терабайт разрозненных данных, хранимых в разных частях кластера. В тестовой конфигурации HPCC-кластер из 400 узлов затратил на сортировку 1 Тб данных 102 секунды и выполнил комплексное тестовое задание за 6 минут 27 секунд. То же задание на том же оборудовании Hadoop выполнил за 25 минут 28 секунд, что в 3.95 раз медленнее, чем результат HPCC. Компания Yahoo, используя Hadoop-кластер из 1460 узлов, смогла выполнить сортировку 1 Тб данных за 62 секунды, а 100 Тб на кластере из 3452 узлов за 173 минуты (на сортировку 1 Пб ушло 975 минут).

  1. Главная ссылка к новости (http://hpccsystems.com/about-u...)
  2. OpenNews: Новая схема привлечения независимых разработчиков в открытые проекты компаний
Лицензия: CC-BY
Тип: Программы
Короткая ссылка: https://opennet.ru/31751-HPCC
Ключевые слова: HPCC, cluster, Hadoop
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (18) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, VoDA (ok), 18:31, 14/09/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    открытый конкурент Hadoop это хорошо - конкуренция двигает прогресс )))
     
     
  • 2.18, user (??), 15:17, 16/09/2011 [^] [^^] [^^^] [ответить]  
  • –1 +/
    После второй мировой войны, Япония приняла решение что конкуренция- это плохо. Внутренний рынок был поделен между кланами, так чтобы конкуренция существовала только между Японией и внешним миром.
    Современная Япония - лидер в технологиях.
    Советский Союз - был мировым лидером в военных и космических технологиях.

    Вся из себя конкурирующая сама с собой Европа  - неочем...
    Вся из себя конкурирующая сама с собой Америка - развивает технологии и живет за счет ОГРОМНОГО внешнего долга...Вактически америка живет на иждивении у всего остального мира, тоесть за счет всех зон не обеспеченного ничем доллара.

     
     
  • 3.20, Anonim (??), 16:53, 16/09/2011 [^] [^^] [^^^] [ответить]  
  • +/
    А где об этом можно почитать?
     
  • 3.22, Аноним (-), 21:59, 03/10/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Бла-бла. Только вот американцы почему-то первые и последние были на Луне.
     
     
  • 4.23, user (??), 08:49, 04/10/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Бла-бла. Только вот американцы почему-то первые и последние были на Луне.

    "Бла-бла" - было достаточно чтобы продемонстрировать ваше незнание предмета.
    А еще они первые и последние использовали атомное оружие на мирных жителях...

     
  • 2.19, user (??), 15:25, 16/09/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > открытый конкурент Hadoop это хорошо - конкуренция двигает прогресс )))

    Прокомменитируйте пожалуста вот эту цитату:

    "
    Интересно, что в конце своей книги "Международная конкуренция" М.Портер признает, что его идеи и выводы о пользе "жесткой конкуренции" противоречат подходам экономистов и властей в Великобритании, Швеции, Японии и некоторых других странах [25]. Обратим внимание: страны – то он назвал не какие-нибудь отсталые, а передовые, постиндустриальные. Предупреждая о том, что замедление процессов конкуренции делает неустойчивыми блестящие перспективы Европы, М.Портер тридцать лет назад видимо даже не предполагал того, что первый глобальный экономический кризис в истории человечества начнется именно с "жестко конкурентной" американской экономики. А надо было бы.
    "

     

  • 1.6, phprus (ok), 20:14, 14/09/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Подскажите пожалуйста, а этой системой можно обрабатывать данные в процессе их генерации? Например, у нас есть некоторый стенд, данные с которого необходимо обрабатывать во время работы стенда.

    Пока чтение сайта http://hpccsystems.com/ ясности в этом вопросе для меня не добавило. Возможно кто-нибудь окажется более внимательным и сможет помочь мне найти ответ на этот вопрос.

     
     
  • 2.8, Аноним (-), 20:23, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Задача поставлена мощно. У нас есть масорубка (ручная), нужно посчитать количество оборотов в секунду. Кто сможет? За 100 баксов?
     
     
  • 3.9, Аноним (-), 20:28, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > масорубка

    мясорубка.
    Точность подсчета не менее +-2 оборота.

     
     
  • 4.13, Аноним (-), 22:45, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > мясорубка.
    > Точность подсчета не менее +-2 оборота.

    Да фигня вопрос: желаемую периодичность выдачи результата вы не указали :). Поэтому реализатору можно например мерять обороты ровно 1 минуту, копеечным оптодатчиком (типа того как в мышах) прицепленным к любому микроконтроллеру. С фирмварой в стиле hello world. Такое на коленке сгородит даже пионер. А в каком городе 100 баксов за такую ерунду выдают? Не боитесь что к вам толпа ардуинщиков выстроится в очередь за стольниками? :)

     
     
  • 5.14, Аноним (-), 23:03, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Решаете задачу в лоб. Сколько за секунду можно сделать оборотов? При точности +-2 можно и на глаз посчитать без всяких оптодатчиков. Я хотел показать абсурдность ТЗ.
     
  • 3.10, phprus (ok), 20:38, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Задача поставлена мощно. У нас есть масорубка (ручная), нужно посчитать количество оборотов в секунду. Кто сможет? За 100 баксов?

    А в чем собственно проблема? Терафлопс 10+ для расчетов у меня есть, сетевая инфраструктура для передачи данных есть, хранилища найдем, стенд - источник данных тоже в наличии.

    А суть вопроса в том, что у нас есть своя разработка, которая эту задачу ("реалтаймовой" обработки генерируемых данных) частично решает, но так как открыт мощный инструмент для высокопроизводительных вычислений, то грех не поинтересоваться подходит ли он для решаемого нами класса задач, хотя-бы чтобы сравнить эффективность своей разработки и разработки других коллективов.

    P.S. "реалтаймовой" в кавычках по тому, что гарантий реального времени у нас нет, но этот термин наиболее близкий по смыслу применительно к нашей задаче.

     
     
  • 4.11, VoDA (ok), 22:22, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • +2 +/
    напиши им на формум или разверни систему и затести ;)
     
  • 3.12, Аноним (-), 22:31, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > ? За 100 баксов?

    Рискуете нарваться на то что кто-нить притащит оптический датчик оборотов и замеряет. Сто баксов за 1 замер слупить - поди хреново?! :)

     
     
  • 4.15, Аноним (-), 23:20, 14/09/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Если он притащит этот датчик с "Терафлопс 10+" на борту для замера количества оборотов в секунду ручной мясорубки с погрешностью +-2 оборота - нужно будет его в книгу рекордов гиннеса занести. Угадай в какую категорию.
     
     
  • 5.21, phprus (ok), 21:13, 16/09/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Если он притащит этот датчик с "Терафлопс 10+" на борту для замера количества оборотов в секунду ручной мясорубки с погрешностью +-2 оборота - нужно будет его в книгу рекордов гиннеса занести. Угадай в какую категорию.

    Боюсь Вас разочаровать, но калибровка метода расчета (а у него порядка 10 параметров) именно так и происходит. На вращающемся объекте (ибо вот какое дело, параметры вращения калибровочного объекта можно определить со значительной точностью, и сравнивать с тем, что рассчитал метод). Правда считает это не весь кластер, а только один узел.

     
  • 3.17, gs (?), 14:31, 15/09/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > У нас есть масорубка (ручная)

    Надеюсь, ошибка во второй букве, а не в пропущенной в 3(4) позиции еще одной "с" :)

    Иначе это что-то вроде "стиральной машины", которая работает здесь, а "стирает" - на полигоне в Тихом океане :)

     
  • 2.16, Денис (??), 07:21, 15/09/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Теоретически, НРСС нет разницы, генерируются данные на лету или он молотит заранее подготовленные данные. Вопрос эффективности упирается в то, как данные будут подаваться: хватит ли пропускной способности вашей системы, чтобы употреблять их налету, без задержек и будут ли они генерироваться достаточно быстро, чтобы кластер не простаивал в ожидании очередной порции информации.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2020 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру