The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

03.08.2013 11:05  Открыт исходный код поискового движка Gigablast

Компанией Gigablast объявила об открытии исходного кода поискового движка Gigablast. Независимый поисковик Gigablast был основан в 2000 году Мэттом Уэллсом, бывшим сотрудником Infoseek. По словам Уэллса, на сегодня Gigablast единственный из поисковых движков с открытым исходным кодом, проиндексировавший более двенадцати миллиардов страниц.

Движок, написанный на C/C++ и насчитывающий более 500 тысяч строк кода, открыт под лицензией Apache версии 2.0 и опубликован на Github. Движок Gigablast достаточно прост в использовании и сразу готов к работе - код компилируется в форму единого исполняемого файла, который может заменить собой достаточно сложные конфигурации поисковых сервисов, построенных с привлечением Hadoop, Cassandra, MySQL, NoSQL, MongoDB, Lucene, Nutch, Solr, Zookeeper и Apache. Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

Основные особенности:

  • Движок масштабируется для развёртывания на тысячах серверов. Запущенная в эксплуатацию конфигурация из 200 серверов обрабатывает поисковый индекс из более чем 12 млрд web-страниц;
  • Высокая надёжность, код находится в промышленном использовании с 2002 года;
  • Поддержка кэширования web-страниц с выводом результатов из кэша с подсветкой найденных ключевых слов;
  • Поддержка подключения плагинов для обработки различных видов документов, от HTML до PDF;
  • Отображение в поисковой выдаче популярного контента;
  • Встроенная система мониторинга и уведомления о проблемах;
  • Поддержка подключения базы синонимов;
  • Сохранение позиции и формата информации для каждого слова в проиндексированном документе;
  • Отображение в результатах поиска полных весовых характеристик для найденного контента;
  • Отдельная индексация текста, используемого в ссылках;
  • Возможность связывания другим сайтом на базе движка Gigablast для формирования агрегированного вывода;
  • Система автоматического удаления дубликатов из поисковой выдачи;
  • Распределённый Web crawler. Гибкая система определения логики работы Crawler-а с возможностью управления приоритетом обработки элементов в очередях запросов;
  • REST/XML API для интеграции с внешними сервисами;
  • Средства автоматического выявления повреждения данных и восстановления узла после сбоя оборудования.


  1. Главная ссылка к новости (http://www.prnewswire.com/news...)
Автор новости: newdya
Тип: Программы
Ключевые слова: search, gigablast
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Линейный вид | Ajax | Показать все | RSS
 
  • 1.1, Аноним, 11:50, 03/08/2013 [ответить] [смотреть все]
  • +10 +/
    Все, пойду google свой создавать
     
     
  • 2.14, Криптоманьяк, 14:26, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]
  • +2 +/
    Если в I2P, то дерзай - весь мир из 2 5К нод затаил дыхание ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.18, Аноним, 15:31, 03/08/2013 [^] [ответить] [смотреть все]  
  • +3 +/
    Да ничего не будет Он просто будет долго долго индексировать те несколько сотен... весь текст скрыт [показать]
     
  • 2.35, Аноним, 15:22, 04/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • –4 +/
    Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.54, Аноним, 13:51, 05/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Вспомните эту фразу, когда будете выполнять запрос в моем детище ... весь текст скрыт [показать]
     
     
  • 4.55, arisu, 14:05, 05/08/2013 [^] [ответить] [смотреть все]  
  • +/
    вот ещё вспоминать само должно напомнить и найти ... весь текст скрыт [показать]
     
  • 1.2, тоже Аноним, 12:03, 03/08/2013 [ответить] [смотреть все]  
  • +4 +/
    У нас кое-где все еще используют устаревшие Yandesk и Google Desktop, есть нужда в локальном поисковике, тем более, что все документы давно лежат на Debian-серверах.
    Вот только есть подозрение, что такого монстра эти сервера (скромные довольно-таки коробочки на Атомах) просто-напросто не потянут. Да и под русскую морфологию его, полагаю, за полчаса не заточишь...
     
     
  • 2.3, Аноним, 12:13, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +3 +/
    Ну что, правильно я понимаю что хана яндексовому глюкалу Которое мало того что ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.6, пох, 12:59, 03/08/2013 [^] [ответить] [смотреть все]  
  • +3 +/
    нет, неправильно Хана яндексовскому глюкалу пришла когда везде завелись локальн... весь текст скрыт [показать]
     
     
  • 4.13, Аноним, 13:56, 03/08/2013 [^] [ответить] [смотреть все]  
  • +4 +/
    И чем они принципиально отличаются Гугля дает исходники на разумных условиях И... весь текст скрыт [показать]
     
  • 4.36, kurokaze, 15:53, 04/08/2013 [^] [ответить] [смотреть все]  
  • +1 +/
    Кому как Главное чтобы украинскую поддерживала, а на остальные - плевать... весь текст скрыт [показать]
     
     
  • 5.43, arisu, 17:35, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    да и на украинскую плевать, главное, чтобы язык Цивилизации нормально поддержива... весь текст скрыт [показать]
     
     
  • 6.48, kurokaze, 01:37, 05/08/2013 [^] [ответить] [смотреть все]  
  • +/
    во-во, именно поэтому на украинский и не плевать, ггг... весь текст скрыт [показать]
     
     
  • 7.49, arisu, 02:46, 05/08/2013 [^] [ответить] [смотреть все]  
  • +1 +/
    в Цивилизации говорят на английском.
     
     
  • 8.56, Michael Shigorin, 17:49, 05/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Ту цивилизацию я в гробу видал Уж больно много на английском врут, притом не... весь текст скрыт [показать]
     
     
  • 9.57, arisu, 17:57, 05/08/2013 [^] [ответить] [смотреть все]  
  • +1 +/
    это да то ли дело 8212 русский защита детей, мизулина, милонов, 171 роско... весь текст скрыт [показать]
     
  • 2.5, Michael Shigorin, 12:40, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +2 +/
    Посмотрите Xapian Omega только там crawler а нет, так что смотря как у вас там ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.8, тоже Аноним, 13:27, 03/08/2013 [^] [ответить] [смотреть все]  
  • +1 +/
    Спасибо за наводку Краулер в локалке и не понадобится достаточно задать распи... весь текст скрыт [показать]
     
  • 3.21, arisu, 18:37, 03/08/2013 [^] [ответить] [смотреть все]  
  • +/
    кстати, пнул гигабласт поиском 171 Xapian Omega 187 оригинальной страницы п... весь текст скрыт [показать]
     
     
  • 4.30, бедный буратино, 04:55, 04/08/2013 [^] [ответить] [смотреть все]  
  • +2 +/
    это же opensource достаточно приделать патч, и хоть опеннет будет первым по все... весь текст скрыт [показать]
     
     
  • 5.40, arisu, 17:23, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    приделывай а мне лично неинтересно я проверил качество 8212 неудовлетворите... весь текст скрыт [показать]
     
  • 2.28, MrClon, 04:20, 04/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +3 +/
    Посмотрите в сторону sphinx Помнится разрабы говорили что он на смартфоне непло... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.32, тоже Аноним, 10:50, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Спасибо, посмотрю и на него Вообще я, видимо, решал проблему не в том направлен... весь текст скрыт [показать]
     
  • 1.4, Алексей Пугалин, 12:22, 03/08/2013 [ответить] [смотреть все]  
  • +4 +/
    ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
    Больше поисковиков - хороших и разных!
    [на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
    Конечно не всякий сможет запустить, но если в Сети появится хотя бы ещё сотня независимых поисковиков - будет очень и очень хорошо для населения планеты вообще и сетян в частности.
     
     
  • 2.7, Аноним, 13:25, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • –8 +/
    Больной ты, что ли Чем будет хорошо Мама-анархия, папа-стакан портвейна От ты... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.10, тоже Аноним, 13:29, 03/08/2013 [^] [ответить] [смотреть все]  
  • +8 +/
    > От тысяч дистров линя лучше стало кому-то?

    Можно подумать, что от единственного дистрибутива винды у всех благорастворение воздухов. Конкуренция и вольная обкатка идей - это очень даже неплохо для конечного пользователя.

     
  • 3.12, Аноним, 13:48, 03/08/2013 [^] [ответить] [смотреть все]  
  • +6 +/
    > Больной ты, что ли? Чем будет хорошо? Мама-анархия, папа-стакан портвейна?

    Хорошо будет благодаря отсутствию вендорлока и возможности самостоятельно и in-place доубить какой-то задолбавший баг, например.

    > От тысяч дистров линя лучше стало кому-то?

    Ну вот мне, например. Я выбрал себе то что мне по вкусу и пользуюсь. Мне стало лучше. Надеюсь, это отвечает на ваш вопрос :).

     
     
  • 4.22, Anon671, 19:03, 03/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Интересно, как Вы победите задолбавшее всех качество поиска Google по низкочасто... весь текст скрыт [показать]
     
     
  • 5.31, Аноним, 09:31, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Гугля - никак, разумеется Хотя-бы потому что у меня нет доступа к модификации а... весь текст скрыт [показать]
     
     
  • 6.33, Аноним, 12:41, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Гугля - никак по одной простой причине У них денег больше С Скотт Фитцджераль... весь текст скрыт [показать]
     
  • 5.52, Аноним, 13:37, 05/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Всех это кого, простите Откройте для себя язык поисковых запросов _с условиями_... весь текст скрыт [показать]
     
  • 3.37, kurokaze, 15:55, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Линуксоидам А то что вантузятникам поплохело, ибо к выбору они не приучены, так... весь текст скрыт [показать]
     
  • 2.9, Аноним, 13:28, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +3 +/
    Их уже дофига Проблема том, что большинство искать не умеют, а остальные - не у... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.20, newdya, 17:06, 03/08/2013 [^] [ответить] [смотреть все]  
  • +1 +/
    Blekko ещё.
     
  • 3.25, anonymous, 21:04, 03/08/2013 [^] [ответить] [смотреть все]  
  • +1 +/
    > Ixquick ... Startpage

    Разве это не одно и то же?


     
  • 3.27, Алексей Пугалин, 02:56, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Я знаю, что поисковиков много Я было один начал рекламировать, так его быстро п... весь текст скрыт [показать]
     
     
  • 4.44, newdya, 17:36, 04/08/2013 [^] [ответить] [смотреть все]  
  • +1 +/
    Так вот кто погубил Cuil.
     
  • 2.19, Аноним, 15:34, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +3 +/
    лучше к yacy присоединись ... весь текст скрыт [показать] [показать ветку]
     
  • 1.11, arka, 13:37, 03/08/2013 [ответить] [смотреть все]  
  • +1 +/
    Первое же впечатление - CodeStyle у проекта полное г. А так, надо бы посмотреть
     
     
  • 2.17, badger, 15:30, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +1 +/
    да, код страшноват, тут не поспоришь хотя там в разных файлах по-разному есть е... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.38, kurokaze, 15:57, 04/08/2013 [^] [ответить] [смотреть все]  
  • –1 +/
    Студни, незабудьте оставить на опеннете ссылку на ваши патчи ... весь текст скрыт [показать]
     
  • 1.15, Аноним, 14:52, 03/08/2013 [ответить] [смотреть все]  
  • +1 +/
    Им бы еще почтовый сервис прикрутить с imap
     
  • 1.16, Аноним, 14:59, 03/08/2013 [ответить] [смотреть все]  
  • +1 +/
    Судя по коду - авторы обожают паттерн Паблик Морозов.
     
  • 1.23, xnoname, 19:39, 03/08/2013 [ответить] [смотреть все]  
  • +2 +/
    Захардкоженный html в https://github.com/rnz/open-source-search-engine/blob/master/PageParser.cpp "радует"...
     
     
  • 2.24, Anon671, 20:27, 03/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +2 +/
    Не то слово То, что внутри sendPageParser2 одновременно сосуществуют сетевой ин... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.50, Аноним, 04:09, 05/08/2013 [^] [ответить] [смотреть все]  
  • +/
    Зато коменты присутствуют :)
     
  • 1.26, Аноним, 22:59, 03/08/2013 [ответить] [смотреть все]  
  • +2 +/
    Сравнил бы кто его по возможностям с Solr/Lucene....
     
     
  • 2.42, DmA, 17:31, 04/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • –1 +/
    Solr Lucene используются в YaCy Можете скачать эту поисковую систему за 5 минут... весь текст скрыт [показать] [показать ветку]
     
  • 1.29, MrClon, 04:21, 04/08/2013 [ответить] [смотреть все]  
  • +2 +/
    >Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

    Звучит как антиреклама.

     
     
  • 2.39, Аноним, 16:00, 04/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Мирный советский комбайн, очевидно же.
     
  • 1.41, DmA, 17:28, 04/08/2013 [ответить] [смотреть все]  
  • +/
    У гугла кроме поисковой системы есть ещё куча логов журнальных файов от действи... весь текст скрыт [показать]
     
     
  • 2.45, arisu, 17:43, 04/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода я не готов, я готов помочь, если оно будет нормально (т.е. удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё раз через годик.
     
     
  • 3.46, DmA, 19:19, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    > у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода
    > я не готов, я готов помочь, если оно будет нормально (т.е.
    > удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё
    > раз через годик.

    А какую версию использовали? 1.4 или 1.6? Там есть на админке обновление вручную -показывает какая версия последняя и предлагает скачать, оставив каталог Data. В 1.6 мне показалось меньше неработающих пунктов меню и глюков. Новые Solr и Lucene 4.3

     
     
  • 4.47, arisu, 19:39, 04/08/2013 [^] [ответить] [смотреть все]  
  • +/
    > А какую версию использовали? 1.4 или 1.6?

    1.4, судя по всему. претензии у меня, собственно, к работе в режиме «использовать яку как прокси-сервер»: иногда оно нереально тупило, периодически намертво зависало (не сама яка, просто проксь принимал запросы и не отвечал), тупило с кукишами и какие-то заголовки портило (уже не помню точно, какие).

    поскольку с жабой я дружить не хочу, то разбираться детальней не полез, а отложил «на потом».

     
  • 2.60, Аноним, 17:04, 07/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    YaCy уже научился в релевантные результаты поиска?
     
     
  • 3.61, arisu, 17:12, 07/08/2013 [^] [ответить] [смотреть все]  
  • +/
    > YaCy уже научился в релевантные результаты поиска?

    а ты уже поставил у себя паучка, чтобы индекс рос? индекс, знаешь ли, из астрала не прилетит, его делать надо. а ты как думал?

     
  • 1.58, tessel, 18:02, 05/08/2013 [ответить] [смотреть все]  
  • –1 +/
    Я только одного не понял - почему я про такой поисковик узнал только сейчас?
     
     
  • 2.59, DmA, 19:39, 05/08/2013 [^] [ответить] [смотреть все] [показать ветку]  
  • +1 +/
    наверно потому ,что находились в пузыре фильтров и не догадывались об этом :)
     
  • 1.62, newdya, 07:56, 14/11/2014 [ответить] [смотреть все]  
  • +/
    Создатель поисковика Volunia тоже планирует открыть исходный код: http://www.math.unipd.it/~massimo/volunia/
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2017 by Maxim Chirkov  
    ДобавитьРекламаВебмастеруГИД  
    Hosting by Ihor