The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

03.08.2013 11:05  Открыт исходный код поискового движка Gigablast

Компанией Gigablast объявила об открытии исходного кода поискового движка Gigablast. Независимый поисковик Gigablast был основан в 2000 году Мэттом Уэллсом, бывшим сотрудником Infoseek. По словам Уэллса, на сегодня Gigablast единственный из поисковых движков с открытым исходным кодом, проиндексировавший более двенадцати миллиардов страниц.

Движок, написанный на C/C++ и насчитывающий более 500 тысяч строк кода, открыт под лицензией Apache версии 2.0 и опубликован на Github. Движок Gigablast достаточно прост в использовании и сразу готов к работе - код компилируется в форму единого исполняемого файла, который может заменить собой достаточно сложные конфигурации поисковых сервисов, построенных с привлечением Hadoop, Cassandra, MySQL, NoSQL, MongoDB, Lucene, Nutch, Solr, Zookeeper и Apache. Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

Основные особенности:

  • Движок масштабируется для развёртывания на тысячах серверов. Запущенная в эксплуатацию конфигурация из 200 серверов обрабатывает поисковый индекс из более чем 12 млрд web-страниц;
  • Высокая надёжность, код находится в промышленном использовании с 2002 года;
  • Поддержка кэширования web-страниц с выводом результатов из кэша с подсветкой найденных ключевых слов;
  • Поддержка подключения плагинов для обработки различных видов документов, от HTML до PDF;
  • Отображение в поисковой выдаче популярного контента;
  • Встроенная система мониторинга и уведомления о проблемах;
  • Поддержка подключения базы синонимов;
  • Сохранение позиции и формата информации для каждого слова в проиндексированном документе;
  • Отображение в результатах поиска полных весовых характеристик для найденного контента;
  • Отдельная индексация текста, используемого в ссылках;
  • Возможность связывания другим сайтом на базе движка Gigablast для формирования агрегированного вывода;
  • Система автоматического удаления дубликатов из поисковой выдачи;
  • Распределённый Web crawler. Гибкая система определения логики работы Crawler-а с возможностью управления приоритетом обработки элементов в очередях запросов;
  • REST/XML API для интеграции с внешними сервисами;
  • Средства автоматического выявления повреждения данных и восстановления узла после сбоя оборудования.


  1. Главная ссылка к новости (http://www.prnewswire.com/news...)
Автор новости: newdya
Тип: Программы
Ключевые слова: search, gigablast
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, Аноним (-), 11:50, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]
  • +10 +/
    Все, пойду google свой создавать
     
     
  • 2.14, Криптоманьяк (?), 14:26, 03/08/2013 [^] [ответить]    [к модератору]
  • +2 +/
    > Все, пойду google свой создавать

    Если в I2P, то дерзай - весь мир из 2.5К нод затаил дыхание.

     
     
  • 3.18, Аноним (-), 15:31, 03/08/2013 [^] [ответить]    [к модератору]
  • +3 +/
    Да ничего не будет. Он просто будет долго долго индексировать те несколько сотен сайтов.
     
  • 2.35, Аноним (-), 15:22, 04/08/2013 [^] [ответить]    [к модератору]
  • –4 +/
    > Все, пойду google свой создавать

    Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.

     
     
  • 3.54, Аноним (-), 13:51, 05/08/2013 [^] [ответить]    [к модератору]
  • +/
    > Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.

    Вспомните эту фразу, когда будете выполнять запрос в моем детище!

     
     
  • 4.55, arisu (ok), 14:05, 05/08/2013 [^] [ответить]     [к модератору]  
  • +/
    вот ещё вспоминать само должно напомнить и найти ... весь текст скрыт [показать]
     
  • 1.2, тоже Аноним (ok), 12:03, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +4 +/
    У нас кое-где все еще используют устаревшие Yandesk и Google Desktop, есть нужда в локальном поисковике, тем более, что все документы давно лежат на Debian-серверах.
    Вот только есть подозрение, что такого монстра эти сервера (скромные довольно-таки коробочки на Атомах) просто-напросто не потянут. Да и под русскую морфологию его, полагаю, за полчаса не заточишь...
     
     
  • 2.3, Аноним (-), 12:13, 03/08/2013 [^] [ответить]    [к модератору]  
  • +3 +/
    Ну что, правильно я понимаю что хана яндексовому глюкалу? Которое мало того что не поддерживается, так еще и без сорсов, но зато с уймой багов.
     
     
  • 3.6, пох (?), 12:59, 03/08/2013 [^] [ответить]     [к модератору]  
  • +3 +/
    нет, неправильно Хана яндексовскому глюкалу пришла когда везде завелись локальн... весь текст скрыт [показать]
     
     
  • 4.13, Аноним (-), 13:56, 03/08/2013 [^] [ответить]     [к модератору]  
  • +4 +/
    И чем они принципиально отличаются Гугля дает исходники на разумных условиях И... весь текст скрыт [показать]
     
  • 4.36, kurokaze (ok), 15:53, 04/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    >А штуковина, не умеющая русской морфологии - бесполезна в принципе.

    Кому как. Главное чтобы украинскую поддерживала, а на остальные - плевать

     
     
  • 5.43, arisu (ok), 17:35, 04/08/2013 [^] [ответить]     [к модератору]  
  • +/
    да и на украинскую плевать, главное, чтобы язык Цивилизации нормально поддержива... весь текст скрыт [показать]
     
     
  • 6.48, kurokaze (ok), 01:37, 05/08/2013 [^] [ответить]    [к модератору]  
  • +/
    >да и на украинскую плевать, главное, чтобы язык Цивилизации нормально поддерживался.

    во-во, именно поэтому на украинский и не плевать, ггг

     
     
  • 7.49, arisu (ok), 02:46, 05/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    в Цивилизации говорят на английском.
     
     
  • 8.56, Michael Shigorin (ok), 17:49, 05/08/2013 [^] [ответить]    [к модератору]  
  • +/
    > в Цивилизации говорят на английском.

    Ту "цивилизацию" я в гробу видал.  Уж больно много на английском врут, притом не краснея.

    PS: добавил "притом", чтоб не вспоминать про запятую. %)

     
     
  • 9.57, arisu (ok), 17:57, 05/08/2013 [^] [ответить]     [к модератору]  
  • +1 +/
    это да то ли дело 8212 русский защита детей, мизулина, милонов, 171 роско... весь текст скрыт [показать]
     
  • 2.5, Michael Shigorin (ok), 12:40, 03/08/2013 [^] [ответить]     [к модератору]  
  • +2 +/
    Посмотрите Xapian Omega только там crawler а нет, так что смотря как у вас там ... весь текст скрыт [показать]
     
     
  • 3.8, тоже Аноним (ok), 13:27, 03/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    Спасибо за наводку!
    Краулер в локалке и не понадобится (достаточно задать расписание индексации конкретных папок), а вот список поддерживаемых языков и форматов выглядит очень "вкусно" :)
     
  • 3.21, arisu (ok), 18:37, 03/08/2013 [^] [ответить]     [к модератору]  
  • +/
    кстати, пнул гигабласт поиском 171 Xapian Omega 187 оригинальной страницы п... весь текст скрыт [показать]
     
     
  • 4.30, бедный буратино (ok), 04:55, 04/08/2013 [^] [ответить]    [к модератору]  
  • +2 +/
    это же opensource. достаточно приделать патч, и хоть опеннет будет первым по всем запросам.
     
     
  • 5.40, arisu (ok), 17:23, 04/08/2013 [^] [ответить]     [к модератору]  
  • +/
    приделывай а мне лично неинтересно я проверил качество 8212 неудовлетворите... весь текст скрыт [показать]
     
  • 2.28, MrClon (?), 04:20, 04/08/2013 [^] [ответить]    [к модератору]  
  • +3 +/
    Посмотрите в сторону sphinx. Помнится разрабы говорили что он на смартфоне неплохо может крутиться. Ну и с русскими текстами должен справляться хорошо.
     
     
  • 3.32, тоже Аноним (ok), 10:50, 04/08/2013 [^] [ответить]     [к модератору]  
  • +/
    Спасибо, посмотрю и на него Вообще я, видимо, решал проблему не в том направлен... весь текст скрыт [показать]
     
  • 1.4, Алексей Пугалин (?), 12:22, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +4 +/
    ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
    Больше поисковиков - хороших и разных!
    [на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
    Конечно не всякий сможет запустить, но если в Сети появится хотя бы ещё сотня независимых поисковиков - будет очень и очень хорошо для населения планеты вообще и сетян в частности.
     
     
  • 2.7, Аноним (-), 13:25, 03/08/2013 [^] [ответить]     [к модератору]  
  • –8 +/
    Больной ты, что ли Чем будет хорошо Мама-анархия, папа-стакан портвейна От ты... весь текст скрыт [показать]
     
     
  • 3.10, тоже Аноним (ok), 13:29, 03/08/2013 [^] [ответить]    [к модератору]  
  • +8 +/
    > От тысяч дистров линя лучше стало кому-то?

    Можно подумать, что от единственного дистрибутива винды у всех благорастворение воздухов. Конкуренция и вольная обкатка идей - это очень даже неплохо для конечного пользователя.

     
  • 3.12, Аноним (-), 13:48, 03/08/2013 [^] [ответить]    [к модератору]  
  • +6 +/
    > Больной ты, что ли? Чем будет хорошо? Мама-анархия, папа-стакан портвейна?

    Хорошо будет благодаря отсутствию вендорлока и возможности самостоятельно и in-place доубить какой-то задолбавший баг, например.

    > От тысяч дистров линя лучше стало кому-то?

    Ну вот мне, например. Я выбрал себе то что мне по вкусу и пользуюсь. Мне стало лучше. Надеюсь, это отвечает на ваш вопрос :).

     
     
  • 4.22, Anon671 (?), 19:03, 03/08/2013 [^] [ответить]     [к модератору]  
  • +/
    Интересно, как Вы победите задолбавшее всех качество поиска Google по низкочасто... весь текст скрыт [показать]
     
     
  • 5.31, Аноним (-), 09:31, 04/08/2013 [^] [ответить]     [к модератору]  
  • +/
    Гугля - никак, разумеется Хотя-бы потому что у меня нет доступа к модификации а... весь текст скрыт [показать]
     
     
  • 6.33, Аноним (-), 12:41, 04/08/2013 [^] [ответить]     [к модератору]  
  • +/
    Гугля - никак по одной простой причине У них денег больше С Скотт Фитцджераль... весь текст скрыт [показать]
     
  • 5.52, Аноним (-), 13:37, 05/08/2013 [^] [ответить]     [к модератору]  
  • +/
    Всех это кого, простите Откройте для себя язык поисковых запросов _с условиями_... весь текст скрыт [показать]
     
  • 3.37, kurokaze (ok), 15:55, 04/08/2013 [^] [ответить]    [к модератору]  
  • +/
    > От тысяч дистров линя лучше стало кому-то?

    Линуксоидам. А то что вантузятникам поплохело, ибо к выбору они не приучены, так на это плевать с эйфелевой башни.


     
  • 2.9, Аноним (-), 13:28, 03/08/2013 [^] [ответить]     [к модератору]  
  • +3 +/
    Их уже дофига Проблема том, что большинство искать не умеют, а остальные - не у... весь текст скрыт [показать]
     
     
  • 3.20, newdya (ok), 17:06, 03/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    Blekko ещё.
     
  • 3.25, anonymous (??), 21:04, 03/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    > Ixquick ... Startpage

    Разве это не одно и то же?


     
  • 3.27, Алексей Пугалин (?), 02:56, 04/08/2013 [^] [ответить]     [к модератору]  
  • +/
    Я знаю, что поисковиков много Я было один начал рекламировать, так его быстро п... весь текст скрыт [показать]
     
     
  • 4.44, newdya (ok), 17:36, 04/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    Так вот кто погубил Cuil.
     
  • 2.19, Аноним (-), 15:34, 03/08/2013 [^] [ответить]     [к модератору]  
  • +3 +/
    лучше к yacy присоединись ... весь текст скрыт [показать]
     
  • 1.11, arka (?), 13:37, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    Первое же впечатление - CodeStyle у проекта полное г. А так, надо бы посмотреть
     
     
  • 2.17, badger (ok), 15:30, 03/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    да, код страшноват, тут не поспоришь
    хотя там в разных файлах по-разному. есть еще ничего
     
     
  • 3.38, kurokaze (ok), 15:57, 04/08/2013 [^] [ответить]    [к модератору]  
  • –1 +/
    > да, код страшноват, тут не поспоришь
    > хотя там в разных файлах по-разному. есть еще ничего

    Студни, незабудьте оставить на опеннете ссылку на ваши патчи

     
  • 1.15, Аноним (-), 14:52, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    Им бы еще почтовый сервис прикрутить с imap
     
  • 1.16, Аноним (-), 14:59, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    Судя по коду - авторы обожают паттерн Паблик Морозов.
     
  • 1.23, xnoname (?), 19:39, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    Захардкоженный html в https://github.com/rnz/open-source-search-engine/blob/master/PageParser.cpp "радует"...
     
     
  • 2.24, Anon671 (?), 20:27, 03/08/2013 [^] [ответить]    [к модератору]  
  • +2 +/
    Не то слово!
    То, что внутри sendPageParser2 одновременно сосуществуют сетевой интерфейс, парсер, частоты слов, и захардкоженый ответ на 200 строк (являющийся к тому же параметром printf!!!).
    Видел за свое время два коммерческих поисковика. Таких кусков кода даже там нет!
     
     
  • 3.50, Аноним (-), 04:09, 05/08/2013 [^] [ответить]    [к модератору]  
  • +/
    Зато коменты присутствуют :)
     
  • 1.26, Аноним (-), 22:59, 03/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    Сравнил бы кто его по возможностям с Solr/Lucene....
     
     
  • 2.42, DmA (??), 17:31, 04/08/2013 [^] [ответить]    [к модератору]  
  • –1 +/
    Solr/Lucene используются в YaCy. Можете скачать эту поисковую систему за 5 минут ( версию 1.6 для Windows) и сами попробовать! Версию 1.6 ищете на немецкой странице, на русской недопереведено и там версия 1.4 до сих пор значится!
     
  • 1.29, MrClon (?), 04:21, 04/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    >Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

    Звучит как антиреклама.

     
     
  • 2.39, Аноним (-), 16:00, 04/08/2013 [^] [ответить]    [к модератору]  
  • +/
    Мирный советский комбайн, очевидно же.
     
  • 1.41, DmA (??), 17:28, 04/08/2013 [ответить] [показать ветку] [···]     [к модератору]  
  • +/
    У гугла кроме поисковой системы есть ещё куча логов журнальных файов от действи... весь текст скрыт [показать]
     
     
  • 2.45, arisu (ok), 17:43, 04/08/2013 [^] [ответить]    [к модератору]  
  • +/
    у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода я не готов, я готов помочь, если оно будет нормально (т.е. удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё раз через годик.
     
     
  • 3.46, DmA (??), 19:19, 04/08/2013 [^] [ответить]    [к модератору]  
  • +/
    > у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода
    > я не готов, я готов помочь, если оно будет нормально (т.е.
    > удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё
    > раз через годик.

    А какую версию использовали? 1.4 или 1.6? Там есть на админке обновление вручную -показывает какая версия последняя и предлагает скачать, оставив каталог Data. В 1.6 мне показалось меньше неработающих пунктов меню и глюков. Новые Solr и Lucene 4.3

     
     
  • 4.47, arisu (ok), 19:39, 04/08/2013 [^] [ответить]    [к модератору]  
  • +/
    > А какую версию использовали? 1.4 или 1.6?

    1.4, судя по всему. претензии у меня, собственно, к работе в режиме «использовать яку как прокси-сервер»: иногда оно нереально тупило, периодически намертво зависало (не сама яка, просто проксь принимал запросы и не отвечал), тупило с кукишами и какие-то заголовки портило (уже не помню точно, какие).

    поскольку с жабой я дружить не хочу, то разбираться детальней не полез, а отложил «на потом».

     
  • 2.60, Аноним (-), 17:04, 07/08/2013 [^] [ответить]    [к модератору]  
  • +/
    YaCy уже научился в релевантные результаты поиска?
     
     
  • 3.61, arisu (ok), 17:12, 07/08/2013 [^] [ответить]    [к модератору]  
  • +/
    > YaCy уже научился в релевантные результаты поиска?

    а ты уже поставил у себя паучка, чтобы индекс рос? индекс, знаешь ли, из астрала не прилетит, его делать надо. а ты как думал?

     
  • 1.58, tessel (?), 18:02, 05/08/2013 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Я только одного не понял - почему я про такой поисковик узнал только сейчас?
     
     
  • 2.59, DmA (??), 19:39, 05/08/2013 [^] [ответить]    [к модератору]  
  • +1 +/
    наверно потому ,что находились в пузыре фильтров и не догадывались об этом :)
     
  • 1.62, newdya (ok), 07:56, 14/11/2014 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Создатель поисковика Volunia тоже планирует открыть исходный код: http://www.math.unipd.it/~massimo/volunia/
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor