The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Открыт исходный код поискового движка Gigablast"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Открыт исходный код поискового движка Gigablast"  +/
Сообщение от opennews (??) on 03-Авг-13, 11:50 
Компанией Gigablast объявила (http://www.prnewswire.com/news-releases/gigablast-now-an-ope...) об открытии исходного кода поискового движка Gigablast. Независимый поисковик Gigablast (http://gigablast.com/) был основан в 2000 году Мэттом Уэллсом, бывшим сотрудником Infoseek. По словам Уэллса, на сегодня Gigablast единственный из поисковых движков с открытым исходным кодом, проиндексировавший более двенадцати миллиардов страниц.


Движок, написанный на C/C++ и насчитывающий более 500 тысяч строк кода, открыт под лицензией Apache версии 2.0 и опубликован (https://github.com/gigablast/open-source-search-engine) на Github. Движок Gigablast достаточно прост (http://www.gigablast.com/admin.html) в использовании и сразу готов к работе - код компилируются в форму единого исполняемого файла, который может заменить собой достаточно сложные конфигурации поисковых сервисов, построенных с привлечением Hadoop, Cassandra, MySQL, NoSQL, MongoDB, Lucene, Nutch, Solr, Zookeeper и Apache. Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

Основные особенности (http://gigablast.com/admin.html):


-  Движок масштабируется для развёртывания на тысячах серверах. Запущенная в эксплуатацию конфигурация из 200 серверов обрабатывает поисковый индекс из более чем 12 млрд web-страниц;
-  Высокая надёжность, код находится в промышленном использовании с 2002 года;
-  Поддержка кэширвоания web-страниц с выводом результатов из кэша с подсветкой найденных ключевых слов;
-  Поддержка подключения плагинов для обработки различных видов документов, от HTML до PDF;
-  Отображение в поисковой выдаче популярного контента;
-  Встроенная система мониторинга и уведомления о проблемах;
-  Поддержка подключения базы синонимов;
-  Сохранение позиции и формата информации для каждого слова в проиндексированном документе;
-  Отображение в результатах поиска полных весовых характеристик для найденного контента;
-  Отдельная индексация текста, используемого в ссылках;
-  Возможность связывания  другим сайтом на базе движка Gigablast для формирования агрегированного вывода;
-  Система автоматического удаления дубликатов из поисковой выдачи;
-  Распределённый Web crawler. Гибкая система определения логики работы Crawler-а с возможностью управления приоритетом обработки элементов в очередях запросов;
-  REST/XML API для интеграции с внешними сервисами;
-  Средства автоматического выявления повреждения данных и восстановления узла после сбоя оборудования.

URL: http://www.prnewswire.com/news-releases/gigablast-now-an-ope...
Новость: http://www.opennet.ru/opennews/art.shtml?num=37591

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Открыт исходный код поискового движка Gigablast"  +10 +/
Сообщение от Аноним (??) on 03-Авг-13, 11:50 
Все, пойду google свой создавать
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

14. "Открыт исходный код поискового движка Gigablast"  +2 +/
Сообщение от Криптоманьяк on 03-Авг-13, 14:26 
> Все, пойду google свой создавать

Если в I2P, то дерзай - весь мир из 2.5К нод затаил дыхание.

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

18. "Открыт исходный код поискового движка Gigablast"  +3 +/
Сообщение от Аноним (??) on 03-Авг-13, 15:31 
Да ничего не будет. Он просто будет долго долго индексировать те несколько сотен сайтов.
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

35. "Открыт исходный код поискового движка Gigablast"  –4 +/
Сообщение от Аноним (??) on 04-Авг-13, 15:22 
> Все, пойду google свой создавать

Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

54. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Аноним (??) on 05-Авг-13, 13:51 
> Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.

Вспомните эту фразу, когда будете выполнять запрос в моем детище!

Ответить | Правка | ^ к родителю #35 | Наверх | Cообщить модератору

55. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от arisu (ok) on 05-Авг-13, 14:05 
>> Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.
> Вспомните эту фразу, когда будете выполнять запрос в моем детище!

вот ещё: вспоминать! само должно напомнить и найти.

Ответить | Правка | ^ к родителю #54 | Наверх | Cообщить модератору

2. "Открыт исходный код поискового движка Gigablast"  +4 +/
Сообщение от тоже Аноним email(ok) on 03-Авг-13, 12:03 
У нас кое-где все еще используют устаревшие Yandesk и Google Desktop, есть нужда в локальном поисковике, тем более, что все документы давно лежат на Debian-серверах.
Вот только есть подозрение, что такого монстра эти сервера (скромные довольно-таки коробочки на Атомах) просто-напросто не потянут. Да и под русскую морфологию его, полагаю, за полчаса не заточишь...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Открыт исходный код поискового движка Gigablast"  +3 +/
Сообщение от Аноним (??) on 03-Авг-13, 12:13 
Ну что, правильно я понимаю что хана яндексовому глюкалу? Которое мало того что не поддерживается, так еще и без сорсов, но зато с уймой багов.
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

6. "Открыт исходный код поискового движка Gigablast"  +2 +/
Сообщение от пох on 03-Авг-13, 12:59 
> Ну что, правильно я понимаю что хана яндексовому глюкалу? Которое мало того

нет, неправильно. Хана яндексовскому глюкалу пришла когда везде завелись локальные гугльпоиски, изрядно сократившие и без того небольшую среду его обитания (осталось только то что закрыто извне и при этом имеет вокруг себя неленивых грамотных людей, способных эту уродину настроить и поддерживать). Лет десять уже как. А штуковина, не умеющая русской морфологии - бесполезна в принципе.

> что не поддерживается, так еще и без сорсов, но зато с

с сорсами у нас есть гов...простите, mnogosearch. Почему вы не ставите его вместо яндекса? Почему его не ставят даже там где есть те вышепомянутые условия? От тож.

> уймой багов.

см выше - вы все равно не осилите их исправить. Если бы могли - вы бы уже выпускали бы свой гигабласт.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

13. "Открыт исходный код поискового движка Gigablast"  +5 +/
Сообщение от Аноним (??) on 03-Авг-13, 13:56 
> нет, неправильно. Хана яндексовскому глюкалу пришла когда везде завелись локальные гугльпоиски,

И чем они принципиально отличаются? Гугля дает исходники на разумных условиях? Или предлагается сменить шило на мыло? Ну да, при возникновении проблем и пожеланий фигой будет крутить не яндекс а гугл. Такая большая разница.

> А штуковина, не умеющая русской морфологии - бесполезна в принципе.

А это уже где как. На эрэфии мир не заканчивается. Но согласен что нехорошо.

> вместо яндекса? Почему его не ставят даже там где есть те
> вышепомянутые условия? От тож.

Да хрен его знает.

>> уймой багов.
> см выше - вы все равно не осилите их исправить.

Отдебажить факап на конкретном файле - почему бы и нет, собственно? Не такие уж все вокруг и глупые как вы о них думаете.

> Если бы могли - вы бы уже выпускали бы свой гигабласт.

Если я могу законопатить где-то 1 конкретный баг в парсере какого-то формата файлов - это вовсе не доказывает что я умираю от желания писать свой гигабласт...

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

36. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от kurokaze (ok) on 04-Авг-13, 15:53 
>А штуковина, не умеющая русской морфологии - бесполезна в принципе.

Кому как. Главное чтобы украинскую поддерживала, а на остальные - плевать

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

43. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от arisu (ok) on 04-Авг-13, 17:35 
>>А штуковина, не умеющая русской морфологии - бесполезна в принципе.
> Кому как. Главное чтобы украинскую поддерживала, а на остальные - плевать

да и на украинскую плевать, главное, чтобы язык Цивилизации нормально поддерживался.

Ответить | Правка | ^ к родителю #36 | Наверх | Cообщить модератору

48. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от kurokaze (ok) on 05-Авг-13, 01:37 
>да и на украинскую плевать, главное, чтобы язык Цивилизации нормально поддерживался.

во-во, именно поэтому на украинский и не плевать, ггг

Ответить | Правка | ^ к родителю #43 | Наверх | Cообщить модератору

49. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от arisu (ok) on 05-Авг-13, 02:46 
в Цивилизации говорят на английском.
Ответить | Правка | ^ к родителю #48 | Наверх | Cообщить модератору

56. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Michael Shigorin email(ok) on 05-Авг-13, 17:49 
> в Цивилизации говорят на английском.

Ту "цивилизацию" я в гробу видал.  Уж больно много на английском врут, притом не краснея.

PS: добавил "притом", чтоб не вспоминать про запятую. %)

Ответить | Правка | ^ к родителю #49 | Наверх | Cообщить модератору

57. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от arisu (ok) on 05-Авг-13, 17:57 
> Ту «цивилизацию» я в гробу видал.  Уж больно много на английском
> врут, притом не краснея.

это да. то ли дело — русский! защита детей, мизулина, милонов, «роскомцензура нужна только для отсеивания детской порнографии»… сплошная благодать. ну, или украинский тоже — поэт Чехов там, например…

Ответить | Правка | ^ к родителю #56 | Наверх | Cообщить модератору

5. "Открыт исходный код поискового движка Gigablast"  +2 +/
Сообщение от Michael Shigorin email(ok) on 03-Авг-13, 12:40 
> Вот только есть подозрение, что такого монстра эти сервера (скромные довольно-таки
> коробочки на Атомах) просто-напросто не потянут. Да и под русскую морфологию его,
> полагаю, за полчаса не заточишь...

Посмотрите Xapian Omega (только там crawler'а нет, так что смотря как у вас там устроено), оценить xapian как движок можно при помощи recoll на localhost.  Регулярнейшим образом применяю для поиска по своему почтовому архиву, а омегу прикручивал к bugzilla для сквозного поиска по багам и приложениям к ним.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

8. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от тоже Аноним email(ok) on 03-Авг-13, 13:27 
Спасибо за наводку!
Краулер в локалке и не понадобится (достаточно задать расписание индексации конкретных папок), а вот список поддерживаемых языков и форматов выглядит очень "вкусно" :)
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

21. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от arisu (ok) on 03-Авг-13, 18:37 
> Посмотрите Xapian Omega

кстати, пнул гигабласт поиском «Xapian Omega». оригинальной страницы проекта на первой странице нет. совсем. тьфу. тоже мне, «поисковик»… (это я про гигабласт, если кто не понял)

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

30. "Открыт исходный код поискового движка Gigablast"  +2 +/
Сообщение от бедный буратино (ok) on 04-Авг-13, 04:55 
это же opensource. достаточно приделать патч, и хоть опеннет будет первым по всем запросам.
Ответить | Правка | ^ к родителю #21 | Наверх | Cообщить модератору

40. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от arisu (ok) on 04-Авг-13, 17:23 
> это же opensource. достаточно приделать патч, и хоть опеннет будет первым по
> всем запросам.

приделывай. а мне лично неинтересно. я проверил качество — неудовлетворительное. поискал киллерфичи — не нашёл. джентльмены где-то тут же в топике пообсуждали код — ужаснулись.

в общем, это что-то по типу «на тобі, небоже, що мені негоже».

Ответить | Правка | ^ к родителю #30 | Наверх | Cообщить модератору

28. "Открыт исходный код поискового движка Gigablast"  +3 +/
Сообщение от MrClon on 04-Авг-13, 04:20 
Посмотрите в сторону sphinx. Помнится разрабы говорили что он на смартфоне неплохо может крутиться. Ну и с русскими текстами должен справляться хорошо.
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

32. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от тоже Аноним email(ok) on 04-Авг-13, 10:50 
Спасибо, посмотрю и на него.
Вообще я, видимо, решал проблему не в том направлении. Искал замену локальному поиску, а этим сейчас, похоже, только в KDE еще балуются.
А вот если вынести это на сторону сервера - сразу открывается немало интересных альтернатив.
Ответить | Правка | ^ к родителю #28 | Наверх | Cообщить модератору

4. "Открыт исходный код поискового движка Gigablast"  +4 +/
Сообщение от Алексей Пугалин on 03-Авг-13, 12:22 
ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
Больше поисковиков - хороших и разных!
[на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
Конечно не всякий сможет запустить, но если в Сети появится хотя бы ещё сотня независимых поисковиков - будет очень и очень хорошо для населения планеты вообще и сетян в частности.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Открыт исходный код поискового движка Gigablast"  –9 +/
Сообщение от Аноним (??) on 03-Авг-13, 13:25 
> ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
> Больше поисковиков - хороших и разных!
> [на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
> Конечно не всякий сможет запустить, но если в Сети появится хотя бы
> ещё сотня независимых поисковиков - будет очень и очень хорошо для
> населения планеты вообще и сетян в частности.

Больной ты, что ли? Чем будет хорошо? Мама-анархия, папа-стакан портвейна? От тысяч дистров линя лучше стало кому-то?

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

10. "Открыт исходный код поискового движка Gigablast"  +8 +/
Сообщение от тоже Аноним email(ok) on 03-Авг-13, 13:29 
> От тысяч дистров линя лучше стало кому-то?

Можно подумать, что от единственного дистрибутива винды у всех благорастворение воздухов. Конкуренция и вольная обкатка идей - это очень даже неплохо для конечного пользователя.

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

12. "Открыт исходный код поискового движка Gigablast"  +6 +/
Сообщение от Аноним (??) on 03-Авг-13, 13:48 
> Больной ты, что ли? Чем будет хорошо? Мама-анархия, папа-стакан портвейна?

Хорошо будет благодаря отсутствию вендорлока и возможности самостоятельно и in-place доубить какой-то задолбавший баг, например.

> От тысяч дистров линя лучше стало кому-то?

Ну вот мне, например. Я выбрал себе то что мне по вкусу и пользуюсь. Мне стало лучше. Надеюсь, это отвечает на ваш вопрос :).

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

22. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Anon671 on 03-Авг-13, 19:03 
Интересно, как Вы победите задолбавшее всех качество поиска Google по низкочастотным запросам? Не смешите.
А задолбавший простой баг - можно и в bugreport оформить. Вдобавок, странно что его не заметили.

Кстати, про дистр. Какой, если не секрет?
Mint/*Ubuntu/Debian/Fedora/Suse/CentOS/Arch/Gentoo/Slackware/Puppy?
Ведь наверняка у Вас один из них? А фишка в том, что их едва ли не 1000!

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

31. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Аноним (??) on 04-Авг-13, 09:31 
> Интересно, как Вы победите задолбавшее всех качество поиска Google

Гугля - никак, разумеется. Хотя-бы потому что у меня нет доступа к модификации алгоритма их поиска. Так что я даже чисто теоретически не могу это. Даже если бы смог и захотел - фэйл ждет сразу на старте.

> А задолбавший простой баг - можно и в bugreport оформить.

Вот только на багрепорт могут класть годами. Для всяких зажравшихся яндексов и прочих гуглей подобное поведение не просто характерно, но еще и норма жизни. А как вы там будете при этом выкручиваться - да это вообще ваши проблемы :).

> Вдобавок, странно что его не заметили.

Да вообще странно - в софте бывают баги. Вот же гады - не могут сразу написать все сразу.

> Кстати, про дистр. Какой, если не секрет?

А это где как. На десктопах мне нравится хубунту (просто потому что более-менее работает, не выглядит как г-но и не факает мозг лишний раз). На серверах - где серверные убунты LTS, где дебиан. А на роутерах openwrt например. На смарте - maemo, который круто допиленный дебиан по сути.

> А фишка в том, что их едва ли не 1000!

Ну и что? Ну вот например сильно кастомный и мелкотравчатый openwrt - очень хорошо смотрится на роутерах. Потому что на девайс у которого 4 метра флеша на все про все и 32 метра оперативы - не больно то запихнешь перечисленных. Не лезут они вот так сходу в 4 мегабайта системного "диска" :).

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

33. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Аноним (??) on 04-Авг-13, 12:41 
>> Интересно, как Вы победите задолбавшее всех качество поиска Google
> Гугля - никак, разумеется. Хотя-бы потому что у меня нет доступа к
> модификации алгоритма их поиска. Так что я даже чисто теоретически не
> могу это. Даже если бы смог и захотел - фэйл ждет
> сразу на старте.

Гугля - никак по одной простой причине. У них денег больше (С) Скотт Фитцджеральд.

Ответить | Правка | ^ к родителю #31 | Наверх | Cообщить модератору

52. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Аноним (??) on 05-Авг-13, 13:37 
> Интересно, как Вы победите задолбавшее всех качество поиска Google по низкочастотным запросам?
> Не смешите.

Всех это кого, простите? Откройте для себя язык поисковых запросов _с условиями_. Уверяю вас - найдется все.

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

37. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от kurokaze (ok) on 04-Авг-13, 15:55 
> От тысяч дистров линя лучше стало кому-то?

Линуксоидам. А то что вантузятникам поплохело, ибо к выбору они не приучены, так на это плевать с эйфелевой башни.


Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

9. "Открыт исходный код поискового движка Gigablast"  +3 +/
Сообщение от Аноним (??) on 03-Авг-13, 13:28 
Их уже дофига. Проблема том, что большинство искать не умеют, а остальные - не умеют нормально русский язык. Из адекватных - DuckDuckGo, из русскоязычных Nigma. Ещё прибавим Ixquick (прокси для гугла под названием Startpage по понятной причине не считаем). Остальное - либо полная фигня, либо совсем неизвестно.

Количеством не возьмёшь, брать надо качеством.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

20. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от newdya (ok) on 03-Авг-13, 17:06 
Blekko ещё.
Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

25. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от anonymous (??) on 03-Авг-13, 21:04 
> Ixquick ... Startpage

Разве это не одно и то же?


Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

27. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Алексей Пугалин on 04-Авг-13, 02:56 
Я знаю, что поисковиков много. Я было один начал рекламировать, так его быстро прикрыли. Теперь пользуюсь альтернативными втихаря - полтора года, полёт нормальный. Если будут множиться - напишу себе скрипт для рандомного поиска или сразу по всем.
Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

44. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от newdya (ok) on 04-Авг-13, 17:36 
Так вот кто погубил Cuil.
Ответить | Правка | ^ к родителю #27 | Наверх | Cообщить модератору

19. "Открыт исходный код поискового движка Gigablast"  +3 +/
Сообщение от Аноним (??) on 03-Авг-13, 15:34 
> ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
> Больше поисковиков - хороших и разных!
> [на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
> Конечно не всякий сможет запустить, но если в Сети появится хотя бы
> ещё сотня независимых поисковиков - будет очень и очень хорошо для
> населения планеты вообще и сетян в частности.

лучше к yacy присоединись.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

11. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от arka on 03-Авг-13, 13:37 
Первое же впечатление - CodeStyle у проекта полное г. А так, надо бы посмотреть
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

17. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от badger (ok) on 03-Авг-13, 15:30 
да, код страшноват, тут не поспоришь
хотя там в разных файлах по-разному. есть еще ничего
Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

38. "Открыт исходный код поискового движка Gigablast"  –1 +/
Сообщение от kurokaze (ok) on 04-Авг-13, 15:57 
> да, код страшноват, тут не поспоришь
> хотя там в разных файлах по-разному. есть еще ничего

Студни, незабудьте оставить на опеннете ссылку на ваши патчи

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

15. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от Аноним (??) on 03-Авг-13, 14:52 
Им бы еще почтовый сервис прикрутить с imap
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

16. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от Аноним (??) on 03-Авг-13, 14:59 
Судя по коду - авторы обожают паттерн Паблик Морозов.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

23. "Открыт исходный код поискового движка Gigablast"  +2 +/
Сообщение от xnoname on 03-Авг-13, 19:39 
Захардкоженный html в https://github.com/rnz/open-source-search-engine/blob/master... "радует"...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

24. "Открыт исходный код поискового движка Gigablast"  +2 +/
Сообщение от Anon671 on 03-Авг-13, 20:27 
Не то слово!
То, что внутри sendPageParser2 одновременно сосуществуют сетевой интерфейс, парсер, частоты слов, и захардкоженый ответ на 200 строк (являющийся к тому же параметром printf!!!).
Видел за свое время два коммерческих поисковика. Таких кусков кода даже там нет!
Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

50. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Аноним (??) on 05-Авг-13, 04:09 
Зато коменты присутствуют :)
Ответить | Правка | ^ к родителю #24 | Наверх | Cообщить модератору

26. "Открыт исходный код поискового движка Gigablast"  +2 +/
Сообщение от Аноним (??) on 03-Авг-13, 22:59 
Сравнил бы кто его по возможностям с Solr/Lucene....
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

42. "Открыт исходный код поискового движка Gigablast"  –1 +/
Сообщение от DmA email(??) on 04-Авг-13, 17:31 
Solr/Lucene используются в YaCy. Можете скачать эту поисковую систему за 5 минут ( версию 1.6 для Windows) и сами попробовать! Версию 1.6 ищете на немецкой странице, на русской недопереведено и там версия 1.4 до сих пор значится!
Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

29. "Открыт исходный код поискового движка Gigablast"  +3 +/
Сообщение от MrClon on 04-Авг-13, 04:21 
>Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

Звучит как антиреклама.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

39. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Аноним (??) on 04-Авг-13, 16:00 
Мирный советский комбайн, очевидно же.
Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

41. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от DmA email(??) on 04-Авг-13, 17:28 
У гугла кроме поисковой системы есть ещё куча логов(журнальных файов) от действий пользователя( учёт его запросов, содержания писем и сообщений), а результат поиска гугл выдаёт с учётом своей поисковой системы и с учётом анализа журнальных файлов. Так называемый пузырь фильтров. Поэтому если вы хотите, чтобы ваша личная поисковая система удовлетворяла пользователей(выдавала всё что им нужнов первых строчках) нужно начать собирать информацию о пользователе. Тем кто хочет вырваться из пузыря фиьтров в помощь эта статья на хабре "Пузырь фильтров (filter bubble), а также 10 шагов, как вырваться из плена своих интересов" http://habrahabr.ru/post/132191/
Децентрализованная поисковая система YaCy  поможет самому индекировать нужные сайты так часто, насколько того вы хотите.  Можно разрешить использовать свой узел Yacy всем остальным людям на планете и построить таким образом распределённую поисковую систему. Версии Yacy  есть под Windows, Linux, MacOSX, устанавливается за 5 минут сразу можно натравить её на нужные сайты или отсканировать диапазон адресов и загнать в поиск всю подсеть. Гугл  даже в отдалённой перспективе не сможет проиндекировать весь интернет! Yacy в перспективе возможно сможет. Хорошо бы в каждом регионе России иметь по узлу Yacy ищущей по всему региональному интернету! И в какие то сутки проиндекировать весь Интернет!
Gigablast - это опять тысячи серверов в одних руках, скорей всего коммерческих -поэтому опять пузырь фильтров, опять сбор информации о пользователях, опять продажа сведений об интересах рекламным компаниям и спецслужбам.
Молодое поколение выросшее на поисковых системах(Google,Yandex) использующих "пузырь фильтров" уже просто не могут сформулировать правильный запрос для поисковых систем, которые не используют пузырь фильтров.
DuckDuckGo если запомнить несколько ключей для поиска, то можно использовать не хуже гугла. "Лента друзей" в социальных сетях Facebook, Вконтакте (vk.com), odnoklassniki тоже используют пузыри фильтров и видите только то в Интерене, чем сами интересуетесь(новости, результаты поиска, даже рекламу)! Вы сидите в пузыре фильтов как в матрице и чаще всего даже не хотите из этой матрицы вылезать, потому что удобно - вы сообщаете о себе всё этим социальным сетям и поисковым системам, в обмен они на вас зарабатывают деньги через рекламу и ищут только то, что вы хотите найти.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

45. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от arisu (ok) on 04-Авг-13, 17:43 
у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода я не готов, я готов помочь, если оно будет нормально (т.е. удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё раз через годик.
Ответить | Правка | ^ к родителю #41 | Наверх | Cообщить модератору

46. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от DmA email(??) on 04-Авг-13, 19:19 
> у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода
> я не готов, я готов помочь, если оно будет нормально (т.е.
> удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё
> раз через годик.

А какую версию использовали? 1.4 или 1.6? Там есть на админке обновление вручную -показывает какая версия последняя и предлагает скачать, оставив каталог Data. В 1.6 мне показалось меньше неработающих пунктов меню и глюков. Новые Solr и Lucene 4.3

Ответить | Правка | ^ к родителю #45 | Наверх | Cообщить модератору

47. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от arisu (ok) on 04-Авг-13, 19:39 
> А какую версию использовали? 1.4 или 1.6?

1.4, судя по всему. претензии у меня, собственно, к работе в режиме «использовать яку как прокси-сервер»: иногда оно нереально тупило, периодически намертво зависало (не сама яка, просто проксь принимал запросы и не отвечал), тупило с кукишами и какие-то заголовки портило (уже не помню точно, какие).

поскольку с жабой я дружить не хочу, то разбираться детальней не полез, а отложил «на потом».

Ответить | Правка | ^ к родителю #46 | Наверх | Cообщить модератору

60. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от Аноним (??) on 07-Авг-13, 17:04 
YaCy уже научился в релевантные результаты поиска?
Ответить | Правка | ^ к родителю #41 | Наверх | Cообщить модератору

61. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от arisu (ok) on 07-Авг-13, 17:12 
> YaCy уже научился в релевантные результаты поиска?

а ты уже поставил у себя паучка, чтобы индекс рос? индекс, знаешь ли, из астрала не прилетит, его делать надо. а ты как думал?

Ответить | Правка | ^ к родителю #60 | Наверх | Cообщить модератору

58. "Открыт исходный код поискового движка Gigablast"  –1 +/
Сообщение от tessel on 05-Авг-13, 18:02 
Я только одного не понял - почему я про такой поисковик узнал только сейчас?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

59. "Открыт исходный код поискового движка Gigablast"  +1 +/
Сообщение от DmA (??) on 05-Авг-13, 19:39 
наверно потому ,что находились в пузыре фильтров и не догадывались об этом :)
Ответить | Правка | ^ к родителю #58 | Наверх | Cообщить модератору

62. "Открыт исходный код поискового движка Gigablast"  +/
Сообщение от newdya (ok) on 14-Ноя-14, 07:56 
Создатель поисковика Volunia тоже планирует открыть исходный код: http://www.math.unipd.it/~massimo/volunia/
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2020 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру