The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Сравнение производительности открытых поисковых движков"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы Разговоры, обсуждение новостей (Public)
Изначальное сообщение [ Отслеживать ]

"Сравнение производительности открытых поисковых движков"  +/
Сообщение от opennews on 06-Июл-09, 22:48 
Результаты (http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-s.../)  тестирования открытых поисковых движков: Lucene, Xapian, zettair и sphinx, плюс для сравнения тесты были проведены для данных сохраненных в БД SQLite. При тестировании оценивалось: пиковое максимальное потребление памяти при индексации и выборке, скорость индексации данных, производительность поиска, итоговый размер индекса, релевантность результатов. В качестве данных для тестов использовался архив сообщений сервиса Twitter и около 200 тыс. журнальных статей по медицине. Победа присуждена системе Lucene, отличившейся минимальным размером индекса и прекрасной производительностью при выборке данных.

URL: http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-s.../
Новость: https://www.opennet.ru/opennews/art.shtml?num=22484

Высказать мнение | Ответить | Правка | Cообщить модератору

 Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "А как же mnogosearch?"  +/
Сообщение от Moses email on 06-Июл-09, 22:48 
Mnogosearch не открытый разве?
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "Сравнение производительности открытых поисковых движков"  +/
Сообщение от trdm (ok) on 06-Июл-09, 23:06 
хм. это единственной явовской то софтине приз присудили,
а в списке остальные на сях да сяхПП. О_о.
Я фигею.
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "Сравнение производительности открытых поисковых движков"  –1 +/
Сообщение от аноним on 07-Июл-09, 02:54 
Ну размер индекса это едва ли вообще критерий. На втором месте время индексации, на первом время поиска, по обоим lucene сливает, а заодно жрет память (про 30 метров не знаю как они считали, JVM меньше пары-тройки сотен никогда не ест).
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "Сравнение производительности открытых поисковых движков"  +2 +/
Сообщение от Аноним (??) on 07-Июл-09, 12:59 
Очень интересная позиция. Размер индекса 66 vs 180/263 Mb (первый тест) или 91 vs 474/339 - это неважно? Принципиальная разница в том, что первый индекс поместиться в память, а второй может и не влезть.. и будут тормоза.

Второе, по тесту на время поиска lucene на первом месте, точка. Никто не сумел найти быстрее (ну в общем наверное логично, что когда тебе надо 474 мегов индексов перелопатить..). И мало того, одновременно дал наивысшую релевантность при этом поиске. Одновременно выйгрыш по двум самым важным параметрам - это и есть полный вин.

А джава? Ну что джава.. Возьмите clucene на C++, lucene.net на C# или любой другой, более совместимый с вашими идеологическим принципами.. Хотя они, возможно, не так оптимизированы..

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

5. "Сравнение производительности открытых поисковых движков"  +1 +/
Сообщение от SKeeper email on 07-Июл-09, 13:09 
"Lucene was the only solution that produced an index that was smaller than the input data size."

Представляете куда поползет размер индекса на реальных задачах? И как с ним придется работать в случае кластера?

С чего это Вы взяли, что lucene по времени поиска сливает? В приведенных таблицах lucene как раз на первом месте по скорости поиска.

Важность критерия времени индексации очень зависит от реальной задачи.

Про то, что размер индекса это не критерий это Вы абсолютно зря. На реальных задачах размер индекса определяет трудозатраты на поиск, а так же сможете ли вы вообще работать с этой базой (если у соперников индекс так быстро прыгает за сотню, то очень скоро их базы будут неповоротливыми).

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

7. "Сравнение производительности открытых поисковых движков"  +1 +/
Сообщение от crypto5 email on 07-Июл-09, 19:26 
Многое зависит от задачи при выборе движка. Например в таблице можно увидеть что у Xapian потребление памяти при пиковой нагрузке в 18 раз меньше чем у Lucene, при схожих показателях в релевантности и скорости. С другой стороны у Sphinx больше возможностей фильтрации по дополнительным атрибутам документов, опять же сравнивая с Lucene .
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

8. "Сравнение производительности открытых поисковых движков"  +/
Сообщение от SaveTheRbtz (??) on 20-Июл-09, 10:27 
А они версию сфинкса по старее не могли найти?
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2022 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру