The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Каталогизатор домашней библиотеки MyLibrary 1.0, opennews (??), 20-Дек-22, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


60. "Каталогизатор домашней библиотеки MyLibrary 1.0"  +/
Сообщение от ProfessorNavigator (ok), 20-Дек-22, 18:01 
> Зачем проверять хэши?

Чтобы вы могли руками удалить или добавить что-то в папку коллекции, а потом нажать спокойно "Обновить коллекцию" и получить актуальную базу данных. Ну и если вы подскажете мне более надёжный способ контроля изменений содержимого файлов (не названий и расширений, а именно содержимого) - буду рад. Насчёт 10 терабайт - а вы уверены, что там есть хотя бы 1% литературы? Интуиция мне подсказывает, что вряд ли. В лучшем случае - потоки сознания и более менее связные наборы букв по большей части.

Ответить | Правка | Наверх | Cообщить модератору

66. "Каталогизатор домашней библиотеки MyLibrary 1.0"  +1 +/
Сообщение от Аноним (47), 20-Дек-22, 18:35 
Но это лишено смысла. Файл не может внезапно оказаться другим файлом в том же месте или быть дописанным другими данными, или поменять авторство там (кто это будет делать, пользователь вручную залезет в теги файла? маловероятно), по этой же причине есть только повод проверять его наличие при обращении к нему. "Обновление" коллекции может подразумевать сканирование с нуля, в крайнем случае проверяют mtime хоть это и уже очень дорого. Даже проверка что все известные файлы на месте уже сопоставимо с индексацией с нуля.

Мне не нравится эта идея, что коллекцию надо держать в той же программе, которая файлы индексирует. Просто оставьте файлы на диске и используйте индекс для локаций, неужели это так сложно? При этом "локация" может быть и архивом. Ну вот по примеру docfetcher, вполне неплохо. Надо будет, я пересканирую когда будут время и ресурсы.

Насчёт 10 тб, это всё же творчество определённых авторов (не все произведения всех авторов прямо шедевры, но всё же есть смысл держать в коллекции то, что захочется прочитать), и некоторая часть существует только в виде сканов, особенно обучающая и техническая литература. Это только кажется, что объём приличный, у меня даже чисто текстовых файлов около терабайта и в них можно найти что-нибудь интересное. Для поиска что почитать сегодня существуют такие вещи как recoll (хоть я и не совсем доволен их функциональностью, но лучше, чем ничего), в противном случае только выбирать из уже известных авторов. Бывает, открываешь для себя новое. О некоторых авторах узнаёшь по отзывам или отсылкам.

Ответить | Правка | Наверх | Cообщить модератору

71. "Каталогизатор домашней библиотеки MyLibrary 1.0"  +/
Сообщение от ProfessorNavigator (ok), 20-Дек-22, 19:01 
> Файл не может внезапно оказаться другим файлом в том же месте или быть дописанным другими данными, или поменять авторство там

Ещё как может. Я вот ни разу не IT-шник вообще, но такие чудеса видел... Особенно, когда файлами пользуется не один человек, и эти люди понятия не имеют о том, как работает компьютер. Результат обычно: "Оно само случилось". И переустановка системы в лучшем случае. А уж переименовать файл и засунуть его туда, где никто и искать не станет - это вообще без проблем.

> Мне не нравится эта идея, что коллекцию надо держать в той же программе, которая файлы индексирует.

В случае с MyLibrary - как раз не обязательно. Программа сделана специально, чтобы работать с "сырыми" файлами, ничего не меняя. Она лишь создаёт свою базу данных и всё. Причём в отдельной папке. Собственно база данных и есть тот же индекс.

> сканов, особенно обучающая и техническая литература

Так речь про электронные книги, сканы - это немного другое. Сканами можно и больше набрать, только вот сомневаюсь, что вы всё это прочитаете.

Ответить | Правка | Наверх | Cообщить модератору

133. "Каталогизатор домашней библиотеки MyLibrary 1.0"  +/
Сообщение от Аноним (133), 21-Дек-22, 02:47 
Почему вы использутете GCRY_MD_SHA256, если можно взять GCRY_MD_BLAKE2S_256 или GCRY_MD_BLAKE2B_512? BLAKE2 заметно пошустрее.
Да, версию libgcrypt придётся ограничить как >= 1.8.0, но, например, в Ubuntu 18.04 уже была 1.8.1.

До кучи, возможно, покажется полезным: помимо .fb2 есть ещё .fbd, по сути это .fb2, в котором есть только тег <description> - т.е. все данные о книге и обложка. Можно использовать для каталогизации бинарных форматов (pdf, там, djvu), положив рядом одноимённый .fdb (вроде обычно эту пару кладут в zip-архив).

Ответить | Правка | К родителю #60 | Наверх | Cообщить модератору

155. "Каталогизатор домашней библиотеки MyLibrary 1.0"  +/
Сообщение от ProfessorNavigator (ok), 21-Дек-22, 16:23 
> BLAKE2 заметно пошустрее.

Возможно. Но на практике сколько-нибудь существенного выигрыша в скорости не заметил. Видимо потому что основной лимитирующий фактор в данном случае - скорость чтения с диска.

> До кучи, возможно, покажется полезным: помимо .fb2 есть ещё .fbd, по сути
> это .fb2, в котором есть только тег <description> - т.е. все
> данные о книге и обложка. Можно использовать для каталогизации бинарных форматов
> (pdf, там, djvu), положив рядом одноимённый .fdb (вроде обычно эту пару
> кладут в zip-архив).

Спасибо за наводку, посмотрю.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру