> ПерезапуститьОтлично. Опыта работы с БД у вас нет -- иначе вы бы знали, что такой фокус закончится повреждением структуры БД. Её кто-то должен восстановить. Или нет? Когда это должно произойти?
Поехали дальше. Кто её должен перезапустить? Сколько раз?
> Многопроцессность не нужна, у нас bottleneck при импорте - случайное чтение и запись. Клиент один и только один. Если остальные клиенты подключаются во время импорта - значит их проблемы.
То есть тот факт, что вы в своём маня-мирке не видите смысла и возможности подключения нескольких клиентов к одной БД -- это проблемы БД
> bottleneck при импорте - случайное чтение и запись
Расскажу страшную тайну. Предметная область в первую очередь определяет сценарий работы с БД. В каких-то таблицах это случайный доступ, другие работают в режиме append-only, третьи работают в режиме "меняются только последние записи", а в четвёртых часто происходит rollback. И это только верхушка айсберга. Это я к чему -- bottleneck может быть где угодно. Узко мыслите, слишком узко
> Да, свои, но у нас только один процесс
У *тебя* один процесс. Кто-то процессит сотни гигабайт данных, например, по астрономии -- там необходимо процессить параллельно. Если у тебя данных мало, раз хватает одной машины, это не значит, что у всех остальных данных тоже мало. Или ты думал, БД разрабатывается исключительно под твои нужды?
> если кеширование - это забота ОС
Оказывается, redis, memcached, ElasticCache не нужны -- это всё должна разруливать ОС. Пацаны то и не знали. Может, расскажешь, как ОС должна решать эти проблемы? ОС за тебя должна догадываться, что одни данные надо закэшировать, а другие нет? По какому алгоритму?
PS: io-кэш никто не отменял. Только вот расскажи, как ОС должна обрабатывать ситуацию, когда в фоне у тебя данные процессятся (то есть происходит постоянное чтение входных данных и запись выходных), в фоне же торрент качает и раздаёт, а сам ты интернеты сёрфишь (а браузер тоже кэширует кучу всего). Что должно оказаться в кэше?
> Для хранения datasetов нужна не сетевая база, а встраиваемая, можно вообще не базу, а HDF-файл.
Я чуть выше говорил, что это только твой кейс. Из этого не следует, что других кейсов не существует. Будь то астрономия или биоинформатика -- там огромные объёмы данных, которые отпроцессить надо за конечное время, и мультипроцессинг и множество нод -- жизненная необходимость