Оптимизация наполнения баз данных с помощью Django

У меня есть файл csv размером 10 ГБ (34 миллиона строк) с данными (без описания столбцов/заголовков), которые необходимо заполнить в базе данных Postgres. В строке данных есть столбцы, которые должны быть в разных моделях.

У меня есть следующая схема БД:

В настоящее время я делаю следующее:

Loop through rows:
1. Create instance B with specific columns from row and append to an array_b
2. Create instance C with specific columns from row and append to an array_c
3. Create instance A with specific columns from row and relation to B and C, and append to an array_a
Bulk create in order: B, C and A

Это работает совершенно нормально, однако на заполнение БД уходит 4 часа. Я хотел оптимизировать процесс заполнения и наткнулся на команду psql COPY FROM. Поэтому я подумал, что смогу сделать что-то вроде:

Create instance A with specific columns from the file
1. for foreign key to C
  - create instance C with specific columns from the row
2. for foreign key to B
  - create instance B with specific columns from the row
Go to 1.

После небольшого исследования того, как это сделать, я обнаружил, что он не позволяет манипулировать таблицами при копировании данных (например, просматривать другую таблицу для получения соответствующих внешних ключей для вставки)

Кто-нибудь может подсказать мне, на что обратить внимание, какой-нибудь другой метод или "хак", как оптимизировать популяцию данных?

Заранее спасибо.

Ссылки:

Вернуться на верх

Последние вопросы и ответы

Django view: Can't import module from another directory

Django Transfer-Encoding: chunked

i have problem activating my env using django with python in vscode

Использовать HTTP контент на HTTPS сайте

Celery raises `ValueError: not enough values to unpack (expected 3, got 0)` when calling task

Django paginator page turns to list

How to make authentication api in django using rest framework? [closed]

Uncaught SyntaxError: Unexpected end of input in Django Template (inline JS)

How should a CLIENT_SECRET for OAuth be accessed?

Django, LoginRequiredMiddleware, login, and media

Оптимизация наполнения баз данных с помощью Django

Последние вопросы и ответы

Рекомендуемые записи по теме