Подходит ли Azure Cache for Redis для настройки динамического паука в Django и Celery на Azure

Я пытаюсь понять, как можно организовать проект, в котором я буду собирать данные с нескольких сайтов, используя несколько пауков. Каждый паук имеет различную конфигурацию и получает различные типы данных (в зависимости от сайта). Для получения данных я использую playwright.

Моя идея состоит в том, чтобы использовать Celery для создания заданий и расписания их выполнения, чтобы он выполнял поиск данных в определенное время и день. Затем данные будут отправлены в базу данных, и пользователь сможет загрузить выходной файл.

Весь проект будет развернут в Azure, и из того, что я читаю, мне понадобится Azure Cache для Redis. Я также буду использовать вращающийся прокси для доступа к данным с веб-сайтов.

Мои вопросы следующие:

  1. Является ли Azure Cache for Redis хорошим вариантом для такого проекта. Если нет, то что еще я могу использовать?

    .
  2. Какой наиболее эффективный способ хранения отсканированных данных со страниц? В настоящее время я использую MongoDB, но это довольно дорогое решение. Причина использования noSQL в том, что каждый паук отличается от другого и соскабливает разные типы данных, а в реляционной базе данных было бы неэффективно добавлять колонки каждый раз, когда я соскабливаю данные с нового сайта.

    .
Вернуться на верх