Подходит ли Azure Cache for Redis для настройки динамического паука в Django и Celery на Azure
Я пытаюсь понять, как можно организовать проект, в котором я буду собирать данные с нескольких сайтов, используя несколько пауков. Каждый паук имеет различную конфигурацию и получает различные типы данных (в зависимости от сайта). Для получения данных я использую playwright.
Моя идея состоит в том, чтобы использовать Celery для создания заданий и расписания их выполнения, чтобы он выполнял поиск данных в определенное время и день. Затем данные будут отправлены в базу данных, и пользователь сможет загрузить выходной файл.
Весь проект будет развернут в Azure, и из того, что я читаю, мне понадобится Azure Cache для Redis. Я также буду использовать вращающийся прокси для доступа к данным с веб-сайтов.
Мои вопросы следующие:
Является ли Azure Cache for Redis хорошим вариантом для такого проекта. Если нет, то что еще я могу использовать?
.Какой наиболее эффективный способ хранения отсканированных данных со страниц? В настоящее время я использую MongoDB, но это довольно дорогое решение. Причина использования noSQL в том, что каждый паук отличается от другого и соскабливает разные типы данных, а в реляционной базе данных было бы неэффективно добавлять колонки каждый раз, когда я соскабливаю данные с нового сайта.
.