Как я должен подойти к разработке этого проекта по компьютерному зрению? Детектор собачьих экскрементов/очистки/уничтожения с оповещением через RTSP-камеру, веб-приложение
В настоящее время я разрабатываю проект, целью которого является создание детектора собачьих какашек/очисток/извержений с использованием YOLOv8, со звуковыми оповещениями для предотвращения их появления в специально отведенных местах, где позволяет диапазон обзора камеры. Это приложение будет доступно для просмотра через веб-страницу с порталом для входа.
Стек: Python, Django, YOLOv8, OpenCV, HTML, CSS, JS.
У меня есть несколько проблем, во-первых, я не уверен, что использую правильную модель для этого проекта. В настоящее время я занимаюсь трансферным обучением с помощью yolov8s.pt
и обучаюсь на наборе данных с 1 классом, какающие собаки.
Вот как это выглядит:
results = model.train(data="config.yaml", epochs=100, patience=15, batch=4, workers=6, device=[0])
Однако в результате многочисленных попыток и работы с набором данных я, похоже, всегда не получаю никаких обнаружений, а когда получаю, то это всегда ложные срабатывания. Может ли быть так, что обнаружение объектов - неправильный выбор, а оценка позы была бы лучше, учитывая цель проекта?
Во-вторых, я не могу найти способ сделать RTSP камеры общедоступным, я пытался найти переадресацию портов, но это оказалось невозможным из-за ограничений моего маршрутизатора и моего провайдера.
И, наконец, помимо того, что собака какает/элиминирует/мочится, я бы хотел, чтобы система могла идентифицировать и различать каждую собаку, которая видна в камере. Можно ли обучить YOLOv8 как обнаружению/положению объекта (если оценка положения лучше подходит для проекта), так и сегментации?