Расшифровка потоков аудиоданных в реальном времени с помощью Python

Я разработал веб-приложение, используя Django в качестве бэкенда и библиотеку Frontend.

Я использовал django-channels, для WebSocket и я могу записать аудио поток с передней части и отправить его в Django через WebSocket, а затем Django отправляет его в группу.

Итак, я могу делать аудио звонки (допустим), но мне нужно расшифровывать аудио на бэкенде. (основная цель проекта)

Я с нетерпением жду возможности использовать пакет SpeechRecognition 3.8.1 для достижения транскрипции.

Я отправляю base64 закодированную opus строку кодеков с фронт-энда на Django каждую секунду. Он посылает записанный микрофоном звук каждую 1 секунду.

Мои сомнения -

Если мы воспроизводим аудиопотоки независимо, мы можем воспроизвести только первую строку. Мы не можем воспроизвести 2-ю, 3-ю .... независимо (проблемы с прокладкой или, возможно, что-то еще, о чем я не знаю), поэтому я использовал MediaSource на фронт-энде для буферизации потоков и воспроизведения. Вопрос в том, можно ли преобразовать этот 2-й 3-й аудио поток в текст, используя вышеупомянутый пакет? Или мне придется делать что-то другое. (Я ищу идеи о том, как это будет работать)

Кроме того, вышеупомянутый пакет использует формат wav для транскрибирования аудио, так как я могу преобразовать мою строку, закодированную в base64, в аудиофайл формата wav на ходу? Я видел много примеров использования файлов, но я хочу изменить формат аудио на ходу, а затем сохранить расшифрованные данные в файл/базу данных.

Предоставим любой пример кода, необходимый для лучшего понимания вопроса.

Кроме того, открыт для новых идей по изменению рабочего процесса моего кода для достижения транскрипции.

Спасибо!!!

Вернуться на верх