Как повысить скорость добавления документов в chromaDB?
Я пытаюсь добавить фрагменты текста в ChromaDB. При добавлении фрагментов процесс занимает больше времени из-за векторизации. Есть ли способ ускорить этот процесс? Я хотел бы использовать Celery для обработки каждого чанка в параллельном режиме или использовать мультипроцессинг.
Вот мой пример фрагмента кода:
ids = [str(Id) for Id in range(len(splitted_document))]
collection.add(
ids=ids,
documents=splitted_document
)
Эта строка кода 'collection.add' занимает больше времени.
Я хочу запускать процесс в фоновом режиме, особенно в виде параллельного процесса. Я пробовал использовать Celery с ChromaDB, но документы не добавляются. Я проверил это с помощью collection.count()
, и он вернул 0. Почему так происходит?
Вот код:
# main.py
def FileLoader(file_path):
# Code to split the document...
...
...
ids = [str(Id) for Id in range(len(splitted_document))]
collection.add( ids=ids,
documents=splitted_document
)
# Call the function process_file.delay(file_path)
# tasks.py
@shared_task
def process_file(file_path):
return FileLoader(file_path)
Однако никакие документы не добавляются.