Как повысить скорость добавления документов в chromaDB?

Я пытаюсь добавить фрагменты текста в ChromaDB. При добавлении фрагментов процесс занимает больше времени из-за векторизации. Есть ли способ ускорить этот процесс? Я хотел бы использовать Celery для обработки каждого чанка в параллельном режиме или использовать мультипроцессинг.

Вот мой пример фрагмента кода:

ids = [str(Id) for Id in range(len(splitted_document))]
collection.add(
    ids=ids,
    documents=splitted_document
)

Эта строка кода 'collection.add' занимает больше времени.

Я хочу запускать процесс в фоновом режиме, особенно в виде параллельного процесса. Я пробовал использовать Celery с ChromaDB, но документы не добавляются. Я проверил это с помощью collection.count(), и он вернул 0. Почему так происходит?

Вот код:

# main.py 

def FileLoader(file_path):
 # Code to split the document... 
 ... 
 ... 
     
 ids = [str(Id) for Id in range(len(splitted_document))] 

 collection.add( ids=ids,
                documents=splitted_document 
              ) 

# Call the function process_file.delay(file_path)



# tasks.py  
@shared_task 
def process_file(file_path): 
 return FileLoader(file_path)

Однако никакие документы не добавляются.

Вернуться на верх