Как я могу получить оригинальный текст, который является языком Bangla значение 2 или более pdf в массиве?

Когда я загружаю 2 или более bangla pdf, он конвертирует в pdf каждую страницу как изображение, затем все изображения конвертирует в текст. Но когда pdf конвертируется полностью в текст, то этот весь текст помещается в массив, как имя файла в качестве ключа и весь текст в качестве баланса, затем токенизация всего этого с помощью nltk. Но я не сохраняю в массив один и тот же текст. там появляется мусор.

for pdf in request.FILES.getlist("files"):
               pdf_name = pdf.name
               array_of_all_text = []
               if pdf:
                   image_file_list = []
                   all_text = ''
                   with TemporaryDirectory() as tempdir:
                       pdf_pages = convert_from_bytes(pdf.read())
                       for page_enumeration, page in enumerate(pdf_pages, start=1):
                           filename = f"{tempdir}\page_{page_enumeration:03}.jpg"
                           page.save(filename, "JPEG")
                           image_file_list.append(filename)
                       else:
                           for image_file in image_file_list:
                               text = pytesseract.image_to_string(Image.open(image_file),lang="ben")
                               text = text.replace('\n', ' ')
                               all_text += text
                               
                   hello_world = sent_tokenize(all_text)
                   array_of_all_text.append(hello_world)        
               else:
                   return HttpResponse('this is not a pdf')
           return HttpResponse(array_of_all_text)

Этот код выводится следующим образом:

['সত্য সেলুকাস নীরেন্দ্রনাথ চক্রবর্তী থাকা মানে থাকা মানে কিছু বই, থাকা মানে লেখার টেবিল, থাকা মানে আকাশের নীল, ছাতের কার্নিসে দুটি পাখি, একা-নৌকাটির ক্রমে দৃষ্টির আড়ালে চলে যাওয়া। ভাদ্রের গুমট ভেঙে বৃষ্টির খবর নিয়ে ছুটে আসে হাওয়া, যা এসে বুকের মধ্যে লাগে। থাকা মানে মানুষের মুখ, ঘাম, ক্লান্তি ও বিষাদ, যা নিয়ে সংসার, তার সবই। থাকে মানে দুঃখ-সুখে, সংরাগে-বিরাগে সবকিছুকে হাতের মুঠোয় ধরে রাখা। \x0c যে-ছবি তাৎপর্যে তরা, অথচ সম্পূর্ণ অর্থহীন। থাকা মানে তারই মধ্যে বেঁচেবর্তে থাকা। রাগী ভিমরুলের মতো কয়েকটি বালক ওই দৌড়ে চলে যায়। কাল সারা রাত খুব বৃষ্টি হয়েছিল। এখন আকাশে মেঘমুক্ত, তার কোথাও দেখি না কোনো কলঙ্কের দাগ, চিল অনেকটা উঁচুর নীলে ফিরে গিয়ে ডানা ছড়িয়েছে। এমন সুন্দর ভোর শ্রাবণে ও ভাদ্রে মাঝে-মাঝে অলীক দৃশ্যের মতো দেখা দেয়। দেখা দিলে আবার নতুন করে নিজস্ব নিয়মে বাঁচতে সাধ জাগে। সকলে ডেকে-ডেকে বলতে ইচ্ছা করে: ভাল থাকো। আদিত্যবর্ণের ছোঁয়া লাগুক সমস্ত বাসনায়। রাগী ভিমরুলের ঝাঁক দৌড়ে চলে যায়। এত যে বয়স হল, তবু আজও এমন যাওয়ার তাৎপর্য বুঝি না। বুঝতে গিয়ে চোখ ফিরিয়ে ভিতরে তাকাই। দেখি যে, সেখানে আজও মেঘমুক্ত আকাশের মতো আরও একটা সকাল হয়েছে। \x0c সত্য সেলুকাস মন্দির না মসজিদ না বিতর্কিত কাঠামো, এই ধুন্কুমার তর্কের ভিতর থেকে বেরিয়ে এল পেটে-পিঠে এক হয়ে যাওয়া, হাড়-জিরজিরে দুটে নেংটি-পরা মানুষ। তাদের পাথার উপরে দাউদাউ করে জ্বলছে মধ্যদিনের সূর্য। তবে পরপর কয়েকটা দিন যেহেতু বৃষ্টি হয়েছে, তাই আর্যাবর্তের ঘাস এখনও হল্দে হয়ে যায়নি। ভিড়ের মধ্যেই ছিল বটে, আর মাঝেমধ্যে তালিও বটে বাজিয়েছিল, তবে ধোপদুরস্ত জামাকাপড় পরা লোকগুলোর এই তর্কটা যে ঠিক কী নিয়ে, তার বিন্দুবিসর্গও তারা জানে না। সভাস্থলের একটু দূরে ঝাঁকড়ামাখা একটা তেঁতুলগাছের তলায় বসে পিতলের থালায় এক চিমটি নূন ছিটিয়ে ছাতু ঠাসতে-ঠাসতে তবুও যে তারা হাসছে, তার কারণ, তাদের একজনের নাম হতেই পারত সিকান্দর শাহ্\u200c আর অন্যজনের সেলুকাস \x0cভিড়ের ভিতর থেকে পিতলের থালা বাজাতে-বাজাতে বেরিয়ে এসেছে দুই লেংটি-পরা সতিহাসিক পুরুষ। তাদের মাথায় উপরে জ্বলছে অনাদি ভারতবর্ষের আকাশ, আর ইতিমধ্যে কয়েকটা দিন যেহেতু বৃষ্টি হয়েছে, তাই তাদের আর্যাবর্তের ঘাস এখনও হল্দে হয়ে যায়নি।']

В этом выводе показаны некоторые гурбажи. В чем проблема моего кода, пожалуйста, поделитесь любым мнением и посоветуйте мне, как решить эту проблему.

Вернуться на верх