Python image scrapper become base64

У меня есть инструменты скраппера, но мой код всегда скрапит base64 вместо реальных урлов, вот мой код:

import requests
from bs4 import BeautifulSoup

baseurl = "https://www.google.com/search?q=beli+anjing&sxsrf=APq-WBt4jLZxrfwaRP4YeYUhlfB-EWkTlw:1649653964236&source=lnms&tbm=shop&sa=X&ved=2ahUKEwjEnan0n4v3AhUNRmwGHTIVDlQQ_AUoAnoECAEQBA&biw=1365&bih=937&dpr=1"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:99.0) Gecko/20100101 Firefox/99.0"}
r = requests.get(url=baseurl, headers=headers)
soup = BeautifulSoup(r.content, 'lxml')
for product_images in soup.findAll('div', attrs={'class': 'ArOc1c'}):
    print (product_images.img['src'])

В результате получается что-то вроде:

data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==

А вот html-элемент, который я хочу утилизировать:

<img id="10857343619710684967" src="https://encrypted-tbn2.gstatic.com/shopping?q=tbn:ANd9GcTP0ECipmHbw3MkChu6xHYkHA3AzxaiNoUnqxaW35bfDkFugfhO23iwklpDjhYlUFI-RIyLu95TkcpNCBGxBeKPIarPilIv6a697PoK-RM&amp;usqp=CAE" alt="" role="presentation" data-atf="4" data-frt="0">

Мне нужно значение src, но когда я скремблирую, он всегда получает base64 вместо реального url, как описано выше. результат, который я хочу:

https://encrypted-tbn2.gstatic.com/shopping?q=tbn:ANd9GcTP0ECipmHbw3MkChu6xHYkHA3AzxaiNoUnqxaW35bfDkFugfhO23iwklpDjhYlUFI-RIyLu95TkcpNCBGxBeKPIarPilIv6a697PoK-RM&amp;usqp=CAE

Используйте это:

import base64

for product_images in soup.findAll('div', attrs={'class': 'ArOc1c'}):
    data = product_images.img['src']
    img_data = data.split('base64,')[1].encode('utf8')
    print (base64.decodebytes(img_data))

Вернуться на верх

Последние вопросы и ответы

Django on Azure App Service: got an unexpected keyword argument allow_abbrev

Fix django/nginx flacky 502 error: upstream prematurely closed

Django Admin not loading static files

How to create a virtualenv in the terminal of macOS?

Service selling platform

Why does StaticLiveServerTestCase breaks fixtures when dynamically generating tests beside TestCase does not?

HMR Module replacement is disabled

Django Allauth login/signup fails with SMTPAuthenticationError (535) in production

Why does using a set() snapshot for deduplication still allow duplicate records in my Django/Outlook integration?

Looking for Real-World Problems to Build a Web Application Around [closed]

Python image scrapper become base64

Последние вопросы и ответы

Рекомендуемые записи по теме