Как скреативить теги <figure> в bs4?

Я пытаюсь соскрести изображения с сайта https://nytimes.com, однако большинство соответствующих изображений основных заголовков на их сайте хранится в теге <figure>, а не в теге <img> с определенным атрибутом src.

Как я могу получить урлы для изображений внутри этих тегов <figure>, чтобы затем разместить их на своем сайте?

Поскольку url является динамическим, вы можете получить url всех изображений главного заголовка, используя selenium с BeautifulSoup.

from selenium import webdriver
from bs4 import BeautifulSoup
from webdriver_manager.chrome import ChromeDriverManager

data=[]
driver = webdriver.Chrome(ChromeDriverManager().install())
url='https://www.nytimes.com/'
driver.get(url)
driver.maximize_window()
soup=BeautifulSoup(driver.page_source,'html.parser')
driver.close()

for im in soup.select('.css-cov0u6 img'):
    img=im.get('src')
    data.append(img)
    #print(img)
print(data)

Выход:

webdriver-manager

Вернуться на верх

Последние вопросы и ответы

Django on Azure App Service: got an unexpected keyword argument allow_abbrev

Fix django/nginx flacky 502 error: upstream prematurely closed

Django Admin not loading static files

How to create a virtualenv in the terminal of macOS?

Service selling platform

Why does StaticLiveServerTestCase breaks fixtures when dynamically generating tests beside TestCase does not?

HMR Module replacement is disabled

Django Allauth login/signup fails with SMTPAuthenticationError (535) in production

Why does using a set() snapshot for deduplication still allow duplicate records in my Django/Outlook integration?

Looking for Real-World Problems to Build a Web Application Around [closed]

Как скреативить теги <figure> в bs4?

Последние вопросы и ответы

Рекомендуемые записи по теме