Как скреативить теги <figure> в bs4?
Я пытаюсь соскрести изображения с сайта https://nytimes.com, однако большинство соответствующих изображений основных заголовков на их сайте хранится в теге <figure>, а не в теге <img> с определенным атрибутом src.
Как я могу получить урлы для изображений внутри этих тегов <figure>, чтобы затем разместить их на своем сайте?
Поскольку url является динамическим, вы можете получить url всех изображений главного заголовка, используя selenium с BeautifulSoup.
from selenium import webdriver
from bs4 import BeautifulSoup
from webdriver_manager.chrome import ChromeDriverManager
data=[]
driver = webdriver.Chrome(ChromeDriverManager().install())
url='https://www.nytimes.com/'
driver.get(url)
driver.maximize_window()
soup=BeautifulSoup(driver.page_source,'html.parser')
driver.close()
for im in soup.select('.css-cov0u6 img'):
img=im.get('src')
data.append(img)
#print(img)
print(data)
Выход: