outerhtml = wd.execute_script("return document.documentElement.outerHTML") tree = etree.parse(StringIO(outerhtml), parser)
Прочитати змінений скриптами DOM в Selenium
Простенькі сайти можна парсити через curl+lxml чи щось інше. Динамічні сайти, які генеруються за допомогою скриптів на стороні клієнта можна парсити через Selenium і отримувати код сторінки через driver.page_source. Але є ще більш комплексні сайти (наприклад Facebook), які після завантаження і генерації сторінки додатково змінюють DOM і page_source вже не допоможе. Для вирішення питання треба запустити скрипт:
Підписатися на:
Дописати коментарі (Atom)
1 коментар:
в мене ніяк руки не доходят почитати про всякі парсери(
Дописати коментар