·
Урок 21. Работа с cookie и локальным хранилищем в Selenium Cookies и локальное хранилище позволяют сохранять данные о пользователе и сессии на сайте. Знание того, как работать с ними в Selenium, необходимо для автоматизации входа, тестирования авторизации и сохранения состояния между запусками скрипта. Что такое cookie и локальное хранилище Cookies — небольшие текстовые файлы, которые
·
Урок 22. Работа с загрузкой и скачиванием файлов с Selenium Автоматизация загрузки и скачивания файлов — частая задача при работе с веб-сайтами. Selenium позволяет управлять элементами формы для загрузки файлов и контролировать скачивание. Загрузка файлов на сайт Для загрузки файлов на веб-странице используется элемент <input type=»file»>. С помощью метода send_keys() можно указать путь к файлу
·
Урок 23. Настройка браузера — headless режимы и оптимизация скорости в Selenium Headless-браузер — это браузер без графического интерфейса, который работает в фоновом режиме. Использование headless-режима значительно ускоряет выполнение скриптов, экономит ресурсы компьютера и подходит для автоматизации тестирования и парсинга. Зачем нужен headless-режим Ускорение работы: браузер не рендерит визуальный интерфейс. Меньше ресурсов: экономия памяти и
·
Урок 24. Использование прокси и изменение user-agent в Selenium Иногда при работе с веб-сайтами требуется скрыть реальный IP-адрес или изменить поведение браузера, например, для обхода ограничений, тестирования или защиты от блокировок. Для этого в Selenium можно использовать прокси-серверы и менять user-agent. Что такое прокси и user-agent Прокси-сервер — это промежуточный сервер, через который проходит ваш
·
Урок 25. Работа с CAPTCHA и антибот-защитой (теория) в Selenium CAPTCHA и антибот-защита — это механизмы сайтов, которые предотвращают автоматическое взаимодействие и защиту от спама или злоумышленников. В Selenium важно понимать, как работать с такими элементами и минимизировать вероятность блокировок. Что такое CAPTCHA CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)
·
Парсинг тегов <p> и <a> с BeautifulSoup BeautifulSoup — это библиотека Python для парсинга HTML. Она предназначена для извлечения данных с веб-страниц. В этой статье мы разберём, как использовать BeautifulSoup с библиотекой requests для парсинга тегов. Для примера возьмём тег параграфа <p> и тэг ссылки <a>. Данные будем парсить со страницы parsertools.ru/test. Что такое BeautifulSoup?
·
Основы HTML для парсинга веб-страниц HTML (HyperText Markup Language) — это основа веб-страниц, и понимание его структуры критически важно для эффективного парсинга данных. В этой статье мы разберем, что такое HTML, как он устроен и как использовать его знания для извлечения данных с сайтов. Что такое HTML? HTML — это язык разметки, используемый для создания
·
Парсинг с помощью Python и BeautifulSoup Python и библиотека BeautifulSoup — идеальный дуэт для начинающих и опытных разработчиков, которые хотят парсить веб-страницы. В этой статье мы разберем, как использовать Python и BeautifulSoup для извлечения данных с сайтов, приведем примеры кода и дадим советы по оптимизации. Что такое BeautifulSoup? BeautifulSoup — это библиотека Python для парсинга
·
Использование CSS-селекторов для извлечения данных CSS-селекторы — мощный инструмент для парсинга веб-страниц, позволяющий точно находить элементы в HTML-коде. В этой статье мы разберем, что такое CSS-селекторы, как они применяются в веб-скрейпинге и как использовать их с Python и BeautifulSoup. Что такое CSS-селекторы? CSS (Cascading Style Sheets) — язык для стилизации веб-страниц, а селекторы — это
·
Парсинг динамических сайтов с Selenium Динамические веб-сайты, где контент загружается с помощью JavaScript, сложно парсить традиционными методами, такими как BeautifulSoup. Selenium — мощный инструмент, который решает эту проблему, эмулируя действия браузера. В этой статье мы разберем, как использовать Selenium для парсинга динамических сайтов, приведем примеры и дадим советы. Что такое Selenium? Selenium — это инструмент