• Selenium Работа с cookie и хранилищем

    ·

    Selenium Работа с cookie и хранилищем

    Урок 21. Работа с cookie и локальным хранилищем в Selenium Cookies и локальное хранилище позволяют сохранять данные о пользователе и сессии на сайте. Знание того, как работать с ними в Selenium, необходимо для автоматизации входа, тестирования авторизации и сохранения состояния между запусками скрипта. Что такое cookie и локальное хранилище Cookies — небольшие текстовые файлы, которые

    читать далее

  • Selenium загрузка и скачивание файлов

    ·

    Selenium загрузка и скачивание файлов

    Урок 22. Работа с загрузкой и скачиванием файлов с Selenium Автоматизация загрузки и скачивания файлов — частая задача при работе с веб-сайтами. Selenium позволяет управлять элементами формы для загрузки файлов и контролировать скачивание. Загрузка файлов на сайт Для загрузки файлов на веб-странице используется элемент <input type=»file»>. С помощью метода send_keys() можно указать путь к файлу

    читать далее

  • Selenium headless режим, настройка и оптимизация

    ·

    Selenium headless режим, настройка и оптимизация

    Урок 23. Настройка браузера — headless режимы и оптимизация скорости в Selenium Headless-браузер — это браузер без графического интерфейса, который работает в фоновом режиме. Использование headless-режима значительно ускоряет выполнение скриптов, экономит ресурсы компьютера и подходит для автоматизации тестирования и парсинга. Зачем нужен headless-режим Ускорение работы: браузер не рендерит визуальный интерфейс. Меньше ресурсов: экономия памяти и

    читать далее

  • Selenium прокси и user-agent

    ·

    Selenium прокси и user-agent

    Урок 24. Использование прокси и изменение user-agent в Selenium Иногда при работе с веб-сайтами требуется скрыть реальный IP-адрес или изменить поведение браузера, например, для обхода ограничений, тестирования или защиты от блокировок. Для этого в Selenium можно использовать прокси-серверы и менять user-agent. Что такое прокси и user-agent Прокси-сервер — это промежуточный сервер, через который проходит ваш

    читать далее

  • Selenium CAPTCHA и антибот-защита

    ·

    Selenium CAPTCHA и антибот-защита

    Урок 25. Работа с CAPTCHA и антибот-защитой (теория) в Selenium CAPTCHA и антибот-защита — это механизмы сайтов, которые предотвращают автоматическое взаимодействие и защиту от спама или злоумышленников. В Selenium важно понимать, как работать с такими элементами и минимизировать вероятность блокировок. Что такое CAPTCHA CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)

    читать далее

  • Введение в парсинг: что это и зачем нужно

    ·

    Парсинг тегов и с BeautifulSoup

    Парсинг тегов <p> и <a> с BeautifulSoup BeautifulSoup — это библиотека Python для парсинга HTML. Она предназначена для извлечения данных с веб-страниц. В этой статье мы разберём, как использовать BeautifulSoup с библиотекой requests для парсинга тегов. Для примера возьмём тег параграфа <p> и тэг ссылки <a>. Данные будем парсить со страницы parsertools.ru/test. Что такое BeautifulSoup?

    читать далее

  • Основы HTML для парсинга веб-страниц

    ·

    Основы HTML для парсинга веб-страниц

    Основы HTML для парсинга веб-страниц HTML (HyperText Markup Language) — это основа веб-страниц, и понимание его структуры критически важно для эффективного парсинга данных. В этой статье мы разберем, что такое HTML, как он устроен и как использовать его знания для извлечения данных с сайтов. Что такое HTML? HTML — это язык разметки, используемый для создания

    читать далее

  • Парсинг с помощью Python и BeautifulSoup

    ·

    Парсинг с помощью Python и BeautifulSoup

    Парсинг с помощью Python и BeautifulSoup Python и библиотека BeautifulSoup — идеальный дуэт для начинающих и опытных разработчиков, которые хотят парсить веб-страницы. В этой статье мы разберем, как использовать Python и BeautifulSoup для извлечения данных с сайтов, приведем примеры кода и дадим советы по оптимизации. Что такое BeautifulSoup? BeautifulSoup — это библиотека Python для парсинга

    читать далее

  • Использование CSS-селекторов для извлечения данных

    ·

    Использование CSS-селекторов для извлечения данных

    Использование CSS-селекторов для извлечения данных CSS-селекторы — мощный инструмент для парсинга веб-страниц, позволяющий точно находить элементы в HTML-коде. В этой статье мы разберем, что такое CSS-селекторы, как они применяются в веб-скрейпинге и как использовать их с Python и BeautifulSoup. Что такое CSS-селекторы? CSS (Cascading Style Sheets) — язык для стилизации веб-страниц, а селекторы — это

    читать далее

  • Парсинг динамических сайтов с Selenium

    ·

    Парсинг динамических сайтов с Selenium

    Парсинг динамических сайтов с Selenium Динамические веб-сайты, где контент загружается с помощью JavaScript, сложно парсить традиционными методами, такими как BeautifulSoup. Selenium — мощный инструмент, который решает эту проблему, эмулируя действия браузера. В этой статье мы разберем, как использовать Selenium для парсинга динамических сайтов, приведем примеры и дадим советы. Что такое Selenium? Selenium — это инструмент

    читать далее