Udemy [udemy] - Парсинг веб-страниц для начинающих с помощью Scrapy и Python: шаг за шагом (2022)

  • Автор темы Amerikano
  • Дата начала
Amerikano
Amerikano
Модератор
Сообщения
19,046
Реакции
346,305
Автор: udemy
Название: Парсинг веб-страниц для начинающих с помощью Scrapy и Python: шаг за шагом


1652901084449 png

Парсинг веб-страниц — это процесс парсинга веб-сайтов и извлечения из них нужных данных, и в этом курсе вы изучите и освоите парсинг веб-страниц с помощью python и scrapy с пошаговым и подробным руководством.

Пошаговое руководство

Предполагая, что вы ничего не знаете о парсинге веб-страниц, парсинге веб-страниц на python и даже о значении парсинга веб-страниц, мы начнем с самых основ. В первом разделе вы шаг за шагом узнаете о процессе веб-скрапинга (с инфографикой — без кода), как собирать данные с веб-сайтов и как использовать для этого скрапинг (т. е. смысл скрапа).

Прояснив основы и получив представление о том , как работает веб-скрейпинг, мы начнем веб-скрейпинг с использованием фреймворка python и scrapy! Опять же, мы будем двигаться шаг за шагом и выполнять каждый шаг, изученный в основах, с небольшими уроками . Мы будем делать это медленно, чтобы вам было легче понять каждый шаг, связанный с очисткой и извлечением данных с веб-сайтов.

Основы парсинга веб-страниц и Scrapy

Создав настоящий веб-скрейпер, вы получите представление о том, как работает веб-скрейпинг, из первых рук. Теперь крайне важно охватить основные понятия парсинга и очистки веб-страниц, чем мы и займемся дальше.

  • Селекторы CSS для выбора веб-элементов
  • XPath для выбора веб-элементов
  • Scrapy Shell для тестирования и проверки селекторов
  • Элементы для организации извлеченных данных
  • Загрузка элементов с помощью ItemLoaders с процессорами ввода и вывода
  • Экспорт данных в форматы файлов JSON, CSV, XLSX ( Excel ) и XML.
  • Сохраняйте извлеченные данные в онлайн-базах данных, таких как MongoDB, с помощью ItemPipelines.
Углубленный веб-скрейпинг

Изучение того, как парсить веб-сайты и основы, уже делает вас полноценным веб-парсером, но мы пойдем еще дальше и изучим передовые методы парсинга веб-страниц, чтобы стать экспертом !

  • Перейти по ссылкам на веб-странице на другую страницу
  • Сканирование нескольких страниц и извлечение данных, т.е. разбиение на страницы
  • Очистить данные с помощью регулярных выражений (RegEx)
  • Извлечение данных из таблиц HTML
  • Вход на веб-сайты с помощью Scrapy FormRequest
  • Обход форм входа, защищенных CSRF
  • Скрапинг динамических веб-сайтов или веб-сайтов с визуализацией JavaScript с помощью Scrapy Playwright
    • Взаимодействуйте с веб-элементами, такими как заполнение форм, нажатие кнопок и т. д.
    • Работа с сайтами с бесконечной прокруткой
    • Ожидайте элементов, когда для загрузки содержимого/данных требуется время
    • Сделать скриншот веб-сайтов
    • Сохраняйте веб-сайты в формате PDF
  • Идентифицируйте вызовы API с веб-сайтов и извлекайте данные из API
  • Используйте промежуточное ПО в проекте scrapy
  • Настройка параметров в проекте scrapy
  • Использование и ротация пользовательских агентов и прокси
  • Лучшие практики парсинга веб-страниц
Реальные проекты

После освоения парсинга веб-страниц нам нужны проекты, чтобы начать работу! Вот почему вы также будете выполнять три проекта:

  • Таблица Лиги чемпионов [ ESPN ]
  • Трекер товаров [ Amazon ]
  • Приложение Scraper [ GUI ]
Присоединяйтесь к нам в этом углубленном курсе, где вы узнаете о парсинге веб-страниц с нуля и шаг за шагом освоите процесс извлечения данных с веб-сайтов. Ознакомьтесь с предварительными уроками, чтобы начать работу и узнать, как работает парсинг в Интернете! Увидимся там~

Для кого этот курс:
  • Начинающие разработчики Python, которые хотят освоить парсинг веб-страниц
  • Веб-скрейперы-фрилансеры хотят отточить свои навыки
Требования
  • Программирование на Питоне
  • Основы HTML (+ балл)
Материал на английском языке

Подробнее:

Скачать:

 
Сверху