Skip to content

sofianeharsal/Web-Scraping-Challenges

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Projet de Web Scraping

Ce projet consiste à réaliser différents challenges de web scraping sur les sites Books to Scrape et Quotes to Scrape. Le but est de collecter des informations à partir de plusieurs pages web et d'implémenter des fonctions permettant de répondre aux différentes questions ci-dessous.

Défis

1. Nombre de livres et prix moyen par catégorie sur Books to Scrape

  • Objectif : Scraper les données du site web pour obtenir le nombre de livres et le prix moyen de chaque catégorie.
  • URL : https://books.toscrape.com/
  • Méthode : Extraction des catégories de livres, puis collecte du nombre de livres et des prix dans chaque catégorie.

2. Authentification et scraping de Quotes to Scrape

  • Objectif : S'authentifier sur le site, puis effectuer le scraping après identification.
  • URL : http://quotes.toscrape.com/login
  • Méthode : Utilisation des informations d'identification pour se connecter et accéder au contenu sécurisé.

3. Nombre de pages sur Quotes to Scrape

  • Objectif : Trouver combien de pages sont présentes sur le site.
  • URL : https://quotes.toscrape.com/
  • Méthode : Scraper les informations de pagination pour compter le nombre total de pages.

4. Nombre de citations sur Quotes to Scrape - Infinite Scroll

  • Objectif : Compter le nombre total de citations visibles via l'URL qui utilise le chargement dynamique.
  • URL : http://quotes.toscrape.com/scroll
  • Méthode : Gestion du chargement dynamique pour accéder à toutes les citations.

5. Première citation sur la page 10 de Quotes to Scrape

  • Objectif : Récupérer la première citation présente sur cette page spécifique.
  • URL : https://quotes.toscrape.com/js/page/10/
  • Méthode : Accéder directement à la page et scraper la première citation affichée.

6. Cinquième citation sur la page 5 de Quotes to Scrape

  • Objectif : Récupérer la cinquième citation sur la page mentionnée.
  • URL : http://quotes.toscrape.com/js-delayed/page/5/
  • Méthode : Gestion du délai de chargement pour accéder aux citations après le rendu complet de la page.

7. Tag le plus répétitif sur Quotes to Scrape - Tableful

  • Objectif : Identifier le tag qui apparaît le plus souvent sur cette page.
  • URL : http://quotes.toscrape.com/tableful/
  • Méthode : Scraper tous les tags disponibles et analyser leur fréquence d'apparition.

8. Citation d'Albert Einstein sur la musique via Quotes to Scrape - Filter

  • Objectif : Trouver la seule citation d'Albert Einstein qui mentionne la musique.
  • URL : http://quotes.toscrape.com/filter.aspx
  • Méthode : Utiliser le formulaire pour filtrer les résultats et récupérer la citation recherchée.

9. Temps estimé pour scraper le site Quotes to Scrape - Random

  • Objectif : Estimer le temps nécessaire pour scraper l'intégralité du contenu de ce site web aléatoire.
  • URL : http://quotes.toscrape.com/random
  • Méthode : Calculer un temps approximatif en fonction du nombre de pages et de citations à récupérer.

Technologies utilisées

  • Python
  • Bibliothèques : BeautifulSoup, requests, Selenium (pour la gestion des contenus dynamiques et authentification)
  • Gestion des données : Pandas

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages