Annonce

**Twux** · 07 octobre 2015, 09h43

joli est facile à comprendre , codé proprement

**Anonyme77** · 09 octobre 2015, 22h17

Super tuto Dreamus, comme toujours

J'ajouterai juste que dans le cas du parsing de pages Web (un de mes grands dada, j'ai d'ailleurs un projet très intéressant à ce sujet sur le feu), le langage xPath est aussi très utile.

Il permet de récupérer directement les parties intéressantes d'une forme de page Web spécifique.
On peut ainsi faire un parser pour Twitter ou autres. Il suffit d'utiliser un moteur de récupération du code html puis de, dépendant de l'URL, le fournir à un parser générique ou plus particulier.

Je pense d'ailleurs que beautifull soup permet d'utiliser xPath.

**DreAmuS** · 10 octobre 2015, 10h02

Merci pour les remerciements, c'est très gentil de votre part twux et anonyme77.

Par contre Beautiful soup ne comporte pas de fonction Xpath, il a un intermédiaire appeler findnext.

Il faut aller chercher du côté de lxmlqui a déjà été traiter par Fred et qui possède la fonction xpathgrep. Je vous laisse regarder la documentation détaillé sur cette librairie aux multiples fonctions.

Pour faire simple, on appelle la fonction à l'aide de :

Code:

from lxml import etree

On a donc introduit notre librairie lxml et importé de chez elle etree qui contient : XPath et XSLT.

La méthode est également simple :

xpath va lancer des requêtes sur le chemin absolu ou relatif, ainsi on pourra travailler sur ses deux possibilités de la racine à l'intérieur de l'arbre (tree en anglais) d'où le terme etree.xpath (path pour le chemin emprunté) qui a pour méthode XPath ().

En bref,XPATH correspond à un chemin permettant d'accéder à une donnée bien précise (nœud). Il peut être assimilé à un chemin de fichier complet dans Linux,Windows ou tout autre OS ou application.

Donc ce n'est pas réservé simplement au langage web.

Code:

xml_file = etree.parse("./page.xml") #connexion au fichier XML

Le terme parse ou parser signifie dans le milieu informatique manipuler des fichiers, les identifier, les recencer,...
Une fois connecté au fichier XML, tel que vu précédemment,nous pouvons naviguer au sein des données grâce au XPATH. Nous le ferons grâce à un FOR :
Une fois dans la boucle, nous utilisons alors la méthode xpath afin de récupérer les informations qui nous intéressent.

Code:

for balise in xml_file.xpath("/page2/profil"):
    nom = balise.xpath("nom")
    print (nom[0].text)

Voici un tableau avec les principales méthodes à savoir pour utiliser correctement lxml mais surtout parser une page web.

Méthodes	Utilité
.items()	Récupère la liste des attributs
.text	Récupère le texte du nœud visé
.tag	Récupère le nom de la balise, du nœud
.get("attribut")	Récupère la valeur de l'attribut passé en paramètre

Il existe en C des fonctions aussi, ou alors le fameux logiciel R qui permet également d'extraire les informations d'une page.

Pour finir, le but de cet article était pour vous démontrer la facilité pour un programmeur débutant d'avoir accès aux données d'un site ou d'une page web avec peu de moyens : un pc, un OS, un accès internet et quelques connaissances en langage informatique.

Vous voyez également que la connaissance en HTML, XML voit tout son intérêt dans cette partie, comme quoi il n'est pas à négliger tout langage qui permet de faire tourner une application.

Petit mot de la fin :
L'unique point faible de python reste sa rapidité d'exécution qui dépend directement de la machine hôte. Il faut alors y coupler des modules en C, avec lesquels Python s'interfacera sans aucun soucis, étant lui même codé en C. On utilisera pour cela le module CYTHON. Et si je traduit mot à mot l'entrée de lxml.etree on a :

Depuis la version 1.1, lxml.etree fournit une API C public. Cela permet des extensions C externes d'accéder efficacement des fonctions et des classes de lxml publics, sans passer par l'API Python.

L'API est décrite dans le fichier etreepublic.pxd, qui est directement c-importable par des modules d'extension mis en œuvre en Pyrex ou Cython.

Effectivement, lxml permet donc de travailler plus rapidement que Beautiful, cependant comme je suis un adepte de ce module depuis longtemps, je pense que je continuerais de l'utiliser.

Ce qui conclura ce chapitre. Merci de l'attention que vous apporter à cet article.

**dramslinux** · 15 novembre 2015, 08h13

avec beautifulsoup c'est vrai que ça facilite mais ça fonctionne qu'avec du code HTML pure et propre alors qu'on en trouve rarement sur le net, les dev web font de leur mieux pour coder toujours vite donc soucis de code propre
de ce fait j, je lisais un article de Korben http://korben.info/extraire-donnee-pages-web.html pensant enfin profiter de cette librairie pour tout type de traitement en partant d'un simple scraping a un script plus riche de crawl j'ai été décue de savoir qu'il n'y avait pas de version de de Scrapy sous python 3.4
donc si quelqu'un a un moyen de le faire fonctionner, ça aidera beaucoup de personnes comme moi

**fred** · 15 novembre 2015, 09h57

Je sais que Fred sera réticent, c'est normal, chacun a leurs préférences, personnellement j'utilise le module sur le moment. Mais Beautiful a cette chance d'avoir depuis 2004 été de sauver par les programmeurs.

Je ne suis pas réticent à ce module

Je ne l'utilise tout simplement pas, car je ne le trouve pas optimisé, sinon il est bien !

**micho** · 12 décembre 2015, 20h40

En espérant cela vous a plu.[/QUOTE]

Oui beaucoup merci mais je débute et ai un peu de mal pour appliquer:
Concrètement je voudrai simplement extraire des données à partir de la page: "http://www.serenitystocks.com/stock/us/cat"
par exemple: Defensive Price (Graham Number): $64.55

j'ai réussi l'exercice de Fred avec les Beatles: magique le résultat final!
Mais avec le code:
tree = html.fromstring(data)
print(tree)
me rend quelquechose de plus que propre...
retour:<Element html at 0x31a01b0>
difficile de trouver des balises avec ça sur un autre site!
Merci de m'aider à progresser

**seco** · 07 février 2018, 10h26

Bon exemple, mais BeautifulSoup ne peut pas gratter le contenu Ajax et JavaScript.
Vous devriez utiliser Selenium pour gratter JavaScript.
Comme des exemples ici:

Annonce

Web Scraping is Beautiful

Web Scraping is Beautiful

Commentaire

Commentaire

Commentaire

Commentaire

Commentaire

Commentaire

Commentaire