Annonce

Réduire
Aucune annonce.

Extraire du texte sur une page Web

Réduire
X
 
  • Filtre
  • Heure
  • Afficher
Tout nettoyer
nouveaux messages

  • Extraire du texte sur une page Web

    une personne pour qui j'ai travaillé m'a posé une question auquel j'ai répondu "NON" après quelques secondes de réflexion, mais après coup j'ai eu un doute

    il m'a demandé si il était possible de concevoir un logiciel, pour extraire des données a partir d'une page web et de les sauvegarder sur un fichier texte.
    En gros il veut récupérer des adresse postale sur différente page web de façon automatisé pour par la suite les transférer sur un fichier excel ou un fichier texte.

    pour ma part ce n'est pas possible, car c'est uniquement du texte, comment faire pour sélectionner uniquement une adresse postale sur une page web ?

    vue que je ne maitrise pas du tout le développement, j'ai eu un doute après coup

    est ce que c'est réalisable, même si je pense que logiquement ce n'est pas possible ?

  • #2
    Salut,
    bien sûre que c'est possible !

    Voilà un exemple ici avec des explications --> http://www.laintimes.com/recuperer-l...-web-avec-php/

    Enjoy

    Commentaire


    • #3
      C'est possible et même déjà fait sous toutes les variantes

      C'est ce qu'on apelle des web crawlers, qui vont aller de page en page et récupérer ce qui les intéresse dans chacunes, à l'aide de système tel que les regex, qui serviront à reconnaitre telle ou telle forme (souvent les adresses mails et autres données intéressantes du type).

      Bonne soirée...
      Mon blog : http://rootsheep.info

      Commentaire


      • #4
        Pourquoi ça ne serait pas possible ? Bien sûr que ça l'est. Comme dit Sadik, via regex en PHP (ou autre) tu crawl la page et enregistre le tout dans un fichier texte en CSV. De là à parler de logiciel par contre... Parlons plutôt de petit script. Surtout si tu as déjà la page web. La recherche peut par exemple se porter sur le code postal (suite de 5 chiffres) et copier toute la ligne et uniquement cette ligne ; enfin faut voir la configuration de la page.
        sigpic

        Cyprium Download Link

        Plus j'étudie plus j'me rends compte que je n'sais rien.

        †|

        Commentaire


        • #5
          Extraire des adresse mail d'une page web, pas de problème, ça existe depuis bien longtemps, mais la c'est différent.

          @SAKAROV tel est la question, comment se présente la configuration de la page.

          concrètement il m'a donné une liste de site web (480 sites) et il veut extraire uniquement les adresses postales puis les transférer sur un document excel (c'est pour les commerciaux, pour la prospection)

          je vais me pencher sur la question, cibler une suite de 5 chiffres, même si j'ai peur de récupérer tout et n'importe quoi avec ce filtrage (numero de telephone, prix, id ,référence,etc...)



          [Edit: je pense que le framework scrapy peut répondre a cette demande]
          Dernière modification par pl3x, 13 avril 2015, 06h14.

          Commentaire


          • #6
            @pl3x,

            C'est en quelle langue que tu vas parler tout ça ?

            Pour ma part je ferais cela en 3 étapes
            1. Ouverture du site web et lecture de la page
            2. Parser la page à l'aide d'un binding de la librairie libxml2 et libxslt (en python par exemple, le module s'appelle lxml)
            3. Enregistrement des résultats dans un fichier texte compatible excel, via l'extension csv par exemple


            C'est très simple, en python cela se fait en ... disons, 20 minutes!

            Commentaire


            • #7
              @fred si toi ca te prend 20 minutes, moi je pense que ça va me prendre plusieurs jours

              je vais tester avec scrapy, c'est un framework écrit en python

              merci pour les précisions concernant les directives a prendre
              ( c'est mon gros problème en développement , j'ai énormément de mal a mettre en place une structure pour un projet, je ne sais jamais par ou commencer)

              Commentaire


              • #8
                N'hésites pas à poser des questions, scrapy est sympa effectivement

                Commentaire

                Chargement...
                X