PHWinfo banniere

Titres
PORTAIL ANNUAIRE ARTICLES COMPARATEUR HÉBERGEURS DEVIS FORUMS RÉDUCTEUR D'URL
Précédent   PHWinfo > Autres forums > Forum Programmation & Conception > fr.comp.lang.php > parser un page HTML
S'inscrire FAQ Membres Recherche Messages du jour Marquer les forums comme lus
parser un page HTML

Réponse
 
LinkBack Outils de la discussion
Vieux 30/07/2007, 17h44   #1
Etienne SOBOLE
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut parser un page HTML

Salut j'ai besoin de récuperer l'arborescence du page HTML.
donc il faudrait que je la transforme en un XML valide.
etes-ce que quelqu'un a une idée de comment faire ca???

merci.
Etienne
  Réponse avec citation
Vieux 30/07/2007, 19h06   #2
Jean-Francois Ortolo
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: parser un page HTML

Etienne SOBOLE wrote:
> Salut j'ai besoin de récuperer l'arborescence du page HTML.
> donc il faudrait que je la transforme en un XML valide.
> etes-ce que quelqu'un a une idée de comment faire ca???
>
> merci.
> Etienne



Bonjour Monsieur

Je suis désolé de vous mettre l'eau à la bouche.

J'ai programmé pour les besoins de mon site ( voir signature ), une
librairie de parsing HTML, dont les apis sont strictement équivalentes à
celles de la librairie native XML sous PHP, mais sans erreurs à
l'exécution, quis seraient dues à des mauvais formattages xml ou html.

Quand on y pense, la programmation de cette librairie est évidente,
puisqu'il suffit de traiter au fur et à mesure, des portions de chaînes
de caractères, de les concaténer, d'en extraire ce qui est entre les
balises, à l'intérieur des balises et tutti quanti...

A la rigueur, je pourrais si je voulais, la laisser sur mon site sous
license GPL, mais j'ai tellement peur que l'on se l'approprie pour après
me faire des misères ( je suis un peu parano ), que je ne veux pas le
faire. J'ai donc décidé de garder la connaissance et l'exclusivité de ma
librairie.

Cependant, compte tenu du fait qu'en Informatique, tout est déjà fait
( en mieux ), vous devriez pouvoir trouver une telle librairie
facilement sur Google, gratuite et license GPL... Vous pariez combien ?

Rien que sur Framasoft, je vous fiche mon billet que vous ne mettrez
pas plus de 3 minutes, pour trouver votre bonheur.

Bien à vous.

Amicalement.

Jean-François Ortolo

--
Visitez mon site gratuit donnant des Statistiques
et des Historiques Graphiques sur les Courses de Chevaux:
http://www.ortolojf-courses.com
  Réponse avec citation
Vieux 30/07/2007, 20h32   #3
Denis Beauregard
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: parser un page HTML

Le 30 Jul 2007 16:44:10 GMT, "Etienne SOBOLE" <etienne@trash.com>
écrivait dans fr.comp.lang.php:

>Salut j'ai besoin de récuperer l'arborescence du page HTML.
>donc il faudrait que je la transforme en un XML valide.
>etes-ce que quelqu'un a une idée de comment faire ca???


Parlez-vous de l'arborescence des balises ou des pages ?

Dans le 1er cas, on a 2 situations : HTML valide ou non.

Si on prend pour acquis que le HTML est valide, il suffit
de regarder les balises au fur et à mesure et d'avancer ou
reculer d'un pas dans la hiérarchie en notant dans un tableau
ce qui est ouvert.

Par exemple : <head> on monte de 1 et on note que le niveau
courant est un <head>. </head> on vérifie si le niveau courant
est bien un <head> et on descend de 1.

Comme sortie, cela dépend de ce que vous voulez. Par exemple,
un tableau en 2 colonnes, la 1re étant la pile au complet et
la 2e, ce qui suit la balise courante.

Ceci dit, quel est le but ? Il doit bien y avoir des outils qui
font déjà ce que vous voulez. Par exemple, il suffit de trouver
le source de n'importe quel navigateur, mais là, on n'est plus en
PHP du tout. Au fait, pourquoi poser la question dans un forum
dédié au PHP ?

Si vous disiez ce que vous voulez faire, peut-être que quelqu'un
pourrait suggérer un outil existant.


Denis
  Réponse avec citation
Vieux 31/07/2007, 08h38   #4
Etienne SOBOLE
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: parser un page HTML

> Si vous disiez ce que vous voulez faire, peut-être que quelqu'un
> pourrait suggérer un outil existant.


bien c'est assez simple!
je cherche a isoler une partie d'une page en fonction de son id.

en gros on suppose qu'a un endroit dans ma page web j'ai
<xx id='toto'>
...
...
</xx>

je souhaite récupérer le contenu de l'arborescence a partir de cette balise
!

Etienne
  Réponse avec citation
Vieux 31/07/2007, 16h52   #5
Thief13
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: parser un page HTML

Etienne SOBOLE a écrit :
> Salut j'ai besoin de récuperer l'arborescence du page HTML.
> donc il faudrait que je la transforme en un XML valide.



Si c'est du xHTML valide, étant donné que le xHTML est du XML, toute les
fonction de parsing XML de php marcheront (PHP DOM, phpsimplexml, sax...)
  Réponse avec citation
Vieux 31/07/2007, 16h52   #6
xav
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: parser un page HTML

Etienne SOBOLE a écrit :

> bien c'est assez simple!
> je cherche a isoler une partie d'une page en fonction de son id.
>
> en gros on suppose qu'a un endroit dans ma page web j'ai
> <xx id='toto'>
> ...
> ...
> </xx>
>
> je souhaite récupérer le contenu de l'arborescence a partir de cette balise
> !


Salut,
pour être sur de la validité syntaxique du html à analyser, il faut
passer par un outil comme Tidy , tu peut éventuellement passer le html
source par un outil genre HTMLPurifier ( http://htmlpurifier.org/ ) ,
une fois cela effectué, tu auras du xhtml propre, tu peut ensuite
utiliser du xpath dessus pour récupérer le morceau d'arbo que tu veux.


my 2 cents

Xavier
  Réponse avec citation
Vieux 01/08/2007, 17h24   #7
Rakotomandimby (R12y) Mihamina
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: parser un page HTML

xav - <46af093d$0$25931$ba4acef3@news.orange.fr> :

> pour être sur de la validité syntaxique du html à analyser


Je ne comprends pas pourquoi lui proposer ça.
A la limite, une recherche par expressions regulières de la chaine
id="toto"
puis ensuite de
</>
devrait suffire.

Non?

--
"C'est très facile d'avoir des idées de partage quand on n'a rien."
PatriceKARATCHENTZEFF
  Réponse avec citation
Vieux 02/08/2007, 10h39   #8
Etienne SOBOLE
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: parser un page HTML

> id="toto"
> puis ensuite de
> </>
> devrait suffire.


Ben non pas vraiment j'ai pas dit qu'il n'y avait pas d'autres balises au
milieu de ce que je cherche.
mais finalement, j'ai installe Tidy 2.0 c'est tres bien... ca marche nickel.

Etienne
  Réponse avec citation
Réponse


Outils de la discussion

Règles de messages
Vous ne pouvez pas créer de nouvelles discussions
Vous ne pouvez pas envoyer des réponses
Vous ne pouvez pas envoyer des pièces jointes
Vous ne pouvez pas modifier vos messages

Les balises BB sont activées : oui
Les smileys sont activés : oui
La balise [IMG] est activée : oui
Le code HTML peut être employé : non
Trackbacks are oui
Pingbacks are oui
Refbacks are oui


Fuseau horaire GMT +1. Il est actuellement 07h35.


Édité par : vBulletin® version 3.7.2
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.2.0 RC5 Tous droits réservés.
Version française #16 par l'association vBulletin francophone
PHWinfo est un site Éducation Sans Frontières
Ad Management by RedTyger
©Tous droits réservés par les parties respectives
Page generated in 0,12078 seconds with 16 queries