Mihamina Rakotomandimby a écrit :
> 1) Je suppose de toutes façon que ça existe, mais mon but est d'avoir un
> rapport de la forme que je veux, je dois donc le faire moi meme.
>
Ca n'existe pas tant que ça. Tu peux toujours filer ton pognon aux
quelques boites qui vendent un tel outil très cher et par abonnement à
l'année. Mais comme tous leurs utilisateurs sont contents, tant mieux.
> 2) Vous sauriez quels principes utilisent ce genre d'outils si vous en
> connaissez? Je veux dire essentiellement, moi, je me vois parser la page
> retournée par le moteur de recherche. C'est peut-être la mauvaise
> solution...
>
Il n'y a pas d'autres solutions.
Google et Yahoo ont leur API (je donne l'adresse pour la clef google cat
pas toujours facile à trouver :
http://code.google.com/apis/base/signup.html) mais les résultats ne
correspondent pas aux résultats réels, donc je ne sais pas trop à quoi
ça sert.
J'utilisais un petit soft (GoogleMon) qui utilise l'API Google : les
résultats sont là mais mes clients ne trouvant pas les mêmes, c'était
problématique.
Donc j'ai crée mon truc, tout sale et, bien entendu, contraire aux
règles d'utilisation Google qui ne souhaite pas que l'on parse
automatiquement ses résultats. Ca marche très bien.
> 3) Des conseils?... 
>
Quelque soit la technique (DOM ou simples regexp), il faut surtout faire
remonter les erreurs car le moteur peut changer son code quand ça lui
chante. Pour l'instant, ça ne m'est pas arrivé avec Google depuis
plusieurs mois.
Si tu as 100 sites à vérifier avec 50 requêtes pour chacun sur 20 pages
de résultats, soit ça te prend des heures, soit ton IP est bannie
(temporairement) par Google.
Pour ma part, j'ai mis un sleep aléatoire (je suis parano, j'imagine
qu'ils regardent si les requêtes sont trop régulières) entre chaque
demande et je colle au maximum avec une requête humaine (par ex. je ne
fais pas une demande d'une page contenant 100 résultats, mais bien 10
pages de 10 résultats.)
Tout cela est donc empirique, mais ça fonctionne jusqu'à maintenant.
> PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
> mais qui me permettrai de faire des requetes "comme si" on la faisait
> d'un certain pays? Comment en trouver (des proxies).
>
Ca c'est pas dur, mais je ne connais pas de solutions légales :/
On ne peut pas se restreindre à un pays avec Tor par hasard ?