Re: Détecteur de référencement
Olivier Masson <sisemen@laposte.net> wrote :
> Antoine a écrit :
>
>> Oui et pour cause, il y a le matraquage publicitaire qui va bien
>> en faveur de ces outils sur nombre de sites francophones
>> consacrés au référencement.
>>
>
> Forums qui appartiennent parfois à ceux qui créent ces mêmes
> outils.
Eh oui...
>> Et tu as bien sûr aussi fait "tourner" le user-agent ?
>
> Tu veux dire modifier le user-agent à chaque requête ? Non.
Si ; typiquement je m'étais créé un tableau d'une dizaine de UA
usuels (pris dans un bête log apache) et je tirais un UA de façon
aléatoire mais respectueuse des statistiques générales de
navigateurs (60% de IE et variantes, 30% de FF et consorts, 10% de
navigateurs exotiques).
> Je ne vois pas bien l'utilité du moment que ce dernier est
> correspond à un navigateur classique.
Evidemment il faut faire prendre à l'UA des valeurs réalistes (cf.
ci-dessus).
> Changer le UA alors que l'IP reste inchangée est un peu louche. Le
> mieux est l'ennemi du bien, dit-on.
Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui ont
un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du même
navigateur. C'est exactement le cas de la boîte qui m'emploie.
>> J'ai fait la même chose sauf que j'ai perdu le script. Si tu es
>> prêt à le diffuser, je suis preneur.
>>
>
> Etourdi !
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
> Non, je ne le diffuse pas : c'est sale
Pas de problème.
> Mais bon, tout n'est qu'enrobage de :
>
> preg_match('@<h2 class=r><a href="(.+)>(.+)</h2>@Uis',
> $this->divs[$a], $match // on veut $match[2]
(snip)
Merci pour les indications. Comme je suis à peu près nul en
expressions régulières, je me souviens que je m'étais farci le
traitement en strpos laborieux.
> Dans les divs[] :
> preg_match_all('@<div class=g(.*)>(.+)</div>@Uis', $this->content,
> $reg) // on prend les $reg[2][$i];
>
> Et le $content un bête file_get_contents précédé de header pour
> définir un bon UA (entre autres).
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
--
Antoine
|