PHWinfo banniere

Titres
PORTAIL ANNUAIRE ARTICLES COMPARATEUR HÉBERGEURS DEVIS FORUMS RÉDUCTEUR D'URL
Précédent   PHWinfo > Forums Hébergement > Forum Noms de domaine > fr.comp.reseaux.ip > validité d'url (d'après wget)
S'inscrire FAQ Membres Recherche Messages du jour Marquer les forums comme lus
fr.comp.reseaux.ip IP : Discussions techniques, protocoles connexes.

validité d'url (d'après wget)

Réponse
 
LinkBack Outils de la discussion
Vieux 09/09/2005, 00h55   #1
christophe Raverdy
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut validité d'url (d'après wget)


  Réponse avec citation
Vieux 09/09/2005, 14h46   #2
Jacques Caron
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: validité d'url (d'après wget)

Salut,

On Fri, 09 Sep 2005 01:55:18 +0200, christophe Raverdy
<craverdy@kyoto.honshu.jp.invalid> wrote:

> Globalement, je suis satisfait de l'exécution sauf lorsque l'url est une
> url google


Quel type d'URL Google?

> Au bout d'un loooong moment il y a rejet (403), par contre, en rédigeant
> je me demande (mais il est tard) si le rejet ne vient pas au bout de X
> requêtes envoyées trop proches les unes des autres.


Il y a ce genre de filtres au moins sur les pages Adwords de Google, je ne
sais pas si c'est le cas sur l'ensemble du service. Mais la dernière fois
que j'ai essayé il me semble que la réponse 403 était assez rapide.
Maintenant, ça leur permettrait effectivement de ralentir la cadence de
force :-)

> Puis-je me faciliter le traitement en utilisant par exemple un timeout
> de 15 secondes pour chacune de ces options ?


Il faut plutôt mettre une petite pause entre deux appels...

Jacques.
  Réponse avec citation
Vieux 09/09/2005, 19h16   #3
Mathieu Goutelle
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: validité d'url (d'après wget)

Bonsoir,

christophe Raverdy <craverdy@kyoto.honshu.jp.invalid> a écrit :

> J'ai réussi à faire un programme en C qui lit un ensemble de
> documents, détecte pour chacun les url et vérifie leur état.
>
> L'essentiel du travail se fait ici : "wget --spider -S -T 5 -t 1 %s"
>
> Globalement, je suis satisfait de l'exécution sauf lorsque l'url est
> une url google


Je crois bien que Google n'aime pas bien les trucs genre "wget" :
j'avais eu le même genre de problème lorsque je faisais des scripts
pour aller chercher des articles sur Google Groups. Le truc est
d'ajouter un '-U Mozilla' pour déguiser le User Agent.

[Peut-être faut-il rediriger mais je ne sais pas où. À vous de voir, si
la discussion se poursuit...]

Cordialement,
--
Q: Connaissez-vous la différence entre l'ignorance et l'apathie ?
R: J'en sais rien et je m'en fous.
Mathieu Goutelle - <URL:http://webperso.easyconnect.fr/goutelle>
  Réponse avec citation
Vieux 10/09/2005, 13h22   #4
christophe Raverdy
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: validité d'url (d'après wget)

Mathieu Goutelle a écrit:

> [Peut-être faut-il rediriger mais je ne sais pas où. À vous de voir, si
> la discussion se poursuit...]


A voir, je suis preneur de toute suggestion.

En continuant, je vois que la routine fonctionne correctement, par contreil
m'arrive de tomber sur une couille :

Ici, tout se passe bien...
================================================== ==========================
je recherche des url sur fr.loisirs.bd-1125654179.279257-calva.glou.org
- http://www.arpla.univ-paris8.fr/frab : Etat = inconnu
- http://www.deja.com/group/fr.rec.arts.bd : Etat = 302 (Moved Temporarily)
- http://animint.uru.org/internet/FAQ.html : Etat = 301 (Moved Permanently)
- http://www.undernet.org/ : Etat = 200 (OK)
- http://www.undernet.org/servers.html : Etat = 403 (Forbidden)
- http://www.contact.net/memtroni/ : Etat = 404 (Not Found)
- http://perso.wanadoo.fr/atelier.510/ : Etat = 200 (OK)


Mais là, la restitution dégénère
================================================== ==========================

http://satwww.epfl.ch/Manu/manifestation.asp?passee=0
=> `manifestation.asp?passee=0'
Résolution de satwww.epfl.ch... 128.178.9.64
Connexion vers satwww.epfl.ch[128.178.9.64]:80...connecté.
requête HTTP transmise, en attente de la réponse...
1 HTTP/1.1 404 Not Found
2 Date: Sat, 10 Sep 2005 11:37:08 GMT
3 Server: Apache/2
4 Vary: accept-language,accept-charset
5 Accept-Ranges: bytes
6 Keep-Alive: timeout=15, max=100
7 Connection: Keep-Alive
8 Content-Type: text/html; charset=iso-8859-1
9 Content-Language: en
10 Expires: Sat, 10 Sep 2005 11:37:08 GMT
13:37:08 ERREUR 404: Not Found.
================================================== ==========================

De plus, la sortie ne peut se faire qu'en tuant le processus. (absence de
"fin de ligne" ?)

Quelqu'un a-t-il une explication sur ce comportement ?

La solution passe-t-elle par

http://www.unixtech.be/docs/php-fr/ref.sockets.html ?

--
Avertissement : certains passages de ce texte sont susceptibles de heurter
la sensibilité de nos lecteurs les plus romantiques.
  Réponse avec citation
Vieux 10/09/2005, 17h39   #5
christophe Raverdy
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut [RESOLUR ?]Re: validité d'url (d'après wget)

christophe Raverdy a écrit:

> De plus, la sortie ne peut se faire qu'en tuant le processus. (absence de
> "fin de ligne" ?)
> Quelqu'un a-t-il une explication sur ce comportement ?
> La solution passe-t-elle par
> http://www.unixtech.be/docs/php-fr/ref.sockets.html ?


Bon, je suis passé de "wget --spider -S -T 5 -t 1 %s 2>&1"
à "HEAD -t 4s %s HTTP/1.0 \r 2>&1"

Par contre, c'est beaucoup plus lent. Avez vous une explication ?
(je reste preneur si un autre groupe est plus adapté)

--
Avertissement : certains passages de ce texte sont susceptibles de heurter
la sensibilité de nos lecteurs les plus romantiques.
  Réponse avec citation
Réponse


Outils de la discussion

Règles de messages
Vous ne pouvez pas créer de nouvelles discussions
Vous ne pouvez pas envoyer des réponses
Vous ne pouvez pas envoyer des pièces jointes
Vous ne pouvez pas modifier vos messages

Les balises BB sont activées : oui
Les smileys sont activés : oui
La balise [IMG] est activée : oui
Le code HTML peut être employé : non
Trackbacks are oui
Pingbacks are oui
Refbacks are oui


Fuseau horaire GMT +1. Il est actuellement 22h45.


Édité par : vBulletin® version 3.7.3
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.2.0 RC5 Tous droits réservés.
Version française #16 par l'association vBulletin francophone
PHWinfo est un site Éducation Sans Frontières ©2000-2008
Ad Management by RedTyger
©Tous droits réservés par les parties respectives
Page generated in 0,12385 seconds with 13 queries