PHWinfo banniere

Titres
PORTAIL ANNUAIRE ARTICLES COMPARATEUR HÉBERGEURS DEVIS FORUMS RÉDUCTEUR D'URL
Précédent   PHWinfo > Forums Hébergement > Forum Serveur - Sécurité et techniques > fr.comp.os.linux.config > Sript bash, un peud'aide... expressions réguliares?
S'inscrire FAQ Membres Recherche Messages du jour Marquer les forums comme lus
fr.comp.os.linux.config Prise en main d'un système Linux.

Sript bash, un peud'aide... expressions réguliares?

Réponse
 
LinkBack Outils de la discussion
Vieux 11/11/2006, 10h18   #1
tatane
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Sript bash, un peud'aide... expressions réguliares?

bonjour,

J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
Le problème c'est que je n'ai pas les resources du type pdf en local, car
c'est du javascript.

Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
html du site préalablement aspiré contenant l'extention pdf pour me faire
un script et aspirer ces resources manquantes.

si je fait :
grep -i ".pdf" * -R

je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
grep de ses lignes?

Je pensais faire un pipe avec des expressions réguliaire mais je suis nul
avec les expressions réguliaires
C'est une bonne idée??

Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)

Stéphane
  Réponse avec citation
Vieux 11/11/2006, 11h19   #2
Sébastien Kirche
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: Sript bash, un peu d'aide... expressions réguliares?

Le 11 novembre 2006 à 11:18, tatane vraute :

> Merci de vos éventuelles solutions solutions (je ne veux pas tout le
> script)


Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
mieux s'y retrouver avec les documents appelés par du javascript (et
même du java si je me souviens bien). En tout cas c'est un outil qui
sert à ça.
--
Sébastien Kirche
  Réponse avec citation
Vieux 11/11/2006, 14h04   #3
Michel Tatoute
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: Sript bash, un peu d'aide... expressions réguliares?

tatane wrote:

> bonjour,
>
> J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
> Le problème c'est que je n'ai pas les resources du type pdf en local, car
> c'est du javascript.
>
> Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
> html du site préalablement aspiré contenant l'extention pdf pour me faire
> un script et aspirer ces resources manquantes.
>
> si je fait :
> grep -i ".pdf" * -R
>
> je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
> extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
> grep de ses lignes?


genre :
$ grep -i ".pdf" * -R | tr '"\'' '\n' | grep -i '.pdf'

Michel.
  Réponse avec citation
Vieux 12/11/2006, 12h27   #4
tatane
Aucun Avatar
 
Messages: n/a
Hébergeur:
Par défaut Re: Sript bash, un peud'aide... expressions réguliares?

Le Sat, 11 Nov 2006 12:19:17 +0100, Sébastien Kirche a écrit:

> Le 11 novembre 2006 à 11:18, tatane vraute :
>
>> Merci de vos éventuelles solutions solutions (je ne veux pas tout le
>> script)

>
> Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
> mieux s'y retrouver avec les documents appelés par du javascript (et
> même du java si je me souviens bien). En tout cas c'est un outil qui
> sert à ça.


Merci, c'est génial comme logiciel je connaissais pas!
  Réponse avec citation
Réponse


Outils de la discussion

Règles de messages
Vous ne pouvez pas créer de nouvelles discussions
Vous ne pouvez pas envoyer des réponses
Vous ne pouvez pas envoyer des pièces jointes
Vous ne pouvez pas modifier vos messages

Les balises BB sont activées : oui
Les smileys sont activés : oui
La balise [IMG] est activée : oui
Le code HTML peut être employé : non
Trackbacks are oui
Pingbacks are oui
Refbacks are oui


Fuseau horaire GMT +1. Il est actuellement 05h28.


Édité par : vBulletin® version 3.7.3
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.2.0 RC5 Tous droits réservés.
Version française #16 par l'association vBulletin francophone
PHWinfo est un site Éducation Sans Frontières ©2000-2008
Ad Management by RedTyger
©Tous droits réservés par les parties respectives
Page generated in 0,10475 seconds with 12 queries