|
|
|
|
||||||
| fr.comp.os.linux.config Prise en main d'un système Linux. |
![]() |
|
|
LinkBack | Outils de la discussion |
|
|
#1 |
|
Messages: n/a
Hébergeur: |
bonjour,
J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site). Le problème c'est que je n'ai pas les resources du type pdf en local, car c'est du javascript. Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages html du site préalablement aspiré contenant l'extention pdf pour me faire un script et aspirer ces resources manquantes. si je fait : grep -i ".pdf" * -R je retrouve toutes les lignes qui contiennent l'extention pdf. Comment extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande grep de ses lignes? Je pensais faire un pipe avec des expressions réguliaire mais je suis nul avec les expressions réguliaires ![]() C'est une bonne idée?? Merci de vos éventuelles solutions solutions (je ne veux pas tout le script) Stéphane |
|
|
|
#2 |
|
Messages: n/a
Hébergeur: |
Le 11 novembre 2006 à 11:18, tatane vraute :
> Merci de vos éventuelles solutions solutions (je ne veux pas tout le > script) Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait mieux s'y retrouver avec les documents appelés par du javascript (et même du java si je me souviens bien). En tout cas c'est un outil qui sert à ça. -- Sébastien Kirche |
|
|
|
#3 |
|
Messages: n/a
Hébergeur: |
tatane wrote:
> bonjour, > > J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site). > Le problème c'est que je n'ai pas les resources du type pdf en local, car > c'est du javascript. > > Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages > html du site préalablement aspiré contenant l'extention pdf pour me faire > un script et aspirer ces resources manquantes. > > si je fait : > grep -i ".pdf" * -R > > je retrouve toutes les lignes qui contiennent l'extention pdf. Comment > extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande > grep de ses lignes? genre : $ grep -i ".pdf" * -R | tr '"\'' '\n' | grep -i '.pdf' Michel. |
|
|
|
#4 |
|
Messages: n/a
Hébergeur: |
Le Sat, 11 Nov 2006 12:19:17 +0100, Sébastien Kirche a écrit:
> Le 11 novembre 2006 à 11:18, tatane vraute : > >> Merci de vos éventuelles solutions solutions (je ne veux pas tout le >> script) > > Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait > mieux s'y retrouver avec les documents appelés par du javascript (et > même du java si je me souviens bien). En tout cas c'est un outil qui > sert à ça. Merci, c'est génial comme logiciel je connaissais pas! |
|
![]() |
| Outils de la discussion | |
|
|