Si vous cherchez comment cloner (aspirer) un site web en local, il existe des aspirateurs de sites internet.
Le plus connu s’appelle HTTACK il est open source et fonctionne bien.
C’est utile pour sauvegarder/archiver un site, faire un miroir (et le mettre à jour) ou bien lorsqu’il y a un besoin d’accéder à des contenus hors lignes.
Attention, il ne sauvegarde que le contenu visible d’un site web (HTML/CSS et images) donc évidemment pas de code server-side ni de backend.
La sauvegarde peut prendre du temps en fonction de votre connexion internet.
Sur les distributions basés sur debian on l’installe via
apt-get install httrack
Après pour faire le faire fonctionner la syntaxe est:
httrack -w nomdusite.com
Assez simple non ?
J’ai fait rapidement un petit script bash qui permet d’aspirer, archiver et compresser un site.
#!/bin/bash ## Aspirateurs de site HTTRACK - M4t.xyz path="/root/httrack" #Chemin de destination projet=$1 compression=1 # 1 = activé ; 0 = désactivé if [ $# -eq 0 ] then echo "Nom du site en argument SVP" exit 1 fi httrack -w $projet -O $path/$projet -F "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1)" #le -F permet de changer d'user-agent afin d'éviter les bans... if (( $compression == 1 )); then tar -czf $path/$projet.tar.gz $path/$projet && rm -R $path/$projet fi
Il existe bien sûr une version pour Windows (WinHttrack)
Bref, utile pour sauver des petits bouts de web (blogs,…).