Si vous cherchez comment cloner (aspirer) un site web en local, il existe des aspirateurs de sites internet.
Le plus connu s’appelle HTTrack il est open source et fonctionne bien.
C’est utile pour sauvegarder/archiver un site, faire un miroir (et le mettre à jour) ou bien lorsqu’il y a un besoin d’accéder à des contenus hors ligne.
Attention, il ne sauvegarde que le contenu visible d’un site web (HTML/CSS et images) donc évidemment pas de code server-side ni de backend.
La sauvegarde peut prendre du temps en fonction de votre connexion internet.
Sur les distributions basées sur Debian on l’installe via
apt-get install httrack
Ensuite, pour le faire fonctionner, la syntaxe est :
httrack -w nomdusite.com
Assez simple, non ?
J’ai fait rapidement un petit script bash qui permet d’aspirer, archiver et compresser un site.
#!/bin/bash
## Aspirateur de site HTTRACK - M4t.xyz
path="/root/httrack" #Chemin de destination
projet=$1
compression=1 # 1 = activé ; 0 = désactivé
if [ $# -eq 0 ]
then
echo "Nom du site en argument SVP"
exit 1
fi
httrack -w $projet -O $path/$projet -F "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1)"
#le -F permet de changer d'user-agent afin d'éviter les bans...
if (( $compression == 1 )); then
tar -czf $path/$projet.tar.gz $path/$projet && rm -R $path/$projet
fi
Il existe bien sûr une version pour Windows (WinHTTrack)
Bref, utile pour sauver des petits bouts de web (blogs, …).