Si vous cherchez comment cloner (aspirer) un site web en local, il existe des aspirateurs de sites internet.
Le plus connu s’appelle HTTACK il est open source et fonctionne bien.
C’est utile pour sauvegarder/archiver un site, faire un miroir (et le mettre à jour) ou bien lorsqu’il y a un besoin d’accéder à des contenus hors lignes.
Attention, il ne sauvegarde que le contenu visible d’un site web (HTML/CSS et images) donc évidemment pas de code server-side ni de backend.
La sauvegarde peut prendre du temps en fonction de votre connexion internet.
Sur les distributions basés sur debian on l’installe via
apt-get install httrack
Après pour faire le faire fonctionner la syntaxe est:
httrack -w nomdusite.com
Assez simple non ?
J’ai fait rapidement un petit script bash qui permet d’aspirer, archiver et compresser un site.
#!/bin/bash
## Aspirateurs de site HTTRACK - M4t.xyz
path="/root/httrack" #Chemin de destination
projet=$1
compression=1 # 1 = activé ; 0 = désactivé
if [ $# -eq 0 ]
then
echo "Nom du site en argument SVP"
exit 1
fi
httrack -w $projet -O $path/$projet -F "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1)"
#le -F permet de changer d'user-agent afin d'éviter les bans...
if (( $compression == 1 )); then
tar -czf $path/$projet.tar.gz $path/$projet && rm -R $path/$projet
fi
Il existe bien sûr une version pour Windows (WinHttrack)
Bref, utile pour sauver des petits bouts de web (blogs,…).