Cloner un site web

Si vous cherchez comment cloner (aspirer) un site web en local, il existe des aspirateurs de sites internet.

Le plus connu s’appelle HTTACK il est open source et fonctionne bien.

C’est utile pour sauvegarder/archiver un site, faire un miroir (et le mettre à jour) ou bien lorsqu’il y a un besoin d’accéder à des contenus hors lignes.

Attention, il ne sauvegarde que le contenu visible d’un site web (HTML/CSS et images) donc évidemment pas de code server-side ni de backend.

La sauvegarde peut prendre du temps en fonction de votre connexion internet.

Sur les distributions basés sur debian on l’installe via

apt-get install httrack

Après pour faire le faire fonctionner la syntaxe est:

httrack -w nomdusite.com

Assez simple non ?

J’ai fait rapidement un petit script bash qui permet d’aspirer, archiver et compresser un site.

#!/bin/bash
## Aspirateurs de site HTTRACK - M4t.xyz
path="/root/httrack" #Chemin de destination
projet=$1
compression=1 # 1 = activé ; 0 = désactivé

if [ $# -eq 0 ]
  then
    echo "Nom du site en argument SVP"
    exit 1
fi

httrack -w $projet -O $path/$projet -F "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1)" 
#le -F permet de changer d'user-agent afin d'éviter les bans...

if (( $compression == 1 )); then
        tar -czf $path/$projet.tar.gz $path/$projet && rm -R $path/$projet
fi

Il existe bien sûr une version pour Windows (WinHttrack)

Bref, utile pour sauver des petits bouts de web (blogs,…).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *