cloner page web

Si vous cherchez comment cloner (aspirer) un site web en local, il existe des aspirateurs de sites internet.

Le plus connu s’appelle HTTrack il est open source et fonctionne bien.

C’est utile pour sauvegarder/archiver un site, faire un miroir (et le mettre à jour) ou bien lorsqu’il y a un besoin d’accéder à des contenus hors ligne.

Attention, il ne sauvegarde que le contenu visible d’un site web (HTML/CSS et images) donc évidemment pas de code server-side ni de backend.

La sauvegarde peut prendre du temps en fonction de votre connexion internet.

Sur les distributions basées sur Debian on l’installe via

apt-get install httrack

Ensuite, pour le faire fonctionner, la syntaxe est :

httrack -w nomdusite.com

Assez simple, non ?

J’ai fait rapidement un petit script bash qui permet d’aspirer, archiver et compresser un site.

#!/bin/bash
## Aspirateur de site HTTRACK - M4t.xyz
path="/root/httrack" #Chemin de destination
projet=$1
compression=1 # 1 = activé ; 0 = désactivé

if [ $# -eq 0 ]
  then
    echo "Nom du site en argument SVP"
    exit 1
fi

httrack -w $projet -O $path/$projet -F "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1)" 
#le -F permet de changer d'user-agent afin d'éviter les bans...

if (( $compression == 1 )); then
        tar -czf $path/$projet.tar.gz $path/$projet && rm -R $path/$projet
fi

Il existe bien sûr une version pour Windows (WinHTTrack)

Bref, utile pour sauver des petits bouts de web (blogs, …).

M4T xyz

Le savoir n'est jamais trop

Étiquette : cloner page web

Cloner un site web