Si vous cherchez comment cloner (aspirer) un site web en local, il existe des aspirateurs de sites internet.

Le plus connu s’appelle HTTACK il est open source et fonctionne bien.

C’est utile pour sauvegarder/archiver un site, faire un miroir (et le mettre à jour) ou bien lorsqu’il y a un besoin d’accéder à des contenus hors lignes.

Attention, il ne sauvegarde que le contenu visible d’un site web (HTML/CSS et images) donc évidemment pas de code server-side ni de backend.

La sauvegarde peut prendre du temps en fonction de votre connexion internet.

Sur les distributions basés sur debian on l’installe via

apt-get install httrack

Après pour faire le faire fonctionner la syntaxe est:

httrack -w nomdusite.com

Assez simple non ?

J’ai fait rapidement un petit script bash qui permet d’aspirer, archiver et compresser un site.

#!/bin/bash
## Aspirateurs de site HTTRACK - D'Addamio Matteo
path="/root/httrack" #Chemin de destination
projet=$1
compression=1 # 1 = activé ; 0 = désactivé

if [ $# -eq 0 ]
  then
    echo "Nom du site en argument SVP"
    exit 1
fi

httrack -w $projet -O $path/$projet -F "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1)" 
#le -F permet de changer d'user-agent afin d'éviter les bans...

if (( $compression == 1 )); then
        tar -czf $path/$projet.tar.gz $path/$projet && rm -R $path/$projet
fi

Il existe bien sûr une version pour Windows (WinHttrack)

Bref, utile pour sauver des petits bouts de web (blogs,…).

Voici un petit script batch (windows) créé par mes soins qui permet de faire un backup (archivage et compression) d’un répertoire, et de faire une rotation.

Ce script n’est pas directement utilisable, vous pouvez vous en inspirer, mais il ne fonctionnera pas sans adaptation de votre part.
N’hésitez pas à me faire parvenir vos feedback et améliorations.

Dépendances:

  • Robocopy (intégré à Windows)
  • 7Zip (libre à vous de changer)

Fonctionnalités:

  • Compression avec 7zip du répertoire donné
  • Stockage en local de l’archive
  • Stockage de l’archive sur un machine distante (copie miroir grâce à robocopy)
  • Rotation de sauvegarde (vous devez créer un fichier texte num.txt qui doit contenir 0)
  • Suppression des fichiers originaux après compression.

 

Bugs:

  • Sur certains systèmes Windows la commande date est à changer

Testé sous Windows Server 2012 R2, exécuté tous les jours grâce aux taches planifiées

 

@echo off
REM Script créé par Matteo D'Addamio
REM v0.9
REM Sauvegarde d'un dossier, compression, archivage et rotation
REM Dépendances = ROBOCOPY / 7zip

REM Répertoire Source
set dir_source=
REM Répertoire de destination distant
set dir_dest_distant=
REM Répertoire de destination local
set dir_dest_local=
REM Nombre de jours de grace (TTL)
set dtr=15
REM reglage de la date
set date_today=%date%
REM initialisation des variables pour la gestion des dates
set /p num= < %dir_source%\num.txt
set /a num_today=(%num%)+1
echo %num_today% > %dir_source%\num.txt
set /a num_dtr=%num_today%-%dtr%
REM Chemin de 7z
set path_7z=C:\"Program Files"\7-Zip\7z.exe

REM Compression de l'archive
%path_7z% a -t7z -m0=LZMA2 -mmt=on -mx9 %dir_dest_local%\"%date_today%-N%num_today%".7z %dir_source%

REM Suppression du dossier original
erase /S /Q %dir_source%\*

echo Suppression des sauvegardes plus vielles de %dtr% jours
erase /Q %dir_dest_local%\*-N%num_dtr%.7z

echo sauvegarde de %dir_source% vers %dir_dest%
robocopy /MIR %dir_dest_local% %dir_dest_distant%

echo FIN
exit