Vous souhaitez conserver tous vos favoris en mode hors connexion?  Nous vous montrons comment créer vos propres archives Web auto-hébergées open-source.

Comment créer votre propre application privée auto-hébergée Read-It-Later

Publicité Internet est un vaste trésor de connaissances. Mais il est éphémère et rien ne garantit que le contenu que vous aimez sera là à l'avenir. Si vous ne pouvez pas vous permettre de perdre ce contenu, vous pouvez utiliser un outil d'archivage Web pour stocker une copie de la page Web. De no

Publicité

Internet est un vaste trésor de connaissances. Mais il est éphémère et rien ne garantit que le contenu que vous aimez sera là à l'avenir. Si vous ne pouvez pas vous permettre de perdre ce contenu, vous pouvez utiliser un outil d'archivage Web pour stocker une copie de la page Web.

De nombreuses personnes utilisent les services de lecture ultérieure pour enregistrer des articles Web. Ces applications fonctionnent mieux avec du contenu textuel et ne gèrent pas correctement les conceptions de pages Web ou les médias compliqués. Vous voulez plus de contrôle?

Voyons comment créer un clone d'Instapaper ou de Pocket sur votre ordinateur sans perdre aucun élément de page Web.

Présentation de ArchiveBox

ArchiveBox est une solution Open Source qui peut vous aider à héberger votre propre alternative à un service d'archivage tel que Wayback Machine. Vous n'abandonnez pas votre vie privée et ne restez pas enfermé dans un service que vous ne pouvez pas contrôler.

Il prend la liste des URL que vous souhaitez archiver et crée un clone HTML local, navigable, du contenu dans plusieurs formats. Il comprend des copies locales au format HTML, une capture d'écran de la page, un fichier PDF et WARC (Web ARChive).

Ces copies restent avec vous même si la page Web d'origine disparaît à l'avenir.

ArchiveBox est écrit en Python 3. Il utilise également des dépendances telles que Wget, Headless Chrome, Youtube-dl et d'autres outils Unix pour enregistrer la page Web. Vous n'avez pas besoin d'un serveur principal fonctionnant constamment. Il suffit de l’exécuter à chaque fois que vous souhaitez importer de nouveaux liens et mettre à jour la sortie statique.

Une fois l'archivage terminé, vous pouvez ouvrir le fichier output / index.html généré dans votre navigateur pour afficher l'archive.

ArchiveBox

Avantages de ArchiveBox

  • Il archive les liens dans plusieurs formats de fichiers qui fonctionnent comme des sauvegardes.
  • Il tente de conserver la page Web d'origine à l'aide de méthodes de capture sophistiquées.
  • A la capacité d'extraire automatiquement le contenu et de le sauvegarder dans un seul dossier.
  • Il fournit également une interface simple en ligne de commande permettant de gérer plusieurs liens, flux et signets. Vous devez le définir une fois et l'exécuter selon un calendrier pour archiver les nouveaux liens.

Inconvénients de ArchiveBox

  • ArchiveBox extrait tous les actifs de la page Web. Il consomme beaucoup d’espace disque et consomme beaucoup de ressources processeur.
  • L'application nécessite trois dépendances ou plus au-delà de Python 3.5. Il faut des essais et des erreurs pour que ces composants fonctionnent ensemble.
  • L'application ne prend pas complètement en charge le système d'exploitation Windows. Vous devez installer Docker ou activer le sous-système Windows pour Linux (WSL). Comment exécuter un bureau Linux à l'aide du sous-système Windows pour Linux. Comment exécuter un bureau Linux à l'aide du sous-système Windows pour Linux. Vous souhaitez exécuter Linux sur votre PC Windows? Voici comment exécuter un poste de travail Linux dans Windows à l'aide du sous-système Windows pour Linux. Lire la suite . Même dans ce cas, certaines fonctionnalités peuvent ne pas fonctionner.

Systèmes d'exploitation supportés

ArchiveBox prend officiellement en charge les systèmes d'exploitation suivants:

  • macOS: 10.12 Sierra avec Homebrew.
  • Linux: Ubuntu, Debian (avec APT). L'application peut (ou non) fonctionner dans des distributions telles que Fedora, CentOS, SUSE, Arch, etc.
  • BSD: FreeBSD, OpenBSD, NetBSD (avec pkg).

Les dépendances

ArchiveBox est un outil d'archivage Web flexible. Vous devez installer les dépendances suivantes et répondre à la configuration minimale requise.

  • Python 3. N'utilisez pas le Python 2.0 par défaut fourni avec macOS.
  • Wget 1.16
  • Chromium 59. Si vous utilisez déjà Google Chrome, n'installez pas Chromium.
  • Youtube-dl (facultatif): les ressources multimédias ont besoin de beaucoup d'espace de stockage. Donnez-lui une pensée détaillée avant d’archiver vos favoris.

Configurer ArchiveBox

Il existe deux manières de configurer ArchiveBox: automatique et manuel .

Dans la méthode automatique, un script d'assistance installera l'application et ses dépendances. Mais vous ne pourrez pas résoudre le problème si une erreur survient. Il est préférable d'installer l'application manuellement.

À des fins de démonstration, nous utiliserons macOS 10.14.6.

Installer les dépendances

Le meilleur moyen d'installer des dépendances consiste à utiliser un gestionnaire de paquets appelé Homebrew. Pour en comprendre les bases, consultez cet article sur l’installation des applications Mac avec Homebrew.

Ouvrir le terminal et taper

 brew install python3 git wget curl youtube-dl 
 brew cask install chromium 

(Ignorez ceci si Google Chrome / Chromium est déjà installé dans les applications)

Vérifier le numéro de version de toutes les dépendances

Pour vérifier le numéro de version de toutes les dépendances, tapez

 dependency app --version 

(Remplacez l'application de dépendance par python3, wget, youtube-dl, etc.)

vérifier la version de toutes les dépendances

Téléchargez votre fichier d'exportation de marque-pages

Tous les services et navigateurs en lecture ultérieure peuvent exporter vos signets sous forme de fichier HTML. Suivez les instructions de cet article pour exporter des signets depuis votre navigateur. Procédure de migration des signets entre Chrome, Firefox et / ou Edge Procédure de migration des signets entre Chrome, Firefox et / ou Edge Vous souhaitez transférer vos signets vers un nouveau navigateur ou sauvegarder pour la garde? Voici comment procéder dans Chrome, Firefox et Edge. Lire la suite . Vous pouvez également enregistrer un lien unique ou la liste des URL dans un fichier texte.

Installer ArchiveBox

Cloner le repo depuis le GitHub. Ouvrir le terminal et taper

 git clone https://github.com/pirate/ArchiveBox 

Ensuite,

 cd ArchiveBox/ 

Lorsque vous clonez ce référentiel, le programme d'installation crée un dossier ArchiveBox dans votre répertoire de base. Ce dossier contient tous les fichiers principaux de l’application et de la configuration.

installer ArchiveBox

Ajoutez votre URL à l'archive

Si vous souhaitez archiver un seul lien, tapez

 echo 'https://example.com'| ./archive 

archivage d'un seul lien

Accédez à votre dossier ArchiveBox pour voir le dossier de sortie nouvellement créé. Ici, vous verrez un fichier index.html.

Dossier de sortie ArchiveBox

Ajout de plusieurs liens à l'archive

Lorsque vous souhaitez enregistrer plusieurs liens (des dizaines ou plus), il est préférable d’ajouter vos liens à un fichier texte. L'application analysera les URL du fichier et les archivera. Ouvrir le terminal et taper

 ./archive [Path to Your File.txt] 

Si votre fichier se trouve dans le dossier Téléchargements, votre chemin d'accès ressemblera à

 ./archive /Users/(Home directory name)/Downloads/links.txt 

Attendez quelques minutes / heures pour terminer le processus. Pour accéder à votre archive, ouvrez le fichier output / index.html de votre navigateur. Vous pouvez trier par colonne, rechercher un titre à l'aide de la case située dans la partie supérieure droite et afficher le nombre total de liens en bas.

liens archivés via ArchiveBox

Cliquez sur l'icône dans la colonne Fichiers pour accéder à la page de détails. Vous trouverez des liens vers les formats de fichiers individuels, comme indiqué dans la capture d'écran. Le même lien est également téléchargé sur archive.org.

page de détail de chaque lien archivé

De la même manière, exportez vos liens Instapaper ou Pocket en tant que fichier HTML. Ensuite, tapez

 ./archive ~/Downloads/instapaper-export.html 

Vous pouvez également importer une liste de liens à partir de l'URL du flux. Mais rappelez-vous que vous risquez de rencontrer trop d'échecs ou de délais de session. S'il existe des milliers d'URL, il est préférable de les diviser en fichiers plus petits pour augmenter le taux de réussite.

Configurer ArchiveBox

Les paramètres par défaut fonctionnent dans la plupart des cas, mais vous pouvez modifier certains paramètres importants pour obtenir davantage de fonctionnalités. Le fichier de configuration vit dans

 ~/ArchiveBox/etc/ArchiveBox.conf.default 

Remarque: ne modifiez pas ce fichier, car ils seront effacés à chaque mise à jour de l'application. Pour créer un fichier de configuration persistant, tapez

 cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf 

La commande cp créera une copie du fichier de configuration dans votre répertoire personnel. Par défaut, le fichier n'est pas visible dans votre répertoire. Pour afficher, appuyez sur Cmd + Maj + Période . Ouvrez le fichier de configuration dans TextEdit.

copie du fichier de configuration ArchiveBox

Paramètres

ArchiveBox vous offre de nombreuses options. En voici quelques unes importantes.

  • ONLY_NEW : définissez ce paramètre sur True pour télécharger l'archive des nouveaux liens ajoutés. Est utile si vous marquez régulièrement des liens.
  • TIMEOUT : les valeurs possibles sont 60 ou 120 secondes. Si vous voyez des erreurs de timeout fréquentes, augmentez-le à 120 secondes.
  • URL_BLACKLIST : Vous pouvez utiliser l'expression regex pour exclure certains domaines, extensions ou modèles d'URL de l'archive.
  • FETCH_MEDIA : Récupérez tous les fichiers audio et vidéo en utilisant youtube-dl. Définissez ceci sur True uniquement lorsque vous avez suffisamment de stockage.
  • WGET_USER_AGENT : utilisez-le pour changer l'agent utilisateur lors de l'archivage. Si certains serveurs vous bloquent, cette option est utile.

Pour en savoir plus sur les détails de la configuration, visitez la configuration de ArchiveBox pour plus d'informations.

Publier vos archives

L'archive produite par ArchiveBox est compatible avec tout fournisseur pouvant héberger du HTML statique. Par exemple, les pages GitHub.

Vous pouvez également le servir à partir d'un serveur domestique ou d'un serveur VPS en téléchargeant directement le dossier de sortie dans votre répertoire Web.

Assurez-vous que vous n'exécutez aucun contenu en tant que CGI ou PHP, vous voulez héberger uniquement des fichiers HTML statiques.

L'hébergement de vos archives a des avantages et des inconvénients. Lorsque vous téléchargez des liens de sites choisis au hasard, vous devez comprendre les dangers de l'hébergement de fichiers CSS et JS malveillants dans votre domaine partagé. Vous pouvez également choisir de mettre vos archives en liste noire dans le fichier robots.txt afin de rester privées.

Télécharger des sites entiers hors ligne

L'archivage Web a attiré l'attention au cours des dernières années. Ils enregistrent l'intégralité du contenu d'une page Web, y compris le code source HTML, les images incorporées, les feuilles de style et le code JavaScript. ArchiveBox s’intègre parfaitement dans la vaste catégorie des outils et services d’archivage Web.

Si vous êtes frustré avec Instapaper ou Pocket, alors ArchiveBox est une excellente alternative. Outre les articles Web, vous pouvez également archiver des sites Web entiers pour y accéder hors ligne ou pour préserver leurs connaissances. Si cela vous intéresse, lisez comment télécharger un site Web pour le lire hors ligne. Comment télécharger un site Web complet pour la lire hors connexion Comment télécharger un site Web complet pour la lecture hors connexion Voici comment vous pouvez télécharger des sites Web entiers pour les lire hors ligne, afin que vous puissiez y accéder même quand vous n'avez pas de Wi-Fi ou de 4G. Lire la suite .

En savoir plus sur: Instapaper, Signets en ligne, Open Source, Pocket, The Internet Archive.