Comment convertir plusieurs pages Web en PDF avec Wget
Publicité
Il existe de nombreux outils en ligne, extensions de navigateur et plug-ins de bureau pour transformer une page Web en PDF. Si vous utilisez régulièrement ces outils, vous rencontrerez peut-être une situation dans laquelle vous devrez convertir plusieurs liens en une fois. Les faire un par un est une perte de temps et fastidieux.
Vous pouvez automatiser cette tâche via un utilitaire simple en ligne de commande appelé Wget. À l'aide de quelques scripts ou applications et de cet outil, nous allons vous montrer comment enregistrer plusieurs pages Web dans un fichier PDF.
Pourquoi Wget?
Wget est un logiciel gratuit permettant de télécharger des fichiers sur le Web. Mais c’est également un outil idéal pour mettre en miroir une page Web entière dans votre ordinateur. Voici les raisons:
- Il n'est pas interactif, ce qui signifie qu'il peut fonctionner en arrière-plan et vous permet de transférer des données sans que votre présence soit requise.
- Wget comprend la structure de répertoires du site. Il peut suivre les liens de la page HTML pour créer une version locale du site Web distant. Dans le processus, il respecte également le fichier robots.txt.
- Il peut même fonctionner dans des connexions réseau lentes ou instables. Si le serveur prend en charge la regetting, il réessayera jusqu'à ce que tout le fichier soit transféré sur votre ordinateur.
- Wget prend en charge les serveurs proxy. Cela permet d'alléger la charge du réseau, d'accélérer le processus de récupération et de fournir un accès derrière les pare-feu.
Installer Wget
Sur macOS
Le moyen le plus rapide d'installer Wget est d'utiliser Homebrew. C'est un gestionnaire de paquets pour macOS permettant d'installer des utilitaires et applications Unix utiles. Consultez cet article pour savoir comment installer les applications macOS via Homebrew. Ensuite, tapez
brew install wget
Vous aurez la progression en temps réel de l’installation de tous les outils (le cas échéant) nécessaires à l’exécution de Wget sur votre Mac. Si vous avez déjà installé Homebrew, veillez à exécuter la mise à niveau de brassage pour obtenir la dernière version de cet utilitaire.
Sur Windows 10
Il existe de nombreuses versions de Wget disponibles pour Windows 10. Allez sur Conseil d'administration pour télécharger la dernière version 64 bits. Placez le fichier exécutable dans un dossier et copiez-le sur le lecteur C :.
Nous allons maintenant ajouter le chemin Wget à la variable d’environnement de votre système pour exécuter cet outil à partir de n’importe quel répertoire. Accédez à Panneau de configuration> Système et cliquez sur Paramètres système avancés . Dans la fenêtre qui s'ouvre, cliquez sur Variables d'environnement .
Sélectionnez Chemin sous Variables système et cliquez sur Modifier . Ensuite, cliquez sur le bouton Nouveau situé dans le coin supérieur droit de la fenêtre. Tapez C: \ wget et cliquez sur OK .
Ouvrez l'invite de commande et tapez wget-h pour vérifier si tout fonctionne. Dans PowerShell, tapez wget.exe -h pour charger le menu d'aide de Wget.
Enregistrer vos liens dans un fichier texte
Puisque nous avons affaire à plusieurs liens, il est difficile de les coller un par un. Heureusement, il existe des extensions de navigateur pour vous aider à effectuer cette tâche.
Link Klipper: Il extrait tous les liens d'une page Web sous forme de fichier CSV ou TXT. Vous pouvez même faire glisser une zone rectangulaire sur la page Web pour copier des liens de manière sélective. Le fichier est enregistré dans le dossier de téléchargement .
Snap Links Plus: Cela vous permet de lasso des éléments sur une page et de faire des choses avec eux. Maintenez le bouton droit de la souris enfoncé et faites glisser un rectangle de sélection autour des liens. Appuyez sur la touche Ctrl et copiez vos liens dans le presse-papiers.
Mise en place d'un répertoire
Wget fonctionne comme un robot Web en extrayant les ressources de page Web à partir des fichiers HTML, y compris le logo, les polices, les vignettes d’image, les fichiers CSS et JavaScript. Il essaie également de créer une structure de répertoires ressemblant au serveur distant. Créez un répertoire séparé pour les téléchargements Wget afin de sauvegarder les pages Web et d'éviter tout encombrement.
Sur votre terminal Mac ou dans une invite de commande sous Windows, entrez
mkdir Wgetdown
Cela crée un nouveau dossier dans le répertoire de base. Vous pouvez nommer ce que vous voulez. Ensuite, entrez
cd Wgetdown
Changer de répertoire. Cela change le répertoire de travail actuel en Wgetdown.
Détails des commandes Wget
Après avoir créé le répertoire, nous utiliserons la commande Wget
wget -E -H -k -K -p -i [Path to Your Text File]
Wget utilise GNU getopt pour traiter les arguments de ligne de commande. Chaque option a une forme longue avec les plus courtes. Les options longues sont pratiques à retenir, mais prenez le temps de les taper. Vous pouvez également mélanger différents styles d'option. Entrons dans les détails de ces options:
- -E (–adjust-extension) : Si un fichier de type "app / xhtml + xml" ou "text / html" est téléchargé et que l'URL ne se termine pas par le code HTML, cette option ajoutera le code HTML au nom du fichier.
- -H (–span-hosts) : lorsque vous essayez de récupérer des liens de manière récursive, vous ne souhaitez pas récupérer des charges de données inutiles. Vous voulez que Wget ne suive que des liens spécifiques. Cette option active l’étalement des hôtes, ce qui permet à l’exécution récursive Wget de visiter n’importe quel hôte référencé par un lien. Par exemple, les images servies à partir d'un hôte différent.
- -p (–page-requisites) : cette option télécharge tous les fichiers nécessaires à l'affichage d'une page HTML. Il comprend des images en ligne, du son et des feuilles de style référencées.
- -k (–convert-links) : convertit les liens dans le document pour les rendre compatibles avec l'affichage hors connexion. Il comprend des images incorporées, des liens vers des feuilles de style, des hyperliens vers du contenu non HTML, etc.
- -K (–backup-converti) : lors de la conversion d'un fichier, cette option sauvegarde la version d'origine avec un suffixe .orig .
- -i (–input-file) : lit les URL d'un chemin d'accès à votre fichier local ou externe.
Mettre les commandes en service
Pour illustrer ces commandes dans la pratique, considérons un manuel de site Web appelé Writing Workflows. Ce manuel consiste en une table des matières avec un lien vers chaque chapitre. L'objectif final est de créer un fichier PDF séparé de ces sections.
Étape 1 : Ouvrez Terminal et créez un nouveau dossier, comme indiqué ci-dessus.
Étape 2 : Utilisez l’extension Link Klipper pour enregistrer vos liens dans un fichier texte. Enregistrez votre fichier dans le dossier Téléchargements .
Étape 3 : Lorsque vous êtes dans le dossier Wgetdown, tapez
wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt
Étape 4 : Appuyez sur Entrée. Attendez la fin du processus.
Étape 5 : Accédez au dossier Wgetdown. Vous verrez le dossier domainword.net du domaine principal avec tous les actifs de page Web et chapitre1.html.
Conversion de HTML en PDF
La conversion d'une page Web en un fichier PDF semble simple. Mais les faire ressembler à la page Web d'origine est une tâche difficile. Produire un résultat souhaitable dépend de:
- Polices système disponibles.
- L'intégrité du balisage HTML.
- Fonctionnalités nécessaires pour la prise en charge des tables ou des images flottantes.
- Éventuellement table des matières.
Windows 10
PrinceXML est une application qui permet de convertir rapidement des fichiers HTML en PDF. Il vous permet de composer, formater et imprimer du contenu HTML avec une mise en page configurable et une prise en charge des normes Web. Il contient de nombreuses polices utiles et vous permet également de personnaliser la sortie PDF. L'application est gratuite pour une utilisation non commerciale.
macOS
Sur votre Mac, vous pouvez créer un service Automator pour convertir un lot de fichiers HTML en fichiers PDF. Ouvrez Automator et créez un document d' action rapide . Définissez l'option de service pour recevoir des fichiers ou des dossiers du Finder. Faites ensuite glisser dans Exécuter le script de shell et définissez l' option de saisie Pass sur comme arguments . Ensuite, collez ce script dans le corps
for theFileToProcess in " " do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done
Enregistrez le fichier en tant que HTML2PDF.
Sélectionnez maintenant tous les fichiers HTML dans le Finder. Cliquez avec le bouton droit de la souris et choisissez Services> HTML2PDF . Attendez quelques instants pour convertir tous vos fichiers.
Façons de convertir une page Web unique en PDF
À première vue, la conversion de plusieurs pages Web en PDF semble compliquée. Mais une fois que vous aurez compris les étapes et le processus, vous gagnerez du temps à long terme. Vous n'avez pas à dépenser de l'argent pour des abonnements Web ou des convertisseurs PDF coûteux.
Si vous cherchez à convertir une seule page Web en PDF, lisez cet article sur la conversion de pages Web en PDF. 3 manières simples de convertir des pages Web en PDF 3 manières simples de convertir des pages Web en PDF Vous pouvez convertir une page Web en PDF lisez-le hors ligne. Voici les outils les plus simples qui fonctionnent sur n'importe quel appareil. Lire la suite .
En savoir plus sur: PDF, Wget.