Histoire de Reddit préservée : un nouvel outil archive 2,38 milliards de publications hors ligne

📋

Points Clés

L'outil traite le torrent Pushshift de 3,28 To contenant 2,38 milliards de publications Reddit.
Il génère du HTML statique, n nécessitant ni JavaScript ni connexion Internet externe pour la navigation.
Inclut une API REST complète avec plus de 30 points de terminaison et un serveur MCP pour l'intégration IA.
Les options de déploiement vont d'une simple clé USB à un service caché Tor.
Le projet est construit en utilisant Python, PostgreSQL, Jinja2 et Docker.
Il est publié dans le domaine public sur GitHub.

La capsule temporelle numérique

L'écosystème de Reddit a subi un changement spectaculaire ces dernières années. Avec la mort effective de l'API publique et la disparition des applications tierces, l'accès au vaste référentiel de discussions de la plateforme est devenu de plus en plus restreint. Le dataset Pushshift, une ressource essentielle pour les chercheurs et les archivistes, a fait face à des menaces répétées de coupure, laissant l'avenir du savoir collectif de Reddit en péril.

Maintenant, un nouveau projet open-source offre une solution définitive. Un développeur a construit un outil capable de transformer l'intégralité du torrent de 3,28 To de l'historique de Reddit en une archive entièrement fonctionnelle et accessible hors ligne. Cette innovation garantit qu'une fois les données téléchargées, elles appartiennent à l'utilisateur pour toujours - à l'abri des décisions d'entreprise, des clés API ou de la connectivité Internet.

Comment ça marche

La fonction principale de l'outil est trompeusement simple mais puissante. Il ingère les dumps de données compressés de Reddit (au format .zst), ainsi que les archives de Voat et Ruqqus, et génère des fichiers HTML statiques. Cette approche élimine le besoin d'une infrastructure serveur complexe ou d'un accès Internet constant. Les utilisateurs n'ont qu'à ouvrir le fichier index.html généré dans n'importe quel navigateur pour naviguer à travers les publications et les commentaires.

Pour ceux qui ont besoin de fonctionnalités avancées, une stack Docker optionnelle avec PostgreSQL peut être déployée. Cela reste entièrement sur la machine de l'utilisateur, fournissant des capacités de recherche en texte intégral sans requêtes externes. Le système est conçu pour une flexibilité et une confidentialité maximales :

Pas de JavaScript ni de suivi externe
Fonctionne sur des machines isolées (air-gapped)
Sert du contenu sur un LAN local (par ex. Raspberry Pi)
Peut être distribué via une clé USB

"Une fois que vous avez les données, vous les possédez. Aucune clé API, aucune limite de débit, aucun changement des conditions d'utilisation ne peut vous les enlever."
— Développeur du projet

Propriété totale

La proposition de valeur principale est la souveraineté des données. Une fois le torrent Pushshift téléchargé et traité, l'utilisateur possède les données. Il n'y a pas de clés API à gérer, pas de limites de débit à contourner, et aucun changement des conditions d'utilisation qui pourrait révoquer l'accès. C'est un développement crucial pour toute personne s'appuyant sur les données de Reddit pour des projets à long terme ou des recherches.

Une fois que vous avez les données, vous les possédez. Aucune clé API, aucune limite de débit, aucun changement des conditions d'utilisation ne peut vous les enlever.

L'outil s'adapte efficacement. Le backend PostgreSQL garantit que l'utilisation de la mémoire reste constante quelle que soit la taille du jeu de données. Bien qu'une seule instance puisse gérer des dizaines de millions de publications, le jeu de données complet de 2,38 milliards de publications peut être géré en exécutant plusieurs instances segmentées par sujet. Cette architecture rend la préservation de l'intégralité de l'historique de Reddit une tâche réalisable pour les individus et les petites organisations.

Capacités avancées

Au-delà de la simple navigation, l'archive est conçue pour l'intégration et l'automatisation. Elle est livrée avec une API REST complète comportant plus de 30 points de terminaison. Les utilisateurs peuvent interroger les publications, les commentaires, les utilisateurs, les subreddits et effectuer des agrégations directement sur leur base de données locale.

Peut-être plus notablement, le projet inclut un serveur Model Context Protocol (MCP) avec 29 outils. Cela permet aux applications IA d'interroger l'archive Reddit locale directement, ouvrant de nouvelles possibilités pour l'analyse et l'exploration de données pilotées par l'IA sans dépendre des services cloud. Le développeur a construit l'outil en utilisant Python, PostgreSQL, des modèles Jinja2 et Docker, en utilisant Claude Code dans une expérience de développement assisté par IA.

Options de déploiement

L'outil est conçu pour être accessible aux utilisateurs ayant des niveaux d'expertise technique variés. Il prend en charge un large éventail de scénarios d'hébergement, du plus simple au plus sécurisé. Les options d'auto-hébergement disponibles incluent :
Clé USB / Dossier local : La configuration la plus basique ; il suffit d'ouvrir les fichiers HTML.
Serveur domestique (LAN) : Servir l'archive aux appareils sur un Raspberry Pi ou un matériel similaire.
Service caché Tor : Deux commandes permettent l'accès via Tor sans configuration de port.
VPS avec HTTPS : Hébergement web standard pour un accès public ou privé.
GitHub Pages : Adapté pour héberger de plus petites archives.
Une démonstration en direct de l'archiver est disponible en ligne, présentant l'expérience de navigation statique. Le code du projet est publié dans le domaine public via GitHub, encourageant l'adoption et la contribution à grande échelle.

Perspectives

La publication de cet outil d'archivage représente une étape importante dans la préservation de la culture numérique. À mesure que les plateformes évoluent et restreignent l'accès, la capacité des individus à maintenir leurs propres archives devient de plus en plus précieuse. Ce projet fournit une méthode robuste, évolutive et privée pour garantir que les 2,38 milliards de publications qui constituent l'historique de Reddit restent accessibles aux générations futures.
En démocratisant l'accès à des jeux de données massifs, l'outil permet aux chercheurs, développeurs et passionnés de continuer leur travail sans craindre l'instabilité de la plateforme. Il témoigne de la capacité de la communauté open-source à répondre au contrôle centralisé par des solutions décentralisées.

Questions Fréquemment Posées

Quel est l'objectif principal de cet outil ?

L'outil permet aux utilisateurs de télécharger, d'archiver et de naviguer dans l'historique de Reddit entièrement hors ligne. Il convertit des dumps de données massifs en fichiers HTML statiques, assurant un accès permanent sans dépendre des serveurs ou de l'API de Reddit.

Comment assure-t-il la confidentialité et la propriété des données ?

En traitant les données localement et en générant des fichiers statiques, l'outil garantit qu'aucune information n'est envoyée à des serveurs externes. Les utilisateurs possèdent les données une fois téléchargées, éliminant les dépendances aux clés API, aux limites de débit ou aux changements de politique de plateforme.

Quelles sont les exigences techniques ?

Pour la navigation de base, seul un navigateur web est nécessaire. Pour les fonctionnalités de recherche avancées et l'API, le système requiert Docker et PostgreSQL, mais tous les composants s'exécutent sur le matériel local de l'utilisateur.