M
MercyNews
Home
Back

Histoire de Reddit préservée : un nouvel outil archive 2,38 milliards de publications hors ligne

Hacker News14h ago
3 min de lecture
📋

Points Clés

  • L'outil traite le torrent Pushshift de 3,28 To contenant 2,38 milliards de publications Reddit.
  • Il génère du HTML statique, n nécessitant ni JavaScript ni connexion Internet externe pour la navigation.
  • Inclut une API REST complète avec plus de 30 points de terminaison et un serveur MCP pour l'intégration IA.
  • Les options de déploiement vont d'une simple clé USB à un service caché Tor.
  • Le projet est construit en utilisant Python, PostgreSQL, Jinja2 et Docker.
  • Il est publié dans le domaine public sur GitHub.

La capsule temporelle numérique

L'écosystème de Reddit a subi un changement spectaculaire ces dernières années. Avec la mort effective de l'API publique et la disparition des applications tierces, l'accès au vaste référentiel de discussions de la plateforme est devenu de plus en plus restreint. Le dataset Pushshift, une ressource essentielle pour les chercheurs et les archivistes, a fait face à des menaces répétées de coupure, laissant l'avenir du savoir collectif de Reddit en péril.

Maintenant, un nouveau projet open-source offre une solution définitive. Un développeur a construit un outil capable de transformer l'intégralité du torrent de 3,28 To de l'historique de Reddit en une archive entièrement fonctionnelle et accessible hors ligne. Cette innovation garantit qu'une fois les données téléchargées, elles appartiennent à l'utilisateur pour toujours - à l'abri des décisions d'entreprise, des clés API ou de la connectivité Internet.

Comment ça marche

La fonction principale de l'outil est trompeusement simple mais puissante. Il ingère les dumps de données compressés de Reddit (au format .zst), ainsi que les archives de Voat et Ruqqus, et génère des fichiers HTML statiques. Cette approche élimine le besoin d'une infrastructure serveur complexe ou d'un accès Internet constant. Les utilisateurs n'ont qu'à ouvrir le fichier index.html généré dans n'importe quel navigateur pour naviguer à travers les publications et les commentaires.

Pour ceux qui ont besoin de fonctionnalités avancées, une stack Docker optionnelle avec PostgreSQL peut être déployée. Cela reste entièrement sur la machine de l'utilisateur, fournissant des capacités de recherche en texte intégral sans requêtes externes. Le système est conçu pour une flexibilité et une confidentialité maximales :

  • Pas de JavaScript ni de suivi externe
  • Fonctionne sur des machines isolées (air-gapped)
  • Sert du contenu sur un LAN local (par ex. Raspberry Pi)
  • Peut être distribué via une clé USB

"Une fois que vous avez les données, vous les possédez. Aucune clé API, aucune limite de débit, aucun changement des conditions d'utilisation ne peut vous les enlever."

— Développeur du projet

Propriété totale

La proposition de valeur principale est la souveraineté des données. Une fois le torrent Pushshift téléchargé et traité, l'utilisateur possède les données. Il n'y a pas de clés API à gérer, pas de limites de débit à contourner, et aucun changement des conditions d'utilisation qui pourrait révoquer l'accès. C'est un développement crucial pour toute personne s'appuyant sur les données de Reddit pour des projets à long terme ou des recherches.

Une fois que vous avez les données, vous les possédez. Aucune clé API, aucune limite de débit, aucun changement des conditions d'utilisation ne peut vous les enlever.

L'outil s'adapte efficacement. Le backend PostgreSQL garantit que l'utilisation de la mémoire reste constante quelle que soit la taille du jeu de données. Bien qu'une seule instance puisse gérer des dizaines de millions de publications, le jeu de données complet de 2,38 milliards de publications peut être géré en exécutant plusieurs instances segmentées par sujet. Cette architecture rend la préservation de l'intégralité de l'historique de Reddit une tâche réalisable pour les individus et les petites organisations.

Capacités avancées

Au-delà de la simple navigation, l'archive est conçue pour l'intégration et l'automatisation. Elle est livrée avec une API REST complète comportant plus de 30 points de terminaison. Les utilisateurs peuvent interroger les publications, les commentaires, les utilisateurs, les subreddits et effectuer des agrégations directement sur leur base de données locale.

Peut-être plus notablement, le projet inclut un serveur Model Context Protocol (MCP) avec 29 outils. Cela permet aux applications IA d'interroger l'archive Reddit locale directement, ouvrant de nouvelles possibilités pour l'analyse et l'exploration de données pilotées par l'IA sans dépendre des services cloud. Le développeur a construit l'outil en utilisant Python, PostgreSQL, des modèles Jinja2 et Docker, en utilisant Claude Code dans une expérience de développement assisté par IA.

Options de déploiement

L'outil est conçu pour être accessible aux utilisateurs ayant des niveaux d'expertise technique variés. Il prend en charge un large éventail de scénarios d'hébergement, du plus simple au plus sécurisé. Les options d'auto-hébergement disponibles incluent :

  • Clé USB / Dossier local : La configuration la plus basique ; il suffit d'ouvrir les fichiers HTML.
  • Serveur domestique (LAN) : Servir l'archive aux appareils sur un Raspberry Pi ou un matériel similaire.
  • Service caché Tor : Deux commandes permettent l'accès via Tor sans configuration de port.
  • VPS avec HTTPS : Hébergement web standard pour un accès public ou privé.
  • GitHub Pages : Adapté pour héberger de plus petites archives.

Une démonstration en direct de l'archiver est disponible en ligne, présentant l'expérience de navigation statique. Le code du projet est publié dans le domaine public via GitHub, encourageant l'adoption et la contribution à grande échelle.

Perspectives

La publication de cet outil d'archivage représente une étape importante dans la préservation de la culture numérique. À mesure que les plateformes évoluent et restreignent l'accès, la capacité des individus à maintenir leurs propres archives devient de plus en plus précieuse. Ce projet fournit une méthode robuste, évolutive et privée pour garantir que les 2,38 milliards de publications qui constituent l'historique de Reddit restent accessibles aux générations futures.

En démocratisant l'accès à des jeux de données massifs, l'outil permet aux chercheurs, développeurs et passionnés de continuer leur travail sans craindre l'instabilité de la plateforme. Il témoigne de la capacité de la communauté open-source à répondre au contrôle centralisé par des solutions décentralisées.

Questions Fréquemment Posées

Quel est l'objectif principal de cet outil ?

L'outil permet aux utilisateurs de télécharger, d'archiver et de naviguer dans l'historique de Reddit entièrement hors ligne. Il convertit des dumps de données massifs en fichiers HTML statiques, assurant un accès permanent sans dépendre des serveurs ou de l'API de Reddit.

Comment assure-t-il la confidentialité et la propriété des données ?

En traitant les données localement et en générant des fichiers statiques, l'outil garantit qu'aucune information n'est envoyée à des serveurs externes. Les utilisateurs possèdent les données une fois téléchargées, éliminant les dépendances aux clés API, aux limites de débit ou aux changements de politique de plateforme.

Quelles sont les exigences techniques ?

Pour la navigation de base, seul un navigateur web est nécessaire. Pour les fonctionnalités de recherche avancées et l'API, le système requiert Docker et PostgreSQL, mais tous les composants s'exécutent sur le matériel local de l'utilisateur.

Continue scrolling for more

L'IA transforme la recherche et les preuves mathématiques
Technology

L'IA transforme la recherche et les preuves mathématiques

L'intelligence artificielle passe d'une promesse à une réalité en mathématiques. Les modèles d'apprentissage génèrent désormais des théorèmes originaux, forçant une réévaluation de la recherche et de l'enseignement.

Just now
4 min
171
Read Article
Accidents

Effondrement d'une grue sur un train thaïlandais : 22 morts

Une grue de chantier s'est effondrée sur un train de passagers en Thaïlande mercredi matin, provoquant un déraillement catastrophique qui a fait au moins 22 morts et plus de 30 blessés.

1h
5 min
7
Read Article
Accidents

Effondrement d'une grue sur un train en Thaïlande : 22 morts

Une grue s'est effondrée sur un train en Thaïlande, causant au moins 22 morts et plus de 30 blessés. Une tragédie majeure dans le nord du pays.

1h
5 min
7
Read Article
Marchés prédictifs : records absolus avec un volume de 702 M$
Economics

Marchés prédictifs : records absolus avec un volume de 702 M$

Le volume des marchés prédictifs a atteint un record de 701,7 M$ lundi, avec Kalshi dominant deux tiers de l'activité. Un signal d'adoption grand public malgré les défis réglementaires.

1h
5 min
6
Read Article
Entertainment

L'essor du 'Superpapa' : Quand la paternité devient tout

Une nouvelle vague de pères célèbres redéfinit l'archétype du 'superpapa', plaçant la paternité au centre absolu de leur existence.

1h
4 min
7
Read Article
Sports

Le Thunder met fin à sa série de défaites face aux Spurs de Wembanyama

Le Thunder d'Oklahoma City met fin à sa série de défaites en dominant les Spurs de San Antonio. Une victoire décisive à Oklahoma face à la star rookie Wembanyama.

1h
5 min
6
Read Article
2025 : La troisième année la plus chaude jamais enregistrée
Environment

2025 : La troisième année la plus chaude jamais enregistrée

Les températures mondiales ont atteint des sommets en 2025, marquant la troisième année la plus chaude jamais enregistrée. Les experts avertissent que la tendance se poursuivra en 2026.

1h
3 min
6
Read Article
Attaques du gouvernement israélien contre la Cour suprême
Politics

Attaques du gouvernement israélien contre la Cour suprême

Le gouvernement israélien mène une campagne féroce contre la Cour suprême, la qualifiant d'antidémocratique pour préparer le terrain à la désobéissance aux ordres judiciaires.

1h
5 min
6
Read Article
Le mixeur son Thomas Causey s'éteint à 76 ans
Entertainment

Le mixeur son Thomas Causey s'éteint à 76 ans

Thomas Dewitt Causey, Jr., un mixeur son vétéran ayant travaillé sur plus de 85 films, s'est éteint à 76 ans à Cathedral City, en Californie.

2h
3 min
6
Read Article
Politics

La ministre néo-zélandaise des Affaires étrangères réprimande le gouverneur de la Banque centrale

Le ministre néo-zélandais des Affaires étrangères Winston Peters a publiquement réprimandé la nouvelle gouverneure de la Banque centrale, Anna Breman, pour avoir soutenu le président de la Réserve fédérale américaine Jerome Powell.

2h
5 min
7
Read Article
🎉

You're all caught up!

Check back later for more stories

Retour a l'accueil