Ключевые факты
- Инструмент обрабатывает торрент Pushshift размером 3,28 ТБ, содержащий 2,38 миллиарда постов Reddit.
- Он генерирует статичный HTML, для просмотра которого не требуется JavaScript или подключение к интернету.
- Включает полный REST API с более чем 30 конечными точками и сервер MCP для интеграции с ИИ.
- Варианты развертывания варьируются от простого USB-накопителя до скрытой службы Tor.
- Проект построен с использованием Python, PostgreSQL, Jinja2 и Docker.
- Он выпущен в общественное достояние на GitHub.
Цифровая капсула времени
Экосистема Reddit претерпела сейсмические изменения в последние годы. С фактической смертью публичного API и исчезновением сторонних приложений доступ к огромному репозиторию обсуждений на платформе стал все более ограниченным. Набор данных Pushshift, критически важный ресурс для исследователей и архивистов, неоднократно сталкивался с угрозой отключения, что ставило под вопрос будущее коллективных знаний Reddit.
Теперь новый проект с открытым исходным кодом предлагает окончательное решение. Разработчик создал инструмент, способный превратить весь торрент размером 3,28 ТБ с историей Reddit в полнофункциональный, доступный в оффлайне архив. Эта инновация гарантирует, что как только данные загружены, они навсегда принадлежат пользователю — независимо от корпоративных решений, ключей API или подключения к интернету.
Как это работает
Основная функция инструмента обманчиво проста, но мощна. Он принимает сжатые дампы данных из Reddit (в формате .zst), а также архивы из Voat и Ruqqus, и генерирует статичные файлы HTML. Этот подход устраняет необходимость в сложной серверной инфраструктуре или постоянном доступе в интернет. Пользователям достаточно просто открыть сгенерированный файл index.html в любом браузере, чтобы перемещаться по публикациям и комментариям.
Для тех, кому требуются расширенные функции, можно развернуть опциональный стек Docker с PostgreSQL. Он остается полностью на машине пользователя, обеспечивая полнотекстовый поиск без внешних запросов. Система спроектирована для максимальной гибкости и конфиденциальности:
- Отсутствие JavaScript или внешнего отслеживания
- Работа на компьютерах, не подключенных к сети (air-gapped)
- Обслуживание контента через локальную сеть (например, на Raspberry Pi)
- Возможность распространения через USB-накопитель
«Как только у вас есть данные, вы владеете ими. Никакие ключи API, никакие ограничения скорости, никакие изменения условий использования не смогут их отнять».
— Разработчик проекта
Полное владение
Основная ценность предложения — суверенитет данных. Как только торрент Pushshift загружен и обработан, пользователь владеет данными. Нет необходимости управлять ключами API, обходить ограничения скорости или беспокоиться об изменениях в условиях использования, которые могут отозвать доступ. Это критически важное событие для всех, кто полагается на данные Reddit для долгосрочных проектов или исследований.
Как только у вас есть данные, вы владеете ими. Никакие ключи API, никакие ограничения скорости, никакие изменения условий использования не смогут их отнять.
Инструмент эффективно масштабируется. Бэкенд на PostgreSQL гарантирует, что использование памяти остается постоянным независимо от размера набора данных. Хотя один экземпляр может обрабатывать десятки миллионов публикаций, полный набор данных из 2,38 миллиарда постов можно управлять, запуская несколько экземпляров, сегментированных по темам. Эта архитектура делает сохранение всей истории Reddit выполнимой задачей для частных лиц и небольших организаций.
Расширенные возможности
Помимо простого просмотра, архив создан для интеграции и автоматизации. Он поставляется с полным REST API, включающим более 30 конечных точек. Пользователи могут запрашивать публикации, комментарии, пользователей, сабреддиты и выполнять агрегации напрямую против своей локальной базы данных.
Что, возможно, наиболее примечательно, проект включает сервер Model Context Protocol (MCP) с 29 инструментами. Это позволяет приложениям ИИ напрямую запрашивать локальный архив Reddit, открывая новые возможности для ИИ-анализа и добычи данных без использования облачных сервисов. Разработчик создал инструмент с использованием Python, PostgreSQL, шаблонов Jinja2 и Docker, применяя Claude Code в эксперименте по разработке с помощью ИИ.
Варианты развертывания
Инструмент спроектирован для доступности пользователям с разным уровнем технической подготовки. Он поддерживает широкий спектр сценариев хостинга — от самых простых до наиболее безопасных. Доступные варианты самостоятельного хостинга включают:
- USB-накопитель / локальная папка: Самая базовая настройка; просто откройте файлы HTML.
- Домашний сервер (LAN): Обслуживание архива для устройств на Raspberry Pi или аналогичном оборудовании.
- Скрытая служба Tor: Две команды позволяют получить доступ через Tor без проброса портов.
- VPS с HTTPS: Стандартный веб-хостинг для публичного или частного доступа.
- GitHub Pages: Подходит для хостинга небольших архивов.
Живая демонстрация архиватора доступна в сети и демонстрирует статичный опыт просмотра. Код проекта выпущен в общественное достояние через GitHub, поощряя широкое распространение и вклад.
Взгляд в будущее
Выпуск этого инструмента-архиватора представляет собой значительный шаг в сохранении цифровой культуры. По мере того как платформы развиваются и ограничивают доступ, способность частных лиц поддерживать свои собственные архивы становится все более ценной. Этот проект предлагает надежный, масштабируемый и приватный метод для обеспечения того, что 2,38 миллиарда постов, составляющих историю Reddit, останутся доступными для будущих поколений.
Демократизируя доступ к массивным наборам данных, инструмент дает исследователям, разработчикам и энтузиастам возможность продолжать свою работу без страха перед нестабильностью платформы. Он служит свидетельством способности сообщества с открытым исходным кодом реагировать на централизованный контроль децентрализованными решениями.
Часто задаваемые вопросы
Какова основная цель этого инструмента?
Инструмент позволяет пользователям загружать, архивировать и просматривать историю Reddit полностью в оффлайне. Он преобразует массивные дампы данных в статичные файлы HTML, обеспечивая постоянный доступ без зависимости от серверов или API Reddit.
Как он обеспечивает конфиденциальность данных и владение ими?
Обрабатывая данные локально и генерируя статичные файлы, инструмент гарантирует, что никакая информация не отправляется на внешние серверы. Пользователи владеют данными после загрузки, устраняя зависимость от ключей API, ограничений скорости или изменений в политике платформы.
Каковы технические требования?
Для базового просмотра требуется только веб-браузер. Для расширенного поиска и функций API система требует Docker и PostgreSQL, но все компоненты работают на локальном оборудовании пользователя.




