M
MercyNews
Home
Back

История Reddit сохранена: новый инструмент архивирует 2,38 миллиарда постов в оффлайне

Hacker News14h ago
3 мин чтения
📋

Ключевые факты

  • Инструмент обрабатывает торрент Pushshift размером 3,28 ТБ, содержащий 2,38 миллиарда постов Reddit.
  • Он генерирует статичный HTML, для просмотра которого не требуется JavaScript или подключение к интернету.
  • Включает полный REST API с более чем 30 конечными точками и сервер MCP для интеграции с ИИ.
  • Варианты развертывания варьируются от простого USB-накопителя до скрытой службы Tor.
  • Проект построен с использованием Python, PostgreSQL, Jinja2 и Docker.
  • Он выпущен в общественное достояние на GitHub.

Цифровая капсула времени

Экосистема Reddit претерпела сейсмические изменения в последние годы. С фактической смертью публичного API и исчезновением сторонних приложений доступ к огромному репозиторию обсуждений на платформе стал все более ограниченным. Набор данных Pushshift, критически важный ресурс для исследователей и архивистов, неоднократно сталкивался с угрозой отключения, что ставило под вопрос будущее коллективных знаний Reddit.

Теперь новый проект с открытым исходным кодом предлагает окончательное решение. Разработчик создал инструмент, способный превратить весь торрент размером 3,28 ТБ с историей Reddit в полнофункциональный, доступный в оффлайне архив. Эта инновация гарантирует, что как только данные загружены, они навсегда принадлежат пользователю — независимо от корпоративных решений, ключей API или подключения к интернету.

Как это работает

Основная функция инструмента обманчиво проста, но мощна. Он принимает сжатые дампы данных из Reddit (в формате .zst), а также архивы из Voat и Ruqqus, и генерирует статичные файлы HTML. Этот подход устраняет необходимость в сложной серверной инфраструктуре или постоянном доступе в интернет. Пользователям достаточно просто открыть сгенерированный файл index.html в любом браузере, чтобы перемещаться по публикациям и комментариям.

Для тех, кому требуются расширенные функции, можно развернуть опциональный стек Docker с PostgreSQL. Он остается полностью на машине пользователя, обеспечивая полнотекстовый поиск без внешних запросов. Система спроектирована для максимальной гибкости и конфиденциальности:

  • Отсутствие JavaScript или внешнего отслеживания
  • Работа на компьютерах, не подключенных к сети (air-gapped)
  • Обслуживание контента через локальную сеть (например, на Raspberry Pi)
  • Возможность распространения через USB-накопитель

«Как только у вас есть данные, вы владеете ими. Никакие ключи API, никакие ограничения скорости, никакие изменения условий использования не смогут их отнять».

— Разработчик проекта

Полное владение

Основная ценность предложения — суверенитет данных. Как только торрент Pushshift загружен и обработан, пользователь владеет данными. Нет необходимости управлять ключами API, обходить ограничения скорости или беспокоиться об изменениях в условиях использования, которые могут отозвать доступ. Это критически важное событие для всех, кто полагается на данные Reddit для долгосрочных проектов или исследований.

Как только у вас есть данные, вы владеете ими. Никакие ключи API, никакие ограничения скорости, никакие изменения условий использования не смогут их отнять.

Инструмент эффективно масштабируется. Бэкенд на PostgreSQL гарантирует, что использование памяти остается постоянным независимо от размера набора данных. Хотя один экземпляр может обрабатывать десятки миллионов публикаций, полный набор данных из 2,38 миллиарда постов можно управлять, запуская несколько экземпляров, сегментированных по темам. Эта архитектура делает сохранение всей истории Reddit выполнимой задачей для частных лиц и небольших организаций.

Расширенные возможности

Помимо простого просмотра, архив создан для интеграции и автоматизации. Он поставляется с полным REST API, включающим более 30 конечных точек. Пользователи могут запрашивать публикации, комментарии, пользователей, сабреддиты и выполнять агрегации напрямую против своей локальной базы данных.

Что, возможно, наиболее примечательно, проект включает сервер Model Context Protocol (MCP) с 29 инструментами. Это позволяет приложениям ИИ напрямую запрашивать локальный архив Reddit, открывая новые возможности для ИИ-анализа и добычи данных без использования облачных сервисов. Разработчик создал инструмент с использованием Python, PostgreSQL, шаблонов Jinja2 и Docker, применяя Claude Code в эксперименте по разработке с помощью ИИ.

Варианты развертывания

Инструмент спроектирован для доступности пользователям с разным уровнем технической подготовки. Он поддерживает широкий спектр сценариев хостинга — от самых простых до наиболее безопасных. Доступные варианты самостоятельного хостинга включают:

  • USB-накопитель / локальная папка: Самая базовая настройка; просто откройте файлы HTML.
  • Домашний сервер (LAN): Обслуживание архива для устройств на Raspberry Pi или аналогичном оборудовании.
  • Скрытая служба Tor: Две команды позволяют получить доступ через Tor без проброса портов.
  • VPS с HTTPS: Стандартный веб-хостинг для публичного или частного доступа.
  • GitHub Pages: Подходит для хостинга небольших архивов.

Живая демонстрация архиватора доступна в сети и демонстрирует статичный опыт просмотра. Код проекта выпущен в общественное достояние через GitHub, поощряя широкое распространение и вклад.

Взгляд в будущее

Выпуск этого инструмента-архиватора представляет собой значительный шаг в сохранении цифровой культуры. По мере того как платформы развиваются и ограничивают доступ, способность частных лиц поддерживать свои собственные архивы становится все более ценной. Этот проект предлагает надежный, масштабируемый и приватный метод для обеспечения того, что 2,38 миллиарда постов, составляющих историю Reddit, останутся доступными для будущих поколений.

Демократизируя доступ к массивным наборам данных, инструмент дает исследователям, разработчикам и энтузиастам возможность продолжать свою работу без страха перед нестабильностью платформы. Он служит свидетельством способности сообщества с открытым исходным кодом реагировать на централизованный контроль децентрализованными решениями.

Часто задаваемые вопросы

Какова основная цель этого инструмента?

Инструмент позволяет пользователям загружать, архивировать и просматривать историю Reddit полностью в оффлайне. Он преобразует массивные дампы данных в статичные файлы HTML, обеспечивая постоянный доступ без зависимости от серверов или API Reddit.

Как он обеспечивает конфиденциальность данных и владение ими?

Обрабатывая данные локально и генерируя статичные файлы, инструмент гарантирует, что никакая информация не отправляется на внешние серверы. Пользователи владеют данными после загрузки, устраняя зависимость от ключей API, ограничений скорости или изменений в политике платформы.

Каковы технические требования?

Для базового просмотра требуется только веб-браузер. Для расширенного поиска и функций API система требует Docker и PostgreSQL, но все компоненты работают на локальном оборудовании пользователя.

Continue scrolling for more

ИИ преобразует математические исследования и доказательства
Technology

ИИ преобразует математические исследования и доказательства

Искусственный интеллект перешел из статуса непостоянного обещания в реальность, преобразуя математические исследования. Модели машинного обучения теперь генерируют оригинальные теоремы.

Just now
4 min
171
Read Article
Accidents

Кран обрушился на поезд в Таиланде: 22 погибших

В среду утром строительный кран обрушился на пассажирский поезд в Таиланде, что привело к катастрофическому сходу с рельсов и многочисленным жертвам.

1h
5 min
7
Read Article
Accidents

Кран обрушился на поезд в Таиланде: 22 погибших

Катастрофическое обрушение крана на движущийся поезд в северном Таиланде унесло жизни как минимум 22 человек и ранило более 30.

1h
5 min
7
Read Article
Рынки прогнозов побили рекорды с объемом торгов в $702 млн
Economics

Рынки прогнозов побили рекорды с объемом торгов в $702 млн

Объем торгов на рынках прогнозов достиг рекордных $701,7 млн. Платформа Kalshi доминирует, обеспечивая две трети активности. Несмотря на регуляторный надзор, индустрия демонстрирует массовое принятие.

1h
5 min
6
Read Article
Entertainment

Триумф «суперпап»: когда отцовство становится смыслом жизни

Известные актеры, такие как Киран Калкин и Том Холланд, публично ставят отцовство выше карьеры, пересматривая стандарты мужественности и создавая новый архетип «суперпапы».

1h
4 min
7
Read Article
Sports

«Тандер» прервал проигрышную серию против «Спэрс» Вембаньямы

«Оклахома-Сити Тандер» наконец прервала серию поражений, одержав первую победу в сезоне над «Сан-Антонио Спэрс». Матч прошел в Оклахоме.

1h
5 min
6
Read Article
2025 год: третий жарчайший год в истории
Environment

2025 год: третий жарчайший год в истории

Глобальные температуры резко выросли в 2025 году, что ознаменовало третий жарчайший год в истории. Эксперты предупреждают, что тенденция сохранится и в 2026 году.

1h
3 min
6
Read Article
Атаки израильского правительства на Верховный суд
Politics

Атаки израильского правительства на Верховный суд

Правительство Израиля ведет ожесточенную кампанию против Верховного суда, представляя его как недемократический институт, чтобы подготовить почву для неповиновения судебным приказам.

1h
5 min
6
Read Article
Скончался звукорежиссер Томас Коузи. Ему было 76 лет
Entertainment

Скончался звукорежиссер Томас Коузи. Ему было 76 лет

Скончался ветеран звукозаписи Томас Коузи. Он работал над такими фильмами, как «Дик Трейси» и «Телевизионные новости». Ему было 76 лет.

2h
3 min
6
Read Article
Politics

Министр иностранных дел Новой Зеландии раскритиковала главу Центробанка

Министр иностранных дел Новой Зеландии Уинстон Питерс публично раскритиковал нового главу Резервного банка Анну Бреман за поддержку председателя ФРС США.

2h
5 min
7
Read Article
🎉

You're all caught up!

Check back later for more stories

На главную