1. Введение

Блокчейны без разрешения, примером которых являются Bitcoin и Ethereum, произвели революцию в децентрализованных системах, но сталкиваются со значительными проблемами масштабируемости. В то время как энергопотребление консенсуса Proof-of-Work (PoW) широко обсуждается, существенные и растущие накладные расходы на хранение, требуемые полными узлами, остаются критическим, но недостаточно решаемым барьером для более широкого участия и здоровья сети. В данной статье представлено первое всестороннее эмпирическое исследование, анализирующее, как полные узлы используют данные блокчейна для валидации, что приводит к практическим стратегиям для радикального сокращения требований к локальному хранилищу без изменения базового протокола.

2. Предпосылки и постановка проблемы

Целостность блокчейна зависит от полной, проверяемой истории транзакций. Для Bitcoin этот реестр превышает 370 ГБ, требуя значительных ресурсов от участников, которые запускают полные узлы для независимой проверки транзакций.

2.1 Бремя хранения данных в блокчейнах без разрешения

Требования к хранению прямо пропорциональны уровню внедрения и объему транзакций. Хранение всего реестра необходимо для безопасности (предотвращение двойного расходования), но создает высокий порог входа, приводя к рискам централизации, поскольку все меньше пользователей могут позволить себе запускать полные узлы.

Ключевая статистика

Хранилище полного узла Bitcoin: >370 ГБ (на момент проведения исследования). Это создает значительные аппаратные затраты и демотивирует широкое развертывание узлов.

2.2 Существующие решения и их ограничения

Предыдущие подходы включают:

  • Контрольные точки/Снимки состояния: Требуют изменений протокола или хард-форков, создавая проблемы координации.
  • Обрезка в Bitcoin: Позволяет пользователям устанавливать произвольный порог хранения (в ГБ или по высоте блока). Это неоптимально, так как не дает рекомендаций, потенциально удаляя все еще релевантные данные или сохраняя ненужные данные, вынуждая узлы повторно запрашивать данные из сети и увеличивая задержки.

3. Методология и эмпирический анализ

Основной вклад этой работы — анализ, основанный на данных о реальном поведении узлов, для информирования об оптимизации.

3.1 Сбор данных и профилирование поведения узлов

Авторы модифицировали полные узлы Bitcoin для мониторинга и логирования каждого обращения к данным (чтения) из локального хранилища во время стандартной работы — в частности, во время проверки новых транзакций и блоков. Это создает профиль того, какие части блокчейна действительно необходимы для текущей верификации.

3.2 Анализ паттернов доступа к данным

Анализ выявил ключевую инсайт: значительная часть исторических данных блокчейна редко или никогда не используется после определенного периода. Данные, необходимые для проверки текущего состояния (Непотраченные Выходы Транзакций — UTXO) и недавней истории, составляют гораздо меньшее подмножество, чем полный реестр.

Ключевой инсайт

Полным узлам не нужна вся многогигабайтная история для проверки новых блоков и транзакций в реальном времени. Активно необходимый набор данных на порядки меньше.

4. Предлагаемые стратегии сокращения объема хранилища

Основываясь на эмпирических выводах, статья предлагает клиентские стратегии.

4.1 Локальная обрезка хранилища без изменений протокола

Основная стратегия — это интеллектуальный, учитывающий данные алгоритм обрезки. Вместо обрезки по простому возрасту или размеру узел может безопасно удалять данные блокчейна (например, старые потраченные выходы транзакций), которые, как показало профилирование, не нужны для будущей проверки. Это реализуется исключительно на стороне клиента.

4.2 Клиентские техники оптимизации

Дополнительные оптимизации включают сжатие редко используемых, но необходимых исторических данных, а также стратегии кэширования, которые отдают приоритет хранению "рабочего набора" (часто используемых UTXO и недавних блоков) в более быстром хранилище.

5. Результаты и оценка

5.1 Достижимое сокращение объема хранилища

Самый поразительный результат исследования: применяя их интеллектуальную стратегию обрезки, полный узел Bitcoin может сократить свой локальный объем хранилища примерно до 15 ГБ, сохраняя при этом полные возможности валидации. Это представляет собой сокращение более чем на 95% от полного реестра в 370+ ГБ.

Диаграмма: Сравнение объема хранилища

(Описание воображаемой диаграммы) Столбчатая диаграмма, сравнивающая "Полный реестр (370 ГБ)" и "Обрезанный рабочий набор (15 ГБ)". Обрезанный набор представляет собой малую долю от оригинала, визуально подчеркивая достигнутое значительное сокращение.

5.2 Компромиссы производительности и накладных расходов

Вычислительные накладные расходы на профилирование и интеллектуальную обрезку сообщаются как незначительные. Компромисс заключается в том, что если узлу необходимо проверить транзакцию, ссылающуюся на очень старые, обрезанные данные, он должен запросить криптографическое доказательство (например, доказательство Меркла) из сети, что влечет небольшую задержку связи. Однако анализ показывает, что это редкое событие.

6. Технические детали и математическая модель

Логика обрезки основывается на понимании жизненного цикла транзакции. Выход транзакции (UTXO), который был потрачен, больше не нужен для проверки будущих расходов. Основную логику можно смоделировать. Пусть $L$ — полный реестр. Пусть $A(t)$ — множество всех обращений к данным (чтений) из $L$ узлом в течение временного окна до момента $t$. Существенный рабочий набор $W$ определяется как:

$W = \{ d \in L \mid P(\text{обращение к } d \text{ в будущей проверке}) > \tau \}$

где $\tau$ — небольшой порог вероятности, полученный эмпирически. Данные, не входящие в $W$, могут быть обрезаны. Безопасность основывается на возможности получения доказательств Меркла для обрезанных данных, где размер доказательства логарифмически зависит от размера блокчейна: $O(\log n)$.

7. Фреймворк анализа: Пример использования

Сценарий: Новый бизнес хочет запустить полный узел Bitcoin для надежной, независимой проверки транзакций, но имеет ограниченный бюджет на инфраструктуру хранения.

Применение фреймворка:

  1. Профилирование: Развернуть стандартный полный узел с включенным профилированием на 2 недели, чтобы изучить его конкретные паттерны доступа.
  2. Расчет: На основе профиля алгоритмически определить оптимальный набор данных $W$. Исследование предполагает, что для Bitcoin он стабилизируется около 15 ГБ.
  3. Обрезка: Удалить все данные блокчейна, не входящие в $W$.
  4. Эксплуатация: Запустить обрезанный узел. В редком случае необходимости в обрезанных данных запросить доказательство Меркла из одноранговой сети.

Результат: Бизнес достигает полной безопасности валидации с ~15 ГБ хранилища вместо 370+ ГБ, значительно снижая стоимость и сложность.

8. Будущие применения и направления исследований

  • Адаптация к другим блокчейнам: Применение этой эмпирической методологии к Ethereum, особенно после слияния (The Merge), и другим PoW/PoS цепям для выработки специфичных для цепи параметров обрезки.
  • Стандартизация: Предложение BIP (Bitcoin Improvement Proposal) для стандартизации формата данных профилирования и запросов доказательств, что сделает обрезанные узлы более эффективными.
  • Улучшение легких клиентов: Сокращение разрыва между полными узлами и SPV (Simplified Payment Verification) клиентами. "Почти полные" узлы с хранилищем в 15 ГБ предлагают гораздо более высокую безопасность, чем SPV клиенты, будучи при этом гораздо более развертываемыми, чем традиционные полные узлы.
  • Движение к децентрализации: Эта технология может стать ключевым фактором для кампаний по увеличению количества полных узлов по всему миру, улучшая устойчивость сети и устойчивость к цензуре.

9. Список литературы

  1. Sforzin, A., Maso, M., Soriente, C., & Karame, G. (Год). On the Storage Overhead of Proof-of-Work Blockchains. Название конференции/журнала.
  2. Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
  3. Bitcoin Core Documentation. (n.d.). Blockchain Pruning. Retrieved from https://bitcoincore.org/en/doc/
  4. Buterin, V. (2014). Ethereum: A Next-Generation Smart Contract and Decentralized Application Platform.
  5. Bonneau, J., et al. (2015). SoK: Research Perspectives and Challenges for Bitcoin and Cryptocurrencies. IEEE S&P.
  6. Gervais, A., et al. (2016). On the Security and Performance of Proof of Work Blockchains. ACM CCS.

Перспектива аналитика: Спасательный круг для масштабируемости устаревших цепей

Ключевой инсайт: Эта статья наносит точный удар по самому коварному узкому месту масштабируемости блокчейна: раздутию состояния. В то время как мир одержим TPS (транзакциями в секунду) и энергопотреблением, Sforzin и др. правильно определяют, что постоянный, неограниченный рост хранилища — это тихий убийца децентрализации. Их работа доказывает, что догма, требующая от полных узлов хранить всю историю, — это самоналоженное ограничение, а не криптографическая необходимость. Реальное требование — хранить несущий доказательства поднабор данных, необходимый для текущей валидации, — различие, имеющее огромные практические последствия.

Логическая последовательность: Аргументация элегантно эмпирична. Вместо того чтобы предлагать глобальную переделку протокола сверху вниз, они сначала модифицируют узлы, чтобы наблюдать какие данные фактически используются. Этот подход, ориентированный на данные, отражает лучшие практики оптимизации производительности систем, аналогичные профилированию приложения перед оптимизацией. Находка о том, что "рабочий набор" составляет ~15 ГБ, является ключевой. Она преобразует проблему из "как нам изменить Bitcoin?" в "как нам безопасно отбросить неиспользуемые 95%?". Решение — интеллектуальная обрезка + откат на доказательства Меркла, получаемые из сети, — это мастер-класс прагматичной инженерии, напоминающий принципы политик вытеснения кэша в компьютерной архитектуре или способ управления страницами памяти современными операционными системами.

Сильные стороны и недостатки: Сильная сторона — возможность развертывания. Будучи изменением на стороне клиента, оно не требует спорных хард-форков, что делает внедрение осуществимым в ближайшей перспективе. Оно напрямую снижает барьер для запуска полного узла, потенциально обращая вспять тенденцию к централизации узлов. Однако анализ имеет недостатки. Во-первых, он вводит новую, тонкую зависимость: обрезанные узлы должны полагаться на сеть (в частности, на необрезанные "архивные" узлы) для предоставления доказательств для старых данных. Это создает двухуровневую систему узлов и теоретически может быть использовано, если архивные узлы станут редкими или злонамеренными. Во-вторых, как отмечают исследователи вроде Bonneau и др. в их "SoK" по безопасности Bitcoin, модель безопасности легких клиентов (на которую этот подход похож) строго слабее, чем у полного архивного узла, поскольку она вводит допущение о доверии к доступности данных. Статья несколько поверхностно рассматривает долгосрочные последствия для безопасности этого сдвига.

Практические выводы: Для блокчейн-проектов, особенно устоявшихся PoW-цепей, это исследование является планом для пакета "масштабируемости устаревших цепей". Непосредственное действие — интегрировать это профилирование и интеллектуальную обрезку в основные клиенты, такие как Bitcoin Core, в качестве оптимизированной опции по умолчанию. Для регуляторов и предприятий эта технология делает запуск соответствующих требованиям, самопроверяющих узлов гораздо более осуществимым, снижая зависимость от сторонних API-провайдеров. В перспективе методология должна быть применена к дереву состояния Ethereum, которое представляет собой другую, но столь же критичную проблему хранения. Конечный инсайт заключается в том, что масштабируемость блокчейна — это не только о том, чтобы делать больше и быстрее; это о том, чтобы быть умнее с тем, что у нас уже есть. Эта работа — важный шаг в этом направлении, предлагая путь к поддержанию децентрализации без ущерба для гарантий безопасности, которые делают блокчейны ценными.