第3課

Iceberg+Spark+Trino：區塊鏈的現代開源數據堆棧

在本章中，你將認識Footprint的關鍵架構更新、特色功能；以及它在數據收集和整理方面的表現

現代區塊鏈數據堆棧面臨的挑戰

現代區塊鏈索引初創公司可能面臨幾個挑戰，包括：

巨大的數據量。隨著區塊鏈上數據量的增加，數據索引將需要擴展以處理增加的負載並提供高效的數據訪問。這會導致更高的存儲成本、緩慢的指標計算和數據庫服務器負載的增加。

複雜的數據處理管道。區塊鏈技術很複雜，構建全面可靠的數據索引需要深入瞭解底層數據結構和算法。這也受到區塊鏈實現方案多樣性的影響。舉個具體的例子，以太坊中的NFT通常是在遵循ERC721和ERC1155格式的智能合約中創建的，而Polkadot上的NFT通常是直接在區塊鏈運行時構建的。但最終，它們都應被視為NFT並應以此方式保存。

集成能力。為了為用戶提供最大價值，區塊鏈索引解決方案可能需要將其數據索引與其他系統（如分析平臺或API）集成。這是具有挑戰性的，需要在架構設計上投入大量努力。
隨著區塊鏈技術的使用越來越廣泛，存儲在區塊鏈上的數據量也增加了。這是因為隨著越來越多的人使用該技術，每筆交易都會向區塊鏈添加新數據。此外，區塊鏈技術的使用已經從簡單的貨幣轉移應用（如關於比特幣使用的應用）發展到在智能合約中實現業務邏輯的更復雜的應用。這些智能合約會產生大量數據，導致區塊鏈更加複雜、更加龐大。

在本文中，我們分階段回顧了Footprint Analytics技術架構的演變，並以此為例，探討了Iceberg-Trino技術堆棧如何應對鏈上數據的挑戰。

Footprint Analytics已經將大約22個公鏈數據、17個NFT市場、1900個GameFi項目和超過10萬個NFT集合索引到語義抽象數據層中。它是世界上最全面的區塊鏈數據倉庫解決方案。

區塊鏈數據包括超過200億行的金融交易記錄，經常被數據分析師查詢。

為滿足不斷增長的業務需求，在過去的幾個月中，我們進行了3次重大升級，包括：

架構1.0 Bigquery

在Footprint Analytics最初，我們使用谷歌Bigquery作為我們的存儲和查詢引擎。Bigquery是一個很棒的產品，它速度極快，易於使用，並提供動態算術能力和靈活的UDF語法，能夠幫助我們快速完成工作。

然而，Bigquery也存在一些問題。

數據沒有壓縮，導致存儲成本很高，特別是在存儲Footprint Analytics超過22個區塊鏈的原始數據時。

併發能力不足：Bigquery僅同時支持100條查詢，不適用於Footprint Analytics的高併發場景，因為需要為大量分析師和用戶提供服務。

非開源產品，綁定 Google 一家供應商。
因此，我們決定探索其他替代架構。

架構2.0 OLAP

我們對一些非常流行的OLAP（聯機分析處理）產品感興趣，OLAP最吸引人的優勢是它的查詢響應時間，通常能在亞秒內返回大量數據的查詢結果，並且還支持數千個同時查詢。

我們選擇了最好的OLAP數據庫之一Doris。這個引擎表現不錯，但我們很快遇到了一些其他問題：

尚不支持數組或JSON等數據類型（截至2022年11月）。數組是某些區塊鏈中常見的數據類型。例如，evm日誌中的topic字段。無法直接對數組進行計算，會影響我們計算許多業務指標。

對DBT和merge語法的支持有限。它們是數據工程師在ETL/ELT(數據提取-加載-轉換）場景中常見的需求，我們需要更新一些新索引的數據。
話雖如此，我們無法在生產中完全使用Doris作為整個數據管道，因此我們嘗試將Doris作為OLAP數據庫來解決我們在數據生產管道中的一部分問題，作為查詢引擎並提供快速和高併發的查詢能力。

然而，我們無法用Doris替代Bigquery，因此需要定期將數據從Bigquery同步到Doris，僅將Doris作為查詢引擎。這個同步過程存在許多問題，其中之一是當OLAP引擎忙於向前端客戶端提供查詢時，寫入數據會迅速堆積起來。隨後，寫入過程的速度受到影響，同步會花費更長的時間，有時甚至無法完成。

我們意識到，OLAP可以解決我們面臨的幾個問題，但無法成為Footprint Analytics的一站式解決方案，特別是對於數據處理管道而言。我們的問題更大更復雜，可以說，OLAP僅僅作為一個查詢引擎對我們來說還不夠。

架構3.0 Iceberg + Trino

歡迎來到Footprint Analytics架構3.0，這是對底層架構的全面重構。我們從頭開始重新設計了整個架構，將數據的存儲、計算和查詢分成三個不同的部分，從Footprint Analytics早期的兩個架構中吸取教訓，並從其他成功的大數據項目如Uber、Netflix和Databricks中學習經驗。

數據湖的引入

我們首先將注意力轉向了數據湖，這是一種用於結構化和非結構化數據的新型數據存儲方式。數據湖非常適合鏈上數據的存儲，因為鏈上數據的格式範圍廣泛，包括非結構化原始數據和Footprint Analytics所著名的結構化抽象數據。我們期望用數據湖來解決數據存儲問題，理想情況下，它還將支持Spark和Flink等主流計算引擎，這樣，隨著Footprint Analytics的發展，在與不同類型的處理引擎集成就不會出現額外問題。

Iceberg與Spark、Flink、Trino和其他計算引擎可以非常好地集成到一起，我們可以為每個指標選擇最合適的計算方式。例如：