Jangan Percaya, Verifikasi: Sebuah Tinjauan Inferensi Terdesentralisasi

Menengah

4/16/2024, 2:08:16 AM

Persimpangan antara blockchain dan pembelajaran mesin hampir terjadi, namun dalam penalaran terdesentralisasi, menyeimbangkan biaya dan kepercayaan adalah tantangan kunci.

Katakanlah Anda ingin menjalankan model bahasa besar seperti Llama2-70B. Model sebesar ini memerlukan lebih dari 140GB memori, yang berarti Anda tidak dapat menjalankan model mentah di mesin rumah Anda. Apa pilihannya? Anda mungkin beralih ke penyedia cloud, tetapi Anda mungkin tidak terlalu antusias untuk mempercayai perusahaan terpusat tunggal untuk menangani beban kerja ini bagi Anda dan mengumpulkan semua data penggunaan Anda. Lalu apa yang Anda butuhkan adalah inferensi terdesentralisasi, yang memungkinkan Anda menjalankan model ML tanpa bergantung pada penyedia tunggal apa pun.

Masalah Kepercayaan

Dalam jaringan terdesentralisasi, tidak cukup hanya menjalankan model dan mempercayai keluarannya. Katakanlah saya meminta jaringan untuk menganalisis dilema tata kelola menggunakan Llama2–70B. Bagaimana saya tahu bahwa sebenarnya tidak menggunakan Llama2–13B, memberikan analisis yang lebih buruk kepada saya, dan mengantongi selisihnya?

Di dunia terpusat, Anda mungkin percaya bahwa perusahaan seperti OpenAI melakukan ini dengan jujur karena reputasi mereka dipertaruhkan (dan sampai batas tertentu, kualitas LLM itu jelas). Tetapi di dunia terdesentralisasi, kejujuran tidak dianggap - itu diverifikasi.

Ini adalah tempat di mana inferensi yang dapat diverifikasi masuk ke dalam permainan. Selain memberikan respons terhadap pertanyaan, Anda juga membuktikan bahwa itu berjalan dengan benar pada model yang Anda minta. Tapi bagaimana caranya?

Pendekatan naif akan menjalankan model sebagai kontrak pintar on-chain. Ini pasti akan menjamin output diverifikasi, tetapi ini sangat tidak praktis. GPT-3 mewakili kata-kata dengan dimensi penyemat 12.288. Jika Anda melakukan satu kali perkalian matriks dengan ukuran ini on-chain, itu akan menghabiskan sekitar $10 miliar dengan harga gas saat ini — komputasi akan mengisi setiap blok selama sekitar sebulan penuh.

Jadi, tidak. Kita akan memerlukan pendekatan yang berbeda.

Setelah mengamati lanskap, jelas bagi saya bahwa ada tiga pendekatan utama yang muncul untuk menangani inferensi yang dapat diverifikasi: bukti tanpa pengetahuan, bukti penipuan optimis, dan kriptoekonomi. Masing-masing memiliki keamanan dan implikasi biaya masing-masing.

1. Zero-Knowledge Proofs (ZK ML)

Bayangkan bisa membuktikan Anda menjalankan model besar, tetapi buktinya efektifnya berukuran tetap terlepas dari seberapa besar model tersebut. Itulah yang dijanjikan ZK ML, melalui keajaiban ZK-SNARKs.

Meskipun terdengar elegan secara prinsip, mengompilasi jaringan syaraf dalam sirkuit pengetahuan nol yang kemudian dapat dibuktikan sangat sulit. Ini juga sangat mahal - setidaknya, Anda kemungkinan besar melihat pada@ModulusLabs/bab-5-biaya-intelegensi-da26dbf93307">Biaya 1000x untuk inferensi dan 1000x laten (waktu untuk menghasilkan bukti), tanpa mengatakan mengenai menyusun model itu sendiri ke dalam rangkaian sebelum hal ini bisa terjadi. Pada akhirnya biaya itu harus diteruskan kepada pengguna, sehingga hal ini akan menjadi sangat mahal bagi pengguna akhir.

Di sisi lain, ini adalah satu-satunya pendekatan yang menjamin kebenaran secara kriptografis. Dengan ZK, penyedia model tidak bisa curang tidak peduli seberapa keras mereka mencoba. Namun, hal ini dilakukan dengan biaya yang sangat besar, sehingga membuat hal ini tidak praktis untuk model-model besar dalam waktu yang dapat diprediksi.

Contoh: EZKL, Modulus Labs, Giza

2. Bukti Kecurangan Optimis (Optimis ML)

Pendekatan optimis adalah percaya, namun memverifikasi. Kami mengasumsikan inferensi tersebut benar kecuali terbukti sebaliknya. Jika sebuah node mencoba untuk curang, "penjaga" dalam jaringan dapat menuduh si penipu dan menantang mereka menggunakan bukti kecurangan. Para penjaga ini harus selalu memantau rantai dan menjalankan kembali inferensi pada model mereka sendiri untuk memastikan keluarannya benar.

Bukti kecurangan ini gaya Truebitpermainan tantangan-respon interaktif, di mana Anda secara berulang membagi dua jejak eksekusi model on-chain sampai Anda menemukan kesalahan.

Jika ini benar-benar terjadi, itu sangat mahal, karena program-program ini besar dan memiliki keadaan internal yang besar — satu inferensi GPT-3 sekitar1 petaflop(10¹⁵ operasi titik mengambang). Tetapi teori permainan menyarankan hal ini seharusnya hampir tidak pernah terjadi (bukti kecurangan juga terkenal sulit untuk dikodekan dengan benar, karena kode tersebut hampir tidak pernah diuji dalam produksi).

Sisi positifnya adalah ML yang optimis aman selama ada seorang pengamat jujur yang memperhatikan. Biayanya lebih murah daripada ZK ML, tetapi ingat bahwa setiap pengamat dalam jaringan tersebut menjalankan ulang setiap kueri sendiri. Pada titik keseimbangan, ini berarti bahwa jika ada 10 pengamat, biaya keamanan tersebut harus diteruskan ke pengguna, sehingga mereka harus membayar lebih dari 10x biaya inferensi (atau berapa pun jumlah pengamat yang ada).

Kekurangannya, seperti halnya dengan optimistic rollups secara umum, adalah Anda harus menunggu periode tantangan berlalu sebelum Anda yakin respons tersebut diverifikasi. Namun, tergantung pada bagaimana jaringan tersebut diparameterisasi, Anda mungkin harus menunggu beberapa menit daripada beberapa hari.

Contoh: Now, Gensyn(meskipun saat ini kurang spesifik)

3. Cryptoeconomics (Cryptoeconomic ML)

Di sini kita meninggalkan semua teknik mewah dan melakukan hal yang sederhana: pemungutan suara berbobot staking. Pengguna menentukan berapa banyak node yang harus menjalankan kueri mereka, mereka masing-masing mengungkapkan tanggapan mereka, dan jika ada ketidaksesuaian di antara tanggapan, yang berbeda akan dipotong. Hal yang standar untuk oracle - ini adalah pendekatan yang lebih langsung yang memungkinkan pengguna menetapkan tingkat keamanan yang diinginkan mereka, seimbang antara biaya dan kepercayaan. Jika Chainlink melakukan ML, ini adalah cara mereka melakukannya.

Latensi di sini cepat — kamu hanya perlu commit-revealdari setiap node. Jika ini ditulis ke blockchain, maka secara teknis ini dapat terjadi dalam dua blok.

Namun keamanannya adalah yang paling lemah. Sebagian besar node mungkin secara rasional memilih untuk berkolusi jika mereka cukup licik. Sebagai pengguna, Anda harus memikirkan seberapa besar taruhan node-node ini dan berapa biaya yang harus mereka keluarkan untuk menipu. Dengan begitu, menggunakan sesuatu seperti restaking Eigenlayer dan keamanan yang dapat diatribusikan, jaringan dapat memberikan asuransi secara efektif dalam kasus kegagalan keamanan.

Tetapi bagian yang bagus dari sistem ini adalah pengguna dapat menentukan seberapa banyak keamanan yang mereka inginkan. Mereka dapat memilih untuk memiliki 3 node atau 5 node dalam kuarum mereka, atau setiap node dalam jaringan — atau, jika mereka ingin YOLO, mereka bahkan dapat memilih n=1. Fungsi biaya di sini sederhana: pengguna membayar untuk berapa banyak node yang mereka inginkan dalam kuarum mereka. Jika Anda memilih 3, Anda membayar 3x biaya inferensi.

Pertanyaan sulit di sini: bisakah Anda membuat n=1 aman? Dalam implementasi yang naif, sebuah node tunggal seharusnya menipu setiap saat jika tidak ada yang memeriksanya. Tetapi saya curiga jika Anda mengenkripsi pertanyaan-pertanyaan dan melakukan pembayaran melalui niat, Anda mungkin dapat mengaburkan ke node bahwa sebenarnya hanya mereka yang merespons tugas ini. Dalam hal itu, Anda mungkin dapat membebankan biaya pengguna rata-rata kurang dari 2x biaya inferensi.

Pada akhirnya, pendekatan kriptoekonomi adalah yang paling sederhana, paling mudah, dan mungkin paling murah, tetapi ini adalah yang paling tidak menarik dan pada prinsipnya yang paling tidak aman. Tetapi seperti biasa, setan itu ada di detail-detailnya.

Contoh: Ritual(meskipun saat ini belum dijelaskan dengan baik),Jaringan Atoma

Mengapa Verifiable ML Sulit

Anda mungkin bertanya-tanya mengapa kita belum memiliki semua ini? Pada dasarnya, model pembelajaran mesin hanyalah program komputer yang sangat besar. Membuktikan bahwa program-program dijalankan dengan benar telah lama menjadi inti dari blockchain.

Inilah mengapa tiga pendekatan verifikasi ini mencerminkan cara-cara blockchain mengamankan ruang blok mereka — ZK rollups menggunakan bukti ZK, rollups optimis menggunakan bukti penipuan, dan sebagian besar blockchain L1 menggunakan kriptoekonomi. Tidak mengherankan bahwa kita tiba pada solusi yang sama secara mendasar. Jadi, apa yang membuat ini sulit saat diterapkan pada ML?

ML unik karena komputasi ML umumnya direpresentasikan sebagai grafik komputasi padat yang dirancang untuk berjalan secara efisien pada GPU. Mereka tidak dirancang untuk dibuktikan. Jadi jika Anda ingin membuktikan komputasi ML dalam lingkungan ZK atau optimis, mereka harus dikompilasi ulang dalam format yang memungkinkan hal ini terjadi - yang sangat kompleks dan mahal.

Kesulitan fundamental kedua dengan ML adalah nondeterministik. Verifikasi program mengasumsikan bahwa output program bersifat deterministik. Tetapi jika Anda menjalankan model yang sama pada arsitektur GPU atau versi CUDA yang berbeda, Anda akan mendapatkan output yang berbeda. Bahkan jika Anda harus memaksa setiap node menggunakan arsitektur yang sama, Anda masih memiliki masalah ketidakpastian yang digunakan dalam algoritma (kebisingan dalam model difusi, atau sampel token dalam LLMs). Anda dapat memperbaiki ketidaktertentuan tersebut dengan mengendalikan RNGbenih. Tapi bahkan dengan semua itu, Anda masih dibiarkan dengan masalah menakutkan terakhir: ketidakdeterministik yang melekat dalam operasi floating point.

Hampir semua operasi di GPU dilakukan pada angka floating point. Floating points adalah sensitif karena mereka tidak asosiatifArtinya, tidak benar bahwa (a + b) + c selalu sama dengan a + (b + c) untuk floating points. Karena GPU sangat diparellelkan, urutan penambahan atau perkalian mungkin berbeda pada setiap eksekusi, yang dapat menyebabkan perbedaan kecil pada output. Hal ini tidak mungkin memengaruhi output dari LLM mengingat sifat diskrit dari kata-kata, namun untuk model gambar, hal ini mungkin menghasilkan nilai piksel yang sedikit berbeda, sehingga dua gambar tidak cocok dengan sempurna.

Ini berarti Anda harus menghindari penggunaan titik mengambang, yang berarti pukulan besar pada kinerja, atau Anda perlu memperbolehkan sedikit kelenturan dalam membandingkan output. Salah satu cara atau cara lain, detailnya rumit, dan Anda tidak bisa sepenuhnya mengabstraksikannya. (Inilah sebabnya, ternyata, EVM tidak mendukungangka floating point, meskipun beberapa blockchain seperti DEKATdo.)

Singkatnya, jaringan inferensi terdesentralisasi sulit karena semua detail penting, dan kata-kata.

Kesimpulannya

Saat ini blockchain dan ML jelas memiliki banyak hal untuk dikatakan satu sama lain. Satu adalah teknologi yang menciptakan kepercayaan, dan yang lain adalah teknologi yang sangat membutuhkannya. Sementara setiap pendekatan terhadap inferensi terdesentralisasi memiliki kompromi-komprominya sendiri, saya sangat tertarik untuk melihat apa yang dilakukan oleh para pengusaha dengan alat-alat ini untuk membangun jaringan terbaik di luar sana.

Tapi saya tidak menulis artikel ini untuk menjadi kata terakhir — Saya sedang memikirkan gagasan-gagasan ini banyak dalam waktu nyata dan memiliki banyak perdebatan yang hidup dengan orang-orang. Saya selalu merasa menulis adalah cara terbaik untuk menguji ide-ide saya. Jika Anda sedang membangun sesuatu di ruang ini, jangan ragu untuk menghubungi! Saya selalu senang untuk belajar tentang apa yang sedang Anda kerjakan — dan jika Anda dapat membuktikan kesalahan saya, semakin baik.

Disclaimer：

Artikel ini dicetak ulang dari [Penelitian Capung], Semua hak cipta milik penulis asli [Haseeb Qureshi]. Jika ada keberatan terhadap cetakan ulang ini, silakan hubungi Gate Belajartim, dan mereka akan menanganinya dengan segera.
Penyangkalan Tanggung Jawab: Pandangan dan opini yang terdapat dalam artikel ini semata-mata milik penulis dan tidak merupakan nasihat investasi apa pun.
Terjemahan artikel ke bahasa lain dilakukan oleh tim Gate Learn. Kecuali disebutkan, menyalin, mendistribusikan, atau menjiplak artikel yang diterjemahkan dilarang.