AI+Web3 hợp tác: Mở khóa dữ liệu và Khả năng tính toán mới

AI+Web3: Tháp và Quảng trường

Điểm chính

  1. Dự án Web3 với khái niệm AI trở thành mục tiêu thu hút vốn trên thị trường sơ cấp và thứ cấp.

  2. Cơ hội của Web3 trong ngành AI thể hiện ở: sử dụng khuyến khích phân phối để phối hợp các nguồn cung tiềm năng trong đuôi dài, liên quan đến dữ liệu, lưu trữ và tính toán; đồng thời, xây dựng các mô hình mã nguồn mở và thị trường phi tập trung cho AI Agent.

  3. AI chủ yếu được ứng dụng trong ngành Web3 vào tài chính trên chuỗi (thanh toán tiền điện tử, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.

  4. Hiệu dụng của AI+Web3 thể hiện ở sự bổ sung lẫn nhau của cả hai: Web3 có khả năng chống lại sự tập trung của AI, AI có khả năng giúp Web3 vượt ra ngoài giới hạn.

AI+Web3:Tháp và Quảng trường

Giới thiệu

Trong hai năm qua, sự phát triển của AI đã thể hiện xu hướng tăng tốc. Cơn sóng trí tuệ nhân tạo sinh ra từ Chatgpt cũng đã tạo ra những làn sóng lớn trong lĩnh vực Web3.

Dưới sự hỗ trợ của khái niệm AI, thị trường tiền điện tử đã được nâng cao rõ rệt về tài chính. Theo thống kê, trong nửa đầu năm 2024 có 64 dự án Web3+AI hoàn thành việc huy động vốn, trong đó hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã đạt mức huy động cao nhất là 100 triệu USD trong vòng A.

Thị trường thứ cấp ngày càng phát triển, trang web tổng hợp tiền điện tử Coingecko cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD. Những tiến bộ công nghệ AI chính thống mang lại lợi ích rõ rệt, sau khi OpenAI công bố mô hình chuyển đổi văn bản thành video Sora, giá trung bình của lĩnh vực AI đã tăng 151%. Hiệu ứng AI cũng lan tỏa đến một trong những lĩnh vực thu hút vốn của tiền điện tử là Meme: MemeCoin GOAT với khái niệm AI Agent đầu tiên đã nhanh chóng nổi tiếng và đạt được định giá 1,4 tỷ USD, thành công tạo ra cơn sốt AI Meme.

Về nghiên cứu và chủ đề AI + Web3 cũng đang rất sôi nổi, từ AI + Depin đến AI Memecoin cho đến AI Agent và AI DAO hiện tại, tốc độ xoay vòng của các câu chuyện mới khiến cảm giác FOMO khó theo kịp.

Cụm từ AI+Web3 đầy tiền nóng, cơ hội và ảo tưởng tương lai này khó tránh khỏi bị xem như một cuộc hôn nhân sắp đặt do vốn đầu tư sắp đặt. Chúng ta rất khó phân biệt dưới vẻ ngoài hoa mỹ này, liệu đây là sân chơi của những kẻ đầu cơ, hay là đêm trước khi bình minh bùng nổ?

Để trả lời câu hỏi này, điều quan trọng là phải suy nghĩ: Liệu có bên kia có thể trở nên tốt hơn không? Có thể hưởng lợi từ mô hình của bên kia không? Bài viết này cố gắng đứng trên vai những người đi trước để xem xét cấu trúc này: Web3 có thể đóng vai trò gì trong các giai đoạn khác nhau của công nghệ AI, và AI có thể mang lại điều gì mới mẻ cho Web3?

Cơ hội Web3 dưới AI Stack

Trước khi khám phá chủ đề này, chúng ta cần hiểu về công nghệ của mô hình AI lớn:

Mô hình lớn giống như não bộ con người, giai đoạn đầu giống như một đứa trẻ vừa chào đời, cần quan sát và tiếp nhận lượng thông tin khổng lồ từ bên ngoài để hiểu thế giới, đây là giai đoạn "thu thập" dữ liệu. Do máy tính không có nhiều giác quan như con người, trước khi huấn luyện cần phải "tiền xử lý" để chuyển đổi thông tin không được gán nhãn thành định dạng mà máy tính có thể hiểu.

Sau khi nhập dữ liệu, AI thông qua "đào tạo" để xây dựng một mô hình có khả năng hiểu và dự đoán, tương tự như quá trình trẻ em dần hiểu và học hỏi từ thế giới bên ngoài, các tham số của mô hình giống như khả năng ngôn ngữ của trẻ em được điều chỉnh liên tục. Nội dung học tập được phân chia theo lĩnh vực hoặc giao tiếp với người khác để nhận phản hồi và sửa đổi, bước vào giai đoạn "tinh chỉnh".

Khi trẻ em lớn lên và biết nói, chúng có thể hiểu ý nghĩa và diễn đạt cảm xúc cũng như suy nghĩ trong cuộc hội thoại mới, tương tự như "suy luận" của các mô hình AI lớn, mô hình có thể phân tích và dự đoán các đầu vào ngôn ngữ và văn bản mới. Trẻ sơ sinh thể hiện cảm xúc thông qua khả năng ngôn ngữ, mô tả đối tượng và giải quyết vấn đề, tương tự như các mô hình AI lớn được áp dụng vào các nhiệm vụ cụ thể trong giai đoạn suy luận sau khi hoàn thành đào tạo, chẳng hạn như phân loại hình ảnh, nhận diện giọng nói, v.v.

AI Agent thì gần giống như hình thái tiếp theo của mô hình lớn - có khả năng tự thực hiện nhiệm vụ và theo đuổi mục tiêu phức tạp, không chỉ có khả năng suy nghĩ mà còn có khả năng ghi nhớ, lập kế hoạch, và có thể sử dụng công cụ để tương tác với thế giới.

Đối với những điểm đau của các stack AI, Web3 hiện tại đã hình thành một hệ sinh thái đa tầng, liên kết, bao gồm tất cả các giai đoạn của quy trình mô hình AI.

AI+Web3:Tháp và Quảng trường

Cơ sở hạ tầng: Airbnb về sức mạnh tính toán và dữ liệu

sức mạnh tính toán

Hiện tại, một trong những chi phí cao nhất của AI là năng lực tính toán và năng lượng cần thiết để huấn luyện và suy luận mô hình.

Ví dụ, LLAMA3 của Meta cần 16.000 GPU NVIDIA H100 trong 30 ngày để hoàn thành việc đào tạo. Phiên bản H100 80GB có giá từ 30.000 đến 40.000 USD, điều này yêu cầu đầu tư phần cứng tính toán từ 400 triệu đến 700 triệu USD (GPU + chip mạng), tiêu thụ năng lượng hàng tháng lên tới 1,6 tỷ kilowatt giờ, chi phí năng lượng gần 20 triệu USD.

Giải phóng sức mạnh AI cũng là lĩnh vực giao thoa đầu tiên giữa Web3 và AI - DePin (Mạng cơ sở hạ tầng vật lý phi tập trung). Trang web dữ liệu DePin Ninja đã liệt kê hơn 1400 dự án, các dự án tiêu biểu về chia sẻ sức mạnh GPU bao gồm io.net, Aethir, Akash, Render Network, v.v.

Logic chính là: Nền tảng cho phép những người sở hữu tài nguyên GPU không sử dụng đóng góp khả năng tính toán theo cách phi tập trung mà không cần giấy phép, thông qua thị trường trực tuyến kiểu như Uber hoặc Airbnb, nhằm nâng cao tỷ lệ sử dụng tài nguyên GPU chưa được khai thác tối đa, người dùng cuối nhận được tài nguyên tính toán hiệu quả với chi phí thấp hơn; đồng thời, cơ chế staking đảm bảo rằng những người cung cấp tài nguyên sẽ bị phạt nếu vi phạm kiểm soát chất lượng hoặc ngắt kết nối mạng.

Đặc điểm bao gồm:

  • Tập hợp tài nguyên GPU nhàn rỗi: Các nhà cung cấp chủ yếu là các trung tâm dữ liệu độc lập nhỏ và vừa bên thứ ba, các nhà khai thác mỏ tiền điện tử và những người khác với tài nguyên tính toán dư thừa, phần cứng khai thác theo cơ chế đồng thuận PoS, chẳng hạn như máy khai thác FileCoin và ETH. Một số dự án đang nỗ lực khởi động các thiết bị có rào cản tham gia thấp hơn, chẳng hạn như exolab sử dụng MacBook, iPhone, iPad và các thiết bị địa phương khác để xây dựng mạng lưới tính toán cho suy diễn mô hình lớn.

  • Thị trường đuôi dài hướng tới sức mạnh tính toán AI: a. Phía kỹ thuật: Thị trường sức mạnh tính toán phi tập trung phù hợp hơn cho các bước suy diễn. Đào tạo phụ thuộc nhiều vào khả năng xử lý dữ liệu của GPU quy mô siêu lớn, trong khi suy diễn có yêu cầu về hiệu suất tính toán GPU tương đối thấp, như Aethir tập trung vào công việc kết xuất độ trễ thấp và ứng dụng suy diễn AI. b. Phía nhu cầu: Các bên có nhu cầu tính toán nhỏ và vừa sẽ không tự đào tạo mô hình lớn của riêng mình, mà chỉ chọn tối ưu hóa và tinh chỉnh xung quanh một số mô hình lớn hàng đầu, những trường hợp này tự nhiên phù hợp với tài nguyên tính toán phân tán nhàn rỗi.

  • Quyền sở hữu phi tập trung: Ý nghĩa của công nghệ blockchain là chủ sở hữu tài nguyên luôn giữ quyền kiểm soát tài nguyên, có thể điều chỉnh linh hoạt theo nhu cầu, đồng thời thu lợi nhuận.

Dữ liệu

Dữ liệu là nền tảng của AI. Không có dữ liệu, tính toán trở nên vô dụng như bèo trôi. Mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out", lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc huấn luyện mô hình AI hiện tại, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu biết, thậm chí là giá trị và biểu hiện nhân văn của mô hình. Hiện nay, những khó khăn về nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn vấn đề sau:

  • Khát dữ liệu: Huấn luyện mô hình AI phụ thuộc vào lượng dữ liệu khổng lồ. Tài liệu công khai cho thấy, OpenAI đã huấn luyện GPT-4 với số lượng tham số lên tới hàng nghìn tỷ.

  • Chất lượng dữ liệu: Khi AI kết hợp với các ngành, tính kịp thời, sự đa dạng, tính chuyên môn của dữ liệu theo chiều dọc, và các nguồn dữ liệu mới nổi như cảm xúc từ phương tiện truyền thông xã hội đặt ra những yêu cầu mới đối với chất lượng của nó.

  • Vấn đề về quyền riêng tư và tuân thủ: Các quốc gia và doanh nghiệp đang dần nhận thức được tầm quan trọng của bộ dữ liệu chất lượng và đang có các hạn chế đối với việc thu thập dữ liệu.

  • Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quá trình xử lý phức tạp. Tài liệu công khai cho thấy, các công ty AI có hơn 30% chi phí nghiên cứu và phát triển dành cho việc thu thập và xử lý dữ liệu cơ bản.

Hiện tại, giải pháp web3 được thể hiện ở bốn khía cạnh sau:

  1. Thu thập dữ liệu: Dữ liệu thế giới thực được cung cấp miễn phí đang nhanh chóng cạn kiệt, các công ty AI đang chi tiêu ngày càng nhiều cho dữ liệu. Nhưng khoản chi này không được trả lại cho những người thực sự đóng góp dữ liệu, các nền tảng hoàn toàn hưởng lợi từ giá trị mà dữ liệu mang lại, chẳng hạn như Reddit đã đạt doanh thu tổng cộng 203 triệu USD thông qua việc ký kết thỏa thuận cấp quyền dữ liệu với các công ty AI.

Cho phép người dùng thực sự đóng góp cũng tham gia vào việc tạo ra giá trị từ dữ liệu, cũng như thông qua mạng lưới phân tán và cơ chế khuyến khích, để có được dữ liệu cá nhân hơn và có giá trị hơn với chi phí thấp, đó là tầm nhìn của Web3.

  • Grass là lớp dữ liệu và mạng phi tập trung, người dùng có thể chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung chuyển để thu thập dữ liệu thời gian thực từ toàn bộ Internet, và nhận phần thưởng token.

  • Vana giới thiệu khái niệm hồ thanh khoản dữ liệu độc đáo (DLP), người dùng có thể tải lên dữ liệu cá nhân (như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt chọn xem có cấp quyền cho bên thứ ba cụ thể sử dụng hay không.

  • Trong PublicAI, người dùng có thể sử dụng #AI或#Web3 làm nhãn phân loại trên X và @PublicAI để thực hiện thu thập dữ liệu.

  1. Xử lý dữ liệu: Trong quá trình xử lý dữ liệu AI, do dữ liệu thu thập thường ồn ào và chứa lỗi, phải được làm sạch và chuyển đổi sang định dạng có thể sử dụng trước khi đào tạo mô hình, bao gồm các nhiệm vụ chuẩn hóa, lọc và xử lý các giá trị thiếu. Giai đoạn này là một trong số ít các công đoạn thủ công trong ngành AI, đã phát sinh ra ngành nghề người đánh dấu dữ liệu, với sự gia tăng yêu cầu về chất lượng dữ liệu của mô hình, tiêu chuẩn đối với người đánh dấu dữ liệu cũng tăng lên, trong khi nhiệm vụ này tự nhiên phù hợp với cơ chế khuyến khích phi tập trung của Web3.
  • Grass và OpenLayer đều đang xem xét việc thêm vào giai đoạn quan trọng này là đánh dấu dữ liệu.

  • Synesis đưa ra khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận phần thưởng bằng cách cung cấp dữ liệu gán nhãn, chú thích hoặc các hình thức đầu vào khác.

  • Dự án gán nhãn dữ liệu Sapien đã gamify nhiệm vụ gán nhãn và cho phép người dùng đặt cọc điểm để kiếm thêm điểm.

  1. Quyền riêng tư và an ninh dữ liệu: Cần làm rõ rằng quyền riêng tư dữ liệu và an ninh dữ liệu là hai khái niệm khác nhau. Quyền riêng tư dữ liệu liên quan đến việc xử lý dữ liệu nhạy cảm, trong khi an ninh dữ liệu bảo vệ thông tin dữ liệu khỏi việc truy cập, phá hoại và đánh cắp trái phép. Do đó, lợi thế công nghệ quyền riêng tư Web3 và các ứng dụng tiềm năng được thể hiện ở hai khía cạnh: (1) huấn luyện dữ liệu nhạy cảm; (2) hợp tác dữ liệu: nhiều chủ sở hữu dữ liệu có thể cùng tham gia vào việc huấn luyện AI mà không cần chia sẻ dữ liệu gốc.

Các công nghệ bảo mật phổ biến hiện nay trong Web3 bao gồm:

  • Môi trường thực thi đáng tin cậy ( TEE ), ví dụ như Super Protocol.

  • Mã hóa đồng nhất hoàn toàn (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network.

  • Công nghệ zero-knowledge (zk), như giao thức Reclaim sử dụng công nghệ zkTLS, tạo ra chứng minh zero-knowledge cho lưu lượng HTTPS, cho phép người dùng an toàn nhập dữ liệu hoạt động, danh tiếng và danh tính từ các trang web bên ngoài mà không cần tiết lộ thông tin nhạy cảm.

Tuy nhiên, hiện tại lĩnh vực này vẫn ở giai đoạn đầu, hầu hết các dự án vẫn đang trong quá trình khám phá, khó khăn hiện tại là chi phí tính toán quá cao, chẳng hạn như:

  • Khung zkML EZKL cần khoảng 80 phút để tạo ra chứng nhận cho mô hình 1M-nanoGPT.

  • Theo dữ liệu của Modulus Labs, chi phí zkML cao hơn 1000 lần so với tính toán thuần túy.

  1. Lưu trữ dữ liệu: Sau khi có dữ liệu, cần một nơi để lưu trữ dữ liệu trên chuỗi, cũng như LLM được tạo ra từ dữ liệu đó. Với vấn đề khả năng sẵn có của dữ liệu (DA) là cốt lõi, trước khi nâng cấp Danksharding của Ethereum, thông lượng của nó là 0.08MB. Đồng thời, việc huấn luyện mô hình AI và suy diễn thời gian thực thường cần từ 50 đến 100GB thông lượng dữ liệu mỗi giây. Sự chênh lệch về quy mô này khiến các giải pháp trên chuỗi hiện tại không đủ sức đáp ứng khi đối mặt với "các ứng dụng AI tốn tài nguyên".
  • 0g.AI là dự án đại diện cho loại này. Nó là giải pháp lưu trữ tập trung được thiết kế cho nhu cầu hiệu suất cao của AI, với các tính năng chính bao gồm: hiệu suất cao và khả năng mở rộng, hỗ trợ tải lên và tải xuống nhanh chóng các tập dữ liệu quy mô lớn thông qua công nghệ phân đoạn nâng cao (Sharding) và mã sửa lỗi (Erasure Coding), tốc độ truyền dữ liệu gần 5GB mỗi giây.

Middleware: Đào tạo và suy diễn mô hình

Thị trường phi tập trung mô hình mã nguồn mở

Cuộc tranh luận về việc các mô hình AI nên là mã nguồn đóng hay mã nguồn mở chưa bao giờ ngừng lại. Sự đổi mới tập thể mà mã nguồn mở mang lại là lợi thế mà các mô hình mã nguồn đóng không thể sánh kịp, tuy nhiên, không có mô hình kiếm lợi nào, làm thế nào để các mô hình mã nguồn mở có thể tăng cường động lực cho các nhà phát triển? Đây là một hướng đi đáng suy nghĩ, người sáng lập Baidu, Lý Ngạn Hồng, đã khẳng định vào tháng 4 năm nay, "các mô hình mã nguồn mở sẽ ngày càng bị tụt lại."

Đối với điều này, Web3 đưa ra khả năng của một thị trường mô hình mã nguồn mở phi tập trung, tức là sẽ mã hóa chính mô hình, giữ lại một tỷ lệ nhất định token cho đội ngũ và hướng một phần doanh thu trong tương lai của mô hình đến những người nắm giữ token.

  • Giao thức Bittensor thiết lập một thị trường P2P cho các mô hình mã nguồn mở, bao gồm hàng chục "mạng con", trong đó các nhà cung cấp tài nguyên (tính toán, thu thập/lưu trữ dữ liệu, nhân tài học máy) cạnh tranh với nhau để đáp ứng mục tiêu của các chủ sở hữu mạng con cụ thể, các mạng con có thể tương tác và học hỏi lẫn nhau để đạt được trí thông minh mạnh mẽ hơn. Phần thưởng được phân phối thông qua bỏ phiếu của cộng đồng và được phân phối thêm dựa trên hiệu suất cạnh tranh.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Chia sẻ
Bình luận
0/400
metaverse_hermitvip
· 17giờ trước
Kiếm tiền mà không có gì phải ngại.
Xem bản gốcTrả lời0
OnchainHolmesvip
· 17giờ trước
À, làn sóng đầu cơ này lại đến rồi.
Xem bản gốcTrả lời0
RektRecordervip
· 17giờ trước
Vốn lại ngửi thấy mùi đồ ngốc.
Xem bản gốcTrả lời0
SilentObservervip
· 17giờ trước
Đợt ai này thật mạnh mẽ
Xem bản gốcTrả lời0
GasFeeCrybabyvip
· 17giờ trước
Khi nào có thể giảm?
Xem bản gốcTrả lời0
SchroedingerMinervip
· 17giờ trước
Blockchain碎碎念 Khai thác niềm vui của người khai thác
Xem bản gốcTrả lời0
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)