IA em Cripto

Intermediário9/19/2024, 2:23:31 AM
O lançamento do ChatGPT em novembro de 2022 abriu os olhos de vários intervenientes da indústria para o modelo de linguagem de IA. Esta dinâmica frenética permeou o espaço Cripto, e este artigo tem como objetivo introduzir o desenvolvimento da IA, o seu estado atual e a indústria que surgiu da combinação de IA+Crypto.

O lançamento do ChatGPT em novembro de 2022 abriu os olhos de vários intervenientes do setor para o modelo de linguagem AI grande. Esta dinâmica frenética permeou o espaço Cripto, e este artigo tem como objetivo introduzir o desenvolvimento da AI, seu estado atual e a indústria que surgiu da combinação de AI+Crypto.

O desenvolvimento da IA e seu estado atual

Tipos e Arquiteturas

A aprendizagem automática (ML) é uma tecnologia com capacidades de aprendizagem empírica, que aprende a discriminar animais, tradução de linguagem e outras tarefas específicas através da aprendizagem a partir de grandes conjuntos de dados. A aprendizagem automática pertence à forma mais prática de realizar inteligência artificial no presente, de acordo com se os dados aprendidos estão rotulados e as características podem ser divididas em aprendizagem supervisionada e aprendizagem não supervisionada.

Existem muitos tipos de modelos que podem realizar aprendizagem supervisionada, incluindo modelos baseados em árvores, modelos de gráficos e as redes neurais recentemente surgidas. Com o rápido desenvolvimento da capacidade de computação e dados, a aprendizagem profunda foi ainda mais desenvolvida com base na arquitetura das redes neurais. As arquiteturas atuais de aprendizagem profunda comumente incluem, mas não se limitam a CNNs, RNNs e mecanismos de atenção.

Classificação de aprendizado de máquina, fonte: HashKey Capital

Redes de aprendizagem profunda diferentes têm a arquitetura básica da camada de entrada, camada oculta e camada de saída, a camada de entrada é geralmente texto, vídeo, áudio e outros dados após serem processados "tokenize/embedding". A camada oculta tem um design diferente (forma do modelo) dependendo do conjunto de dados e do propósito da tarefa, como mostrado na tabela.

Tipos de Redes Neurais, Fonte: Organizado por HashKey Capital

Trinta Anos de Desenvolvimento de Redes Neurais

30 anos de desenvolvimento de redes neurais, fonte: organizado por Capital HashKey

O treino de redes neurais teve origem em meados da década de 1980, quando Jordan treinou uma rede neural para aprender padrões sequenciais em seu artigo de 1986.Ordem Serial: Uma Abordagem de Processamento Distribuído Paralelo. A pequena rede tinha apenas alguns neurônios.

Nos anos 1990, Jeffrey Ehrman expandiu a rede neural para uma rede de 50 neurônios com a descoberta de que a rede agrupa espacialmente palavras com base no significado. Por exemplo, separou substantivos inanimados e animados, e dentro destas duas categorias, os objetos animados foram subdivididos em categorias humanas e não humanas, e os inanimados foram categorizados como quebráveis e comestíveis. Isso indica que a rede tem a capacidade de aprender explicações hierárquicas.

Ele observou ainda que as palavras podem ser representadas como pontos num espaço de alta dimensão e que uma sequência de palavras ou frases pode ser vista como um caminho. Esta grande descoberta permite que conjuntos de dados textuais sejam digitalizados, vetorizados e processados por computadores.

Origem: http://3b1b.co/neural-networks

Em 2011, os pesquisadores da Confluence treinaram redes maiores envolvendo milhares de neurônios e milhões de conexões, e foi encontrado um gargalo no estudo na capacidade da rede de manter um contexto coerente ao longo de sequências longas.

Em 2017, a OpenAI baseou-se no trabalho de Kathy treinando em 82 milhões de avaliações da Amazon nas quais neurônios emocionais foram descobertos. Tais neurônios categorizaram perfeitamente as emoções do texto.

Origem: Aprender a Gerar Avaliações e Descobrir Sentimento

Em relação às limitações do tamanho do contexto, este artigo de 2017 Attention Is All You Need apresenta uma solução. O artigo cria uma rede de camada dinâmica que adapta os pesos de conexão com base no contexto da rede. Funciona permitindo que as palavras na entrada vejam, comparem outras palavras e encontrem as mais relevantes. Quanto mais próximas essas palavras estiverem em conceito, mais próximas estão no espaço e podem ter pesos de conexão mais altos. No entanto, o artigo concentrou-se apenas no problema da tradução.

Assim, os investigadores da OpenAI tentaram uma arquitetura de transformador mais poderosa e lançaram o GPT-3 em 2020, o que atraiu a atenção generalizada das indústrias em todo o mundo, desta vez com a rede a atingir 175B parâmetros, 96 camadas e uma janela de contexto de 1.000 palavras.

O que é uma rede neural?

Tomemos a seguinte imagem digital de 28x28 pixels como exemplo, os neurónios correspondem a cada pixel da imagem de entrada de 28x28, num total de 784 neurónios, os números nos neurónios são os valores de ativação, que variam de 0 a 1.

imagem digital de 28x28 pixels, Fonte: http://3b1b.co/neural-networks

Estes 784 neurónios formam a camada de entrada da rede. A camada final é a camada de saída, que contém dez neurónios representando os números 0-9, novamente com valores de ativação variando de 0-1. A camada do meio é a camada oculta, onde o valor de ativação da camada anterior determina o valor de ativação da próxima camada conforme a rede neural opera.

A profundidade do aprendizado profundo reside no fato de o modelo aprender muitas “camadas” de transformações, cada uma com uma representação diferente. Como mostrado na figura abaixo, por exemplo, em 9, camadas diferentes podem reconhecer diferentes características. Quanto mais próxima a camada de entrada estiver do nível inferior de detalhe dos dados, mais próximos estarão os conceitos mais específicos que podem ser usados para diferenciar a camada de saída.

Origem: http://3b1b.co/neural-networks

À medida que o modelo fica maior, as camadas ocultas no meio envolvem centenas de bilhões de pesos por camada, e são esses pesos e vieses que realmente determinam o que a rede está realmente a fazer. O processo de aprendizagem de máquina é o processo de encontrar os parâmetros corretos, que são pesos e vieses.

A arquitetura do transformador usada no GPT, um modelo de linguagem grande, tem uma camada intermediária oculta composta por 96 camadas de módulos de decodificação, dos quais GPT1, GPT2 e GPT3 têm 12, 48 e 96 camadas, respectivamente. O decodificador, por sua vez, contém componentes de rede neural de atenção e feedback direto.

Abordagem de treino

O processo de computação ou aprendizagem envolve a definição de uma função de custo (ou função de perda) que soma os quadrados das diferenças entre as previsões de saída computadas da rede e os valores reais, e quando a soma é pequena, o modelo opera dentro de limites aceitáveis.

O treino começa aleatorizando os parâmetros da rede e finalizando os parâmetros do modelo da rede ao encontrar o parâmetro que minimiza a função de custo. A forma de convergir a função de custo é através da descida do gradiente, pela qual é examinado o grau de impacto de cada alteração de parâmetro no custo/perda, e depois os parâmetros são ajustados de acordo com esse grau de impacto.

O processo de cálculo do gradiente do parâmetro introduz a propagação retroativa ou retropropagação, que percorre a rede da camada de saída para a camada de entrada em ordem inversa de acordo com a regra da cadeia. O algoritmo também requer o armazenamento de quaisquer variáveis intermediárias (derivadas parciais) necessárias para calcular o gradiente.

Fatores de Desenvolvimento

Existem três fatores principais que afetam o desempenho dos grandes modelos de linguagem de IA durante o seu treino, nomeadamente o número de parâmetros do modelo, o tamanho do conjunto de dados e a quantidade de computação.

Fonte: Relatório da OpenAI, Leis de Escalonamento para Modelos de Linguagem Neural

Isto é consistente com o desenvolvimento de conjuntos de dados e computadores (potência de computação) na realidade, mas também pode ser visto na tabela abaixo que a potência de computação está a crescer mais depressa do que os dados disponíveis, enquanto a memória é a mais lenta a desenvolver.

O desenvolvimento de conjuntos de dados, memória e potência de processamento, Fonte: https://github.com/d2l-ai

Dados

Requisitos de Dados

Frente a um modelo grande, o overfitting tende a ocorrer quando os dados de treino são muito pequenos e, em geral, a precisão do modelo mais complexo melhora à medida que a quantidade de dados aumenta. Em relação ao requisito de dados necessário para um modelo grande, pode ser decidido com base na regra do 10, que sugere que a quantidade de dados deve ser 10 vezes o parâmetro, mas alguns algoritmos de deep learning aplicam 1:1.

Dados rotulados

A aprendizagem supervisionada requer o uso de conjuntos de dados rotulados + em destaque para chegar a resultados válidos.

Origem: Conjunto de Dados de Categorização de Vestuário Fashion-MNIST

Dados sintéticos

Apesar do rápido aumento de dados ao longo da última década ou duas e dos conjuntos de dados de código aberto atualmente disponíveis, incluindo Kaggle, Azure, AWS, Google database, etc., quantidades limitadas, escassas e caras de dados estão gradualmente a tornar-se um entrave para o desenvolvimento de IA devido às questões de privacidade, aumento de parâmetros do modelo e reprodutibilidade dos dados. Diferentes soluções de dados são propostas com o objetivo de aliviar este problema.

As técnicas de aumento de dados podem ser uma solução eficaz ao fornecer dados insuficientes ao modelo sem adquirir novas amostras, como escala, rotação, reflexão, recorte, tradução, adição de ruído gaussiano, mixup, etc.

Os dados sintéticos são outra opção. Os dados sintéticos são dados que podem ser gerados artificialmente por simulação de computador ou algoritmos com ou sem um conjunto de dados de referência anterior. Em relação ao desenvolvimento de ferramentas para gerar dados sintéticos, Ian J. Goodfellow inventou a Rede Generativa Adversária (GAN), que é uma arquitetura de aprendizado profundo.

Treina dois redes neurais para competir entre si, o que pode gerar novos dados mais realistas a partir de um conjunto de dados de treino dado. A arquitetura suporta a geração de imagens, preenchimento de informações em falta, a geração de dados de treino para outros modelos, a geração de modelos 3D com base em dados 2D e muito mais.

Ainda é cedo no desenvolvimento do campo, com a maioria das empresas existentes que trabalham com dados sintéticos fundadas em 2021 ou 2022, e algumas em 2023.

O estado do financiamento para empresas de dados sintéticos. Fonte: https://frontline.vc/blog/synthetic-data/

Base de Dados de Vetores

O processo de treino de IA envolve um grande número de operações de matriz, desde a incorporação de palavras, matriz QKV do transformador, até operações softmax, e assim por diante através das operações de matriz, os parâmetros do modelo inteiro também são transportados na matriz.

exemplo de base de dados vetorial, Fonte : https://x.com/ProfTomYeh/status/1795076707386360227

Recursos de Hardware de Computador

Modelos grandes trazem uma enorme demanda de hardware de computador, que é principalmente categorizada em treinamento e inferência.

Pré-treino, afinação e inferência

O pré-treino e a afinação podem ser ainda mais divididos sob treinamento. Como mencionado anteriormente, a construção de um modelo de rede requer inicialmente a inicialização aleatória dos parâmetros, em seguida, o treinamento da rede e o ajuste contínuo dos parâmetros até que a perda da rede atinja uma faixa aceitável. A diferença entre o pré-treino e a afinação é que

o pré-treino começa com cada camada de parâmetros a partir da inicialização aleatória, enquanto algumas camadas de ajuste fino podem usar diretamente os parâmetros do modelo previamente treinado como os parâmetros de inicialização para esta tarefa (congelando os parâmetros das camadas anteriores) e atuando em um conjunto de dados específico.

Origem: https://d2l.ai/chapter_computer-vision/fine-tuning.html

O pré-treino e o ajuste fino envolvem ambos alterações nos parâmetros do modelo, o que resulta, em última análise, numa otimização do modelo ou dos parâmetros, enquanto a inferência é o cálculo da inferência ao carregar um modelo após as entradas do utilizador e, em última análise, obter feedback e resultados de saída.

O pré-treino, ajuste fino e inferência são classificados do maior para o menor em termos de requisitos de computador. A tabela seguinte compara os requisitos de hardware de computador do treino e da inferência. Os requisitos de hardware de computador dos dois são significativamente diferentes em termos de potência de computação, memória e comunicação/largura de banda devido às diferenças no processo de computação e requisitos de precisão, e ao mesmo tempo há um Trilema Impossível em potência de computação, memória e comunicação/largura de banda.

As medidas estatísticas nesta tabela são baseadas num único modelo a processar um único token, um único parâmetro. \ FLOPs: operações de ponto flutuante por segundo, o número de operações de matriz. \
*DP, TP, PP: paralelismo de dados, paralelismo de tensor, paralelismo de pipeline.

Comparação de hardware de computador entre treinamento e inferência, Fonte: Organizado pela HashKey Capital

O processo de treino de uma rede neural requer alternar entre a propagação para a frente e para trás, utilizando o gradiente dado pela propagação para trás para atualizar os parâmetros do modelo. Por outro lado, a inferência requer apenas propagação para a frente. Esta diferença torna-se um fator influente que diferencia principalmente os requisitos de recursos de hardware do computador para treino e inferência.

Em termos de potência de cálculo, como mostrado na tabela, existe uma relação multiplicativa simples entre o número de parâmetros do modelo e o consumo de potência de cálculo, com o treino a requerer 6-8 operações de ponto flutuante e a inferência a requerer 2. Isto deve-se à retropropagação envolvida no treino, que requer o dobro da potência de cálculo da propagação direta, e assim o consumo de potência de cálculo do treino é muito maior do que o da inferência.

Em termos de memória, a retropropagação usada para treinamento reutiliza os valores intermediários armazenados na propagação direta para evitar cálculos repetidos. Portanto, o processo de treinamento precisa manter os valores intermediários até que a retropropagação seja concluída. O consumo de memória resultante durante o treinamento contém principalmente parâmetros do modelo, valores de ativação intermediários gerados durante a computação direta, gradientes gerados pela computação de retropropagação, e estados do otimizador. A fase de inferência não precisa de retropropagação, otimizador e gradiente, etc., e o uso de memória durante a sua utilização é muito menor do que o do treinamento.

Em termos de comunicação/largura de banda, para melhorar o desempenho do treino de IA, o treino de modelos mainstream geralmente usa três estratégias paralelas: paralelismo de dados, paralelismo de tensores e paralelismo de pipeline.

  • Data parallel refere-se à replicação de múltiplas réplicas de modelos que são executadas em diferentes dispositivos, com cada réplica do modelo atuando em diferentes conjuntos de dados e sincronizando os dados de gradiente durante o ciclo de treino.
  • Por outro lado, o paralelismo de pipeline divide as camadas intermediárias ocultas e cada nó de cálculo é responsável por várias dessas camadas transformadoras. Esta abordagem também é conhecida como paralelismo entre camadas.
  • O paralelismo tensorial, por outro lado, divide cada um desses módulos transformadores e é também conhecido como paralelismo intra-camada.

Origem: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Para estas três estratégias, prevê-se que a frequência de comunicação do TP seja a maior, o volume de comunicação é o mais alto e está relacionado com o número de tokens, a largura do modelo e o número de camadas. O volume e a frequência de comunicação do PP são menores do que os do TP, e estão relacionados com o número de tokens e a largura do modelo. O volume e a frequência de comunicação do DP são os menores e são independentes dos tokens de entrada.

Trilema Impossível

O gargalo dos recursos de hardware de computador em modelos grandes é principalmente limitado pelo poder computacional, largura de banda/comunicação e memória, e existem verificações e equilíbrios entre os três, resultando no problema do Trilema Impossível. Por exemplo, devido a gargalos de comunicação, o desempenho do cluster não pode ser melhorado simplesmente otimizando o poder de um único computador.

Assim, embora as arquiteturas paralelas sejam usadas para acelerar o desempenho do cluster, a maioria das arquiteturas paralelas na verdade sacrifica a comunicação ou o armazenamento em prol da potência de computação.

Sacrificar comunicação e armazenamento em prol do poder de computação:

Em PP, se uma GPU for atribuída a cada camada dos transformadores, apesar do aumento de potência computacional em unidades de tempo, os requisitos de comunicação entre as camadas também aumentam, resultando em aumento do volume de dados e latência. Além disso, o requisito de armazenamento do estado intermediário para a propagação direta aumenta extremamente rápido.

Sacrificar a comunicação pelo poder de computação:

Em TP, cada transformador é desmontado para computação em paralelo. Uma vez que o transformador é composto por dois componentes (cabeça de atenção e rede de avanço), a tarefa pode ser dividida dentro da camada para a cabeça de atenção ou a rede neural de avanço. Esta abordagem de TP pode aliviar o problema de hierarquia PP excessiva devido às GPUs não serem capazes de ajustar o modelo. No entanto, esta abordagem ainda tem uma sobrecarga de comunicação séria.

Cripto+AI

Neste artigo, acreditamos que atualmente existem as seguintes grandes categorias de IA no campo cripto:

Fonte: Organizado pela HashKey Capital

Como mencionado anteriormente, os três componentes mais críticos em IA são dados, modelos e potência computacional, que servem como infraestrutura para potenciar a IA cripto.

A sua combinação acaba por formar uma rede de computação, com um grande número de middleware a aparecer no processo de computação para ser eficiente e mais alinhado com o espírito cripto. A jusante estão os Agentes baseados nesses resultados verificáveis, que podem servir diferentes funções para diferentes públicos-alvo.

Outro fluxograma pode ser usado para expressar a ecologia básica da IA de cripto da seguinte forma:

Fluxograma ecológico, fonte: organizado por HashKey Capital

Claro que são necessários mecanismos tokenómicos no espaço cripto para incentivar a coordenação da participação de diferentes intervenientes.

Dados

Para conjuntos de dados, pode-se escolher entre fontes de dados públicas ou fontes de dados privadas específicas.

Fonte de Dados:

  • Grass é o projeto que rastreia fontes de dados em cima de Solana, o pano de fundo é devido ao fato de que muitas empresas bloqueiam crawls de IP de data centers, mas não bloqueiam usuários residenciais, Grass atua como um provedor de serviço descentralizado que incentiva usuários residenciais a contribuir com sua largura de banda via token.
  • Vana, como DATA DAO, também fornece sua própria solução, onde o criador cria diferentes data dao para diferentes fontes de dados na cadeia e configura diferentes programas de incentivo para os usuários carregarem seus dados. Até agora, foram criados data dao para o reddit (rDAO), onde mais de 154.000 usuários fornecem seus dados pessoais ao rDAO para treinamento de IA.
  • Os dados relevantes são recolhidos sob a forma de DePINs, que permitem aos utilizadores ligar os seus veículos à plataforma DIMO através de um dispositivo de hardware, por exemplo. Informações básicas sobre o veículo e dados mais avançados sobre padrões de condução, etc. serão transmitidos de forma segura para a rede DIMO, armazenados on-chain e associados ao ID do veículo correspondente (NFT). Outro exemplo é o Hivemapper que recolhe dados de mapas enquanto o utilizador está a conduzir.

Plataforma de Dados Sintéticos:

  • Dria é uma plataforma de geração de dados sintéticos (OPStack L2) que incentiva os utilizadores a gerar/comercializar dados sintéticos de forma descentralizada. O seu armazenamento de dados é guardado no Arweave através do HollowDB. Quando os utilizadores iniciam um pedido de geração de dados sintéticos, a Dria aceitará o pedido e dividirá a tarefa pelos nós de computação na rede de dados sintéticos para execução e, após a verificação da rede, os dados sintéticos finais podem ser negociados no mercado do conhecimento.

Outros:

Plataforma de serviço de rotulagem de dados, ao atribuir a tarefa de ordem de rotulagem a diferentes trabalhadores, esses trabalhadores podem obter o incentivo de token correspondente após completarem a tarefa, como Cripto, Public AI, entre outros. No entanto, o problema atual é que há mais pessoas a fazer rotulagem de dados do que dados, enquanto as empresas de IA têm fornecedores estáveis de rotulagem de dados para as suas necessidades de dados rotulados, devido à existência pegajosa que faz com que a sua vontade de mudar para plataformas descentralizadas seja fraca. Estas plataformas podem apenas conseguir a alocação da parte restante da ordem junto dos fornecedores de rotulagem de dados.

Redes de Computação

Redes de Computação Generalizadas

Redes de computação generalizadas, que se referem a redes que agregam recursos como GPUs e CPUs para serem capazes de fornecer serviços de computação generalizada, o que significa nenhuma distinção entre treinamento e inferência.

  • Akash, um projeto de 2020, atua como um mercado para combinar oferta e demanda computacionais, permitindo que os fornecedores de computação licitem pedidos, com as correspondências finais carregadas na blockchain como transações. Um validador separado é responsável por empacotar blocos e realizar validação. Este processo não envolve como as tarefas de IA são atribuídas, nem valida o processo de computação e os resultados, sem distinguir entre treinamento e inferência.
  • io.net, que até junho de 2022 desenvolveu sistemas de negociação quantitativa de nível institucional principalmente para o mercado de ações dos EUA e mercados de criptomoedas, descobriu a Ray.io, uma biblioteca Python de código aberto para construir sistemas distribuídos de alto desempenho, ao longo do caminho. io.net aproveita o Ray e bibliotecas especializadas para streaming de dados, treinamento, ajuste fino, e combina com VPNs de Malha (que simplificam o processo de desenvolvimento e implantação de modelos de IA em grande escala em vastas redes de GPUs) para fornecer serviços de computação.
  • Bittensor, como uma plataforma aberta, permite aos usuários criar sub-redes em sua plataforma, cada uma com seus próprios incentivos exclusivos para motivar outros usuários a participar como mineradores de sub-redes, validadores de sub-redes, mineradores de sub-redes para executar tarefas específicas e validadores para verificar essas tarefas dos mineradores.
  • Aethir, é uma infraestrutura de computação em nuvem que fornece serviços de alta qualidade para IA e jogos em nuvem. Aethir foca na agregação de recursos de GPU de alta qualidade, como o chip H100 da NVIDIA, de centros de dados, empresas de tecnologia, operadoras de telecomunicações, principais estúdios de jogos e empresas de mineração de criptomoedas. A rede é composta por 3 atores principais: Container, Checker e Indexer. Os Containers, incluindo o Aethir Edge, são onde os recursos de computação são realmente utilizados. O Checker garante a integridade e o desempenho do Container. Se necessário, o Indexer corresponde os usuários finais com Containers apropriados com base nos requisitos dos usuários finais.

Redes específicas de computação

Pré-treino

No espaço da Cripto, a Gensyn, investida pela a16z, propõe uma rede de computação de treinamento descentralizada.

O processo consiste em, após um utilizador submeter uma tarefa de requisito de formação, a plataforma a analisar, avaliar a potência de computação necessária, bem como dividi-la num número mínimo de trabalhos de Aprendizagem Automática, altura em que o validador periodicamente obtém a tarefa analisada para gerar limites para a comparação das provas de aprendizagem a jusante.

Uma vez que a tarefa entra na fase de treinamento, ela é executada pelo Solver, que armazena periodicamente os pesos do modelo e os índices de resposta do conjunto de dados de treinamento, bem como gera as provas de aprendizagem, e o verificador também executa o trabalho computacional reexecutando algumas das provas para realizar cálculos de distância para verificar se elas correspondem às provas. Os denunciantes realizam arbitragem com base em um programa de desafio pontual baseado em gráficos para verificar se o trabalho de validação foi realizado corretamente.

Ajuste fino

A afinação é mais fácil e menos dispendiosa de implementar do que a pré-formação direta de um modelo grande, simplesmente através da afinação do modelo pré-formado com um conjunto de dados específico, e adaptando o modelo a uma tarefa específica, preservando o modelo original.

Hugging Face pode ser acedido como um fornecedor de recursos de modelo de linguagem pré-treinado para a plataforma distribuída, o utilizador seleciona o modelo a ser ajustado de acordo com os requisitos da tarefa e depois utiliza as GPUs e outros recursos fornecidos pela rede de computação para o ajuste fino da tarefa, o que precisa de ser baseado na complexidade da tarefa para determinar o tamanho do conjunto de dados, a complexidade do modelo, e para determinar ainda a necessidade de um nível superior de recursos como o A100.

Para além do Gensyn, uma plataforma que pode suportar pré-treino, a maioria das plataformas de computação também pode suportar ajustes finos.

Inferência

Comparado com o treino (pré-treino e afinação), que requer afinação dos parâmetros do modelo, o processo computacional de inferência envolve apenas propagação direta e requer menos potência de cálculo. A maioria das redes de computação descentralizada atualmente foca nos serviços de inferência.

  • A Rede Nosana é uma plataforma para executar cargas de trabalho de inferência de IA que fornece serviços de computação direcionados ao processo de inferência para modelos LLama 2 e Difusão Estável.
  • Ritual.AI, a primeira fase da plataforma é o Infernet, que é um framework leve. Com ele, os desenvolvedores de contratos inteligentes podem solicitar serviços de inferência fora da cadeia e entregá-los aos contratos inteligentes na cadeia. A segunda fase é a camada de execução, Ritual Chain, que suporta operações nativas de IA.

Camadas/adaptadores adicionais

Quando a inferência é realizada, esta etapa já é a etapa de uso do modelo, então a middleware pode ser introduzida no momento certo:

  • Model Matching: Ao fazer inferências, é geralmente necessário determinar o modelo apropriado de acordo com os requisitos da tarefa.
  • API: Abstrair toda a API de modelos de código aberto de interface unificada, como Redpill

Contrato inteligente on-chain para recuperar os resultados dos cálculos de IA off-chain:

  • Protocolo ORA para fornecer resultados de inferência verificados para contratos inteligentes, por exemplo, o nó opML recolhe pedidos opML enviados da cadeia, executará inferência de IA e depois carregará os resultados na cadeia e aguardará o período de desafio.

Outra camada de privacidade pode ser adicionada à rede de computação, que inclui principalmente a privacidade de dados e a privacidade do modelo, onde a privacidade dos dados é muito mais importante do que a privacidade do modelo.

  • Atualmente, o protocolo Oasis utiliza Intel TDX e NVIDIA TEEs para fornecer privacidade e verificabilidade para o treino de modelos de IA.

Verificação

A maioria das redes de computação constrói diferentes sistemas de validação para garantir que o sistema funcione com precisão, enquanto o link é uma parte que ainda não foi introduzida no campo tradicional de IA.

ZKML

O papel principal da prova ZK é o seguinte 2 pontos:

  • Usado para provar a precisão do modelo sem revelar quaisquer parâmetros
  • Prove que a computação foi feita corretamente e que o modelo + inputs correspondem aos outputs: Modulus labs, Giza

A Modulus Labs mostrou que é possível criar provas para modelos de 18 milhões de parâmetros em 60-70 segundos usando o sistema de prova Plonky da Polygon. Para modelos pequenos, é possível usar ZKML nesta fase, mas o custo ainda é significativo:

  • O tempo de prova do ZKML aumenta com o aumento dos parâmetros.
  • É muito caro em termos de consumo de memória do provador. A Worldcoin, por exemplo, utiliza um modelo com 1,8M parâmetros e 50 camadas para distinguir entre 10 bilhões de íris, para as quais as provas de inferência podem ser geradas em apenas alguns minutos, mas o consumo de memória dentro do provador é muito alto para qualquer hardware móvel.

Origem: @ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307"">https://medium.com/@ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307

OPML

Dadas as limitações do ZKML descritas acima, OPML é uma alternativa. Embora mais fraco em termos de segurança do que o ZKML, o consumo de memória e o tempo de computação da prova são significativamente melhores do que os do ZKML. De acordo com o relatório da ORA, é mostrado que para o mesmo modelo 7B-LLaMA (com um tamanho de modelo de cerca de 26GB), o opML pode ser processado dentro de 32GB de memória, enquanto o consumo de memória dos circuitos no zkML pode ser da ordem de terabytes ou até mesmo petabytes.

TEEML

O Ambiente de Execução Confiável fornece segurança ao nível do hardware e pode ser uma alternativa ao ZKML e OPML. A prova de TEE é gerada como resultado de uma computação interna dentro do TEE e seu custo computacional é muito menor do que o da prova zk. Além disso, o tamanho da prova de TEE é geralmente uma constante fixa (comprimento da assinatura) e, portanto, tem a vantagem de uma pegada menor e menor custo de validação on-chain.

Para além da verificação, TEE tem a vantagem de manter os dados sensíveis isolados, garantindo que processos ou cálculos externos não possam aceder ou alterar os dados dentro dele.

Projetos que utilizam TEE incluem:

  • Rede Aizel (fornecendo inferência)
  • Rede Phala (centrada na criação de Agentes de IA)
  • Protocolo Oasia (treino de modelo de IA)
  • Protocolo Marlin (Oyster pode implementar e validar modelos de ML)

Origem: https://arxiv.org/pdf/2401.17555,Protocolo Marlin

Além disso, o protocolo ORA desenvolveu opp/ai (Inteligência Artificial Otimista de Preservação de Privacidade na Blockchain) além de sua própria validação ZKML e OPML, e não está incluído na tabela de comparação acima.

Camada de Agente

O agente tem a capacidade de analisar a informação recebida, avaliar as condições ambientais atuais e tomar decisões. A composição do agente é mostrada na figura seguinte, na qual o LLM é o componente central, além disso, é necessário fornecer a indicação apropriada ao LLM e, através da Memória, armazenar dados de curto prazo e dados históricos de longo prazo (dados externos).

Uma vez que tarefas complexas não podem ser concluídas de uma só vez, elas precisam ser divididas em tarefas menores pelo Plano, além disso, o Agente também pode chamar APIs externas para obter informações adicionais, incluindo informações atuais, capacidades de execução de código, acesso a fontes de informação proprietárias, e assim por diante.

Origem: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande

A capacidade de tomada de decisão dos Agentes não teve uma certa quebra até ao surgimento do Grande Modelo de Linguagem LLM nos últimos anos. Um relatório compilou o número de artigos publicados sobre Agentes de 2021 a 2023, como mostrado na figura abaixo, na realidade existem apenas cerca de uma dúzia de artigos de pesquisa em 2021, mas há centenas de artigos publicados sobre eles em 2023. O artigo categorizou os Agentes em 7 categorias.

Fonte: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande

Em web3, os cenários em que os Agentes existem ainda são limitados em comparação com o mundo web2 e atualmente incluem compensação automatizada, construção de componentes de código (escrever contratos inteligentes, escrever circuitos zk), controle de risco em tempo real, e execução de estratégias como arbitragem e agricultura de rendimento.

Criação de agentes e plataformas de negociação

  • A Theoriq (ChainML) introduziu o conceito de Camada Base de Agentes, que permite aos programadores anotar Agentes sob a forma de NFT e criar os seus próprios Agentes, bem como construir um Coletivo de Agentes combinando Agentes para cumprir requisitos complexos. Este processo avalia o desempenho e a ligação de diferentes Agentes através de prova de atribuição e prova de colaboração.
  • A Spectral Labs tem dois produtos principais, o Spectral Syntax, uma plataforma que permite aos utilizadores criar Agentes na cadeia, e o Spectral Nova, um serviço de inferência que suporta solicitações de serviços de inferência. A criação de um Agente no Spectral Syntax utiliza o serviço de inferência do Spectral Nova, e essa inferência é garantida por prova de ZK para garantir que funcione. Ao mesmo tempo, eles vão lançar o Inferchain para permitir a comunicação de Agente para Agente.
  • Autonolas suporta a construção de serviços compostos por vários Agentes, o que permite ao Proprietário do Serviço criar um serviço e registar o serviço correspondente no registo de serviços para iniciar o fluxo de trabalho, solicitar ao desenvolvedor que forneça os componentes do Agente, e assim por diante. Os desenvolvedores podem desenvolver o Agente, componentes e outro código armazenado offchain, criar o NFT correspondente onchain, e fazer referência ao hash de metadados do IPFS e, em seguida, fazer referência ao código subjacente referindo-se ainda mais ao hash do IPFS. Os serviços são tipicamente executados por um conjunto de Operadores, cada um executando pelo menos uma instância do Agente. Além disso, o Autonolas alcança consenso dentro do serviço para seus agentes por meio de um Dispositivo de Consenso que estabelece um acordo entre os agentes dentro do serviço.

Plataforma de Monitorização de Agentes

  • AgentOpsAI é um parceiro da sentient, fornecendo serviços de monitorização de Agent (eventos de registo, chamadas, erros de Agent, etc.), atualmente uma plataforma centralizada, sem token envolvido.

Fluxo de trabalho

Com base em diferentes Agentes podem ser combinados/abstraídos/criados um aplicativo específico, ao mesmo tempo, existem algumas plataformas de coordenação disponíveis para os usuários escolherem que tipo de Agentes usar para construir um tipo específico de aplicativo. Mas a maioria deles limita-se ao desenvolvimento de Agentes.

Aplicação

Desenvolvedores de Projetos

Alguns desenvolvedores irão usar alguma IA para ajudar as suas plataformas a serem mais inteligentes, por exemplo, em projetos de segurança, é utilizada a aprendizagem automática para distinguir vulnerabilidades de ataque; os protocolos DeFi usam IA para construir ferramentas de monitorização em tempo real; e as plataformas de análise de dados também usam IA para ajudar na limpeza e análise de dados.

Utilizador

Janela P&R/Análise

  • Kaito.ai, os usuários podem usar as Perguntas e Respostas para obter informações sobre o sentimento da comunidade, o preço e os movimentos da equipe principal de um projeto.
  • 0xScope, a utilização subjacente de grafos de conhecimento para integrar os dados na cadeia, nomeadamente as características comportamentais do utilizador, para fornecer serviços de análise de dados aos utilizadores, lançou a janela Scopechat Q&A a tempo desta onda de IA.

Loja de Aplicativos de IA

  • Myshell propõe uma camada de consumidores e cria a AI APP Store, que fornece diferentes componentes de IA e três modos de criação para facilitar os usuários a criar diferentes aplicações de IA. Os widgets são divididos em componentes básicos e compostos. Os componentes básicos permitem aos usuários criar Prompt, Voz, Avatar e outros ativos em aplicativos de IA, enquanto os componentes compostos permitem que componentes personalizados sejam construídos usando uma combinação de vários modelos/componentes básicos. Os modos de criação incluem, clássico, dev e no-code três modos para desenvolvedores e usuários com diferentes habilidades e necessidades.

Resumo

Neste artigo, gostaríamos de destacar os seguintes 3 pontos:

  • GPUAI

Na cripto, um número de redes de computação emergem inevitavelmente fazendo com que os usuários sintam que a GPU é IA, mas como analisado na seção anterior, existe um trilema impossível de redes de computação, ou seja, potência de computação, largura de banda/comunicação e memória, bem como três tipos de estratégias paralelas usadas no treinamento do modelo, como paralelismo de dados, paralelismo de tensores e paralelismo de pipeline, todos apontam para os controles e equilíbrios impostos na configuração da estrutura de rede de computação.

  • Mesmo Modelo & mesma DadosMesmo Resultado

A razão pela qual o mesmo modelo e dados não necessariamente resultam no mesmo resultado é o uso de computação de ponto flutuante. Essa diferença na computação também tem um impacto na construção da rede de computação.

  • Mais Agentes de IA

Os Agentes de IA apenas começaram a mostrar mais utilidade nos últimos anos, e esperamos que mais Agentes apareçam no mercado. Mas como os Agentes funcionam na cripto ou como encontrar os incentivos certos de tokens continua a ser um desafio.

Declaração:

  1. Este artigo foi reproduzido de[médio],título original 'AI into Crypto', direitos de autor pertencem ao autor original[HashKey Capital ],如对转载有异议,请联系Portão Learn团队,团队会根据相关流程尽速处理。

  2. Isenção de responsabilidade: As opiniões expressas neste artigo representam apenas a opinião pessoal do autor e não constituem qualquer conselho de investimento.

  3. As outras versões linguísticas do artigo são traduzidas pela equipe Gate Learn, quando não mencionadasGate.ioEm nenhum caso, é permitida a cópia, disseminação ou plágio de artigos traduzidos.

IA em Cripto

Intermediário9/19/2024, 2:23:31 AM
O lançamento do ChatGPT em novembro de 2022 abriu os olhos de vários intervenientes da indústria para o modelo de linguagem de IA. Esta dinâmica frenética permeou o espaço Cripto, e este artigo tem como objetivo introduzir o desenvolvimento da IA, o seu estado atual e a indústria que surgiu da combinação de IA+Crypto.

O lançamento do ChatGPT em novembro de 2022 abriu os olhos de vários intervenientes do setor para o modelo de linguagem AI grande. Esta dinâmica frenética permeou o espaço Cripto, e este artigo tem como objetivo introduzir o desenvolvimento da AI, seu estado atual e a indústria que surgiu da combinação de AI+Crypto.

O desenvolvimento da IA e seu estado atual

Tipos e Arquiteturas

A aprendizagem automática (ML) é uma tecnologia com capacidades de aprendizagem empírica, que aprende a discriminar animais, tradução de linguagem e outras tarefas específicas através da aprendizagem a partir de grandes conjuntos de dados. A aprendizagem automática pertence à forma mais prática de realizar inteligência artificial no presente, de acordo com se os dados aprendidos estão rotulados e as características podem ser divididas em aprendizagem supervisionada e aprendizagem não supervisionada.

Existem muitos tipos de modelos que podem realizar aprendizagem supervisionada, incluindo modelos baseados em árvores, modelos de gráficos e as redes neurais recentemente surgidas. Com o rápido desenvolvimento da capacidade de computação e dados, a aprendizagem profunda foi ainda mais desenvolvida com base na arquitetura das redes neurais. As arquiteturas atuais de aprendizagem profunda comumente incluem, mas não se limitam a CNNs, RNNs e mecanismos de atenção.

Classificação de aprendizado de máquina, fonte: HashKey Capital

Redes de aprendizagem profunda diferentes têm a arquitetura básica da camada de entrada, camada oculta e camada de saída, a camada de entrada é geralmente texto, vídeo, áudio e outros dados após serem processados "tokenize/embedding". A camada oculta tem um design diferente (forma do modelo) dependendo do conjunto de dados e do propósito da tarefa, como mostrado na tabela.

Tipos de Redes Neurais, Fonte: Organizado por HashKey Capital

Trinta Anos de Desenvolvimento de Redes Neurais

30 anos de desenvolvimento de redes neurais, fonte: organizado por Capital HashKey

O treino de redes neurais teve origem em meados da década de 1980, quando Jordan treinou uma rede neural para aprender padrões sequenciais em seu artigo de 1986.Ordem Serial: Uma Abordagem de Processamento Distribuído Paralelo. A pequena rede tinha apenas alguns neurônios.

Nos anos 1990, Jeffrey Ehrman expandiu a rede neural para uma rede de 50 neurônios com a descoberta de que a rede agrupa espacialmente palavras com base no significado. Por exemplo, separou substantivos inanimados e animados, e dentro destas duas categorias, os objetos animados foram subdivididos em categorias humanas e não humanas, e os inanimados foram categorizados como quebráveis e comestíveis. Isso indica que a rede tem a capacidade de aprender explicações hierárquicas.

Ele observou ainda que as palavras podem ser representadas como pontos num espaço de alta dimensão e que uma sequência de palavras ou frases pode ser vista como um caminho. Esta grande descoberta permite que conjuntos de dados textuais sejam digitalizados, vetorizados e processados por computadores.

Origem: http://3b1b.co/neural-networks

Em 2011, os pesquisadores da Confluence treinaram redes maiores envolvendo milhares de neurônios e milhões de conexões, e foi encontrado um gargalo no estudo na capacidade da rede de manter um contexto coerente ao longo de sequências longas.

Em 2017, a OpenAI baseou-se no trabalho de Kathy treinando em 82 milhões de avaliações da Amazon nas quais neurônios emocionais foram descobertos. Tais neurônios categorizaram perfeitamente as emoções do texto.

Origem: Aprender a Gerar Avaliações e Descobrir Sentimento

Em relação às limitações do tamanho do contexto, este artigo de 2017 Attention Is All You Need apresenta uma solução. O artigo cria uma rede de camada dinâmica que adapta os pesos de conexão com base no contexto da rede. Funciona permitindo que as palavras na entrada vejam, comparem outras palavras e encontrem as mais relevantes. Quanto mais próximas essas palavras estiverem em conceito, mais próximas estão no espaço e podem ter pesos de conexão mais altos. No entanto, o artigo concentrou-se apenas no problema da tradução.

Assim, os investigadores da OpenAI tentaram uma arquitetura de transformador mais poderosa e lançaram o GPT-3 em 2020, o que atraiu a atenção generalizada das indústrias em todo o mundo, desta vez com a rede a atingir 175B parâmetros, 96 camadas e uma janela de contexto de 1.000 palavras.

O que é uma rede neural?

Tomemos a seguinte imagem digital de 28x28 pixels como exemplo, os neurónios correspondem a cada pixel da imagem de entrada de 28x28, num total de 784 neurónios, os números nos neurónios são os valores de ativação, que variam de 0 a 1.

imagem digital de 28x28 pixels, Fonte: http://3b1b.co/neural-networks

Estes 784 neurónios formam a camada de entrada da rede. A camada final é a camada de saída, que contém dez neurónios representando os números 0-9, novamente com valores de ativação variando de 0-1. A camada do meio é a camada oculta, onde o valor de ativação da camada anterior determina o valor de ativação da próxima camada conforme a rede neural opera.

A profundidade do aprendizado profundo reside no fato de o modelo aprender muitas “camadas” de transformações, cada uma com uma representação diferente. Como mostrado na figura abaixo, por exemplo, em 9, camadas diferentes podem reconhecer diferentes características. Quanto mais próxima a camada de entrada estiver do nível inferior de detalhe dos dados, mais próximos estarão os conceitos mais específicos que podem ser usados para diferenciar a camada de saída.

Origem: http://3b1b.co/neural-networks

À medida que o modelo fica maior, as camadas ocultas no meio envolvem centenas de bilhões de pesos por camada, e são esses pesos e vieses que realmente determinam o que a rede está realmente a fazer. O processo de aprendizagem de máquina é o processo de encontrar os parâmetros corretos, que são pesos e vieses.

A arquitetura do transformador usada no GPT, um modelo de linguagem grande, tem uma camada intermediária oculta composta por 96 camadas de módulos de decodificação, dos quais GPT1, GPT2 e GPT3 têm 12, 48 e 96 camadas, respectivamente. O decodificador, por sua vez, contém componentes de rede neural de atenção e feedback direto.

Abordagem de treino

O processo de computação ou aprendizagem envolve a definição de uma função de custo (ou função de perda) que soma os quadrados das diferenças entre as previsões de saída computadas da rede e os valores reais, e quando a soma é pequena, o modelo opera dentro de limites aceitáveis.

O treino começa aleatorizando os parâmetros da rede e finalizando os parâmetros do modelo da rede ao encontrar o parâmetro que minimiza a função de custo. A forma de convergir a função de custo é através da descida do gradiente, pela qual é examinado o grau de impacto de cada alteração de parâmetro no custo/perda, e depois os parâmetros são ajustados de acordo com esse grau de impacto.

O processo de cálculo do gradiente do parâmetro introduz a propagação retroativa ou retropropagação, que percorre a rede da camada de saída para a camada de entrada em ordem inversa de acordo com a regra da cadeia. O algoritmo também requer o armazenamento de quaisquer variáveis intermediárias (derivadas parciais) necessárias para calcular o gradiente.

Fatores de Desenvolvimento

Existem três fatores principais que afetam o desempenho dos grandes modelos de linguagem de IA durante o seu treino, nomeadamente o número de parâmetros do modelo, o tamanho do conjunto de dados e a quantidade de computação.

Fonte: Relatório da OpenAI, Leis de Escalonamento para Modelos de Linguagem Neural

Isto é consistente com o desenvolvimento de conjuntos de dados e computadores (potência de computação) na realidade, mas também pode ser visto na tabela abaixo que a potência de computação está a crescer mais depressa do que os dados disponíveis, enquanto a memória é a mais lenta a desenvolver.

O desenvolvimento de conjuntos de dados, memória e potência de processamento, Fonte: https://github.com/d2l-ai

Dados

Requisitos de Dados

Frente a um modelo grande, o overfitting tende a ocorrer quando os dados de treino são muito pequenos e, em geral, a precisão do modelo mais complexo melhora à medida que a quantidade de dados aumenta. Em relação ao requisito de dados necessário para um modelo grande, pode ser decidido com base na regra do 10, que sugere que a quantidade de dados deve ser 10 vezes o parâmetro, mas alguns algoritmos de deep learning aplicam 1:1.

Dados rotulados

A aprendizagem supervisionada requer o uso de conjuntos de dados rotulados + em destaque para chegar a resultados válidos.

Origem: Conjunto de Dados de Categorização de Vestuário Fashion-MNIST

Dados sintéticos

Apesar do rápido aumento de dados ao longo da última década ou duas e dos conjuntos de dados de código aberto atualmente disponíveis, incluindo Kaggle, Azure, AWS, Google database, etc., quantidades limitadas, escassas e caras de dados estão gradualmente a tornar-se um entrave para o desenvolvimento de IA devido às questões de privacidade, aumento de parâmetros do modelo e reprodutibilidade dos dados. Diferentes soluções de dados são propostas com o objetivo de aliviar este problema.

As técnicas de aumento de dados podem ser uma solução eficaz ao fornecer dados insuficientes ao modelo sem adquirir novas amostras, como escala, rotação, reflexão, recorte, tradução, adição de ruído gaussiano, mixup, etc.

Os dados sintéticos são outra opção. Os dados sintéticos são dados que podem ser gerados artificialmente por simulação de computador ou algoritmos com ou sem um conjunto de dados de referência anterior. Em relação ao desenvolvimento de ferramentas para gerar dados sintéticos, Ian J. Goodfellow inventou a Rede Generativa Adversária (GAN), que é uma arquitetura de aprendizado profundo.

Treina dois redes neurais para competir entre si, o que pode gerar novos dados mais realistas a partir de um conjunto de dados de treino dado. A arquitetura suporta a geração de imagens, preenchimento de informações em falta, a geração de dados de treino para outros modelos, a geração de modelos 3D com base em dados 2D e muito mais.

Ainda é cedo no desenvolvimento do campo, com a maioria das empresas existentes que trabalham com dados sintéticos fundadas em 2021 ou 2022, e algumas em 2023.

O estado do financiamento para empresas de dados sintéticos. Fonte: https://frontline.vc/blog/synthetic-data/

Base de Dados de Vetores

O processo de treino de IA envolve um grande número de operações de matriz, desde a incorporação de palavras, matriz QKV do transformador, até operações softmax, e assim por diante através das operações de matriz, os parâmetros do modelo inteiro também são transportados na matriz.

exemplo de base de dados vetorial, Fonte : https://x.com/ProfTomYeh/status/1795076707386360227

Recursos de Hardware de Computador

Modelos grandes trazem uma enorme demanda de hardware de computador, que é principalmente categorizada em treinamento e inferência.

Pré-treino, afinação e inferência

O pré-treino e a afinação podem ser ainda mais divididos sob treinamento. Como mencionado anteriormente, a construção de um modelo de rede requer inicialmente a inicialização aleatória dos parâmetros, em seguida, o treinamento da rede e o ajuste contínuo dos parâmetros até que a perda da rede atinja uma faixa aceitável. A diferença entre o pré-treino e a afinação é que

o pré-treino começa com cada camada de parâmetros a partir da inicialização aleatória, enquanto algumas camadas de ajuste fino podem usar diretamente os parâmetros do modelo previamente treinado como os parâmetros de inicialização para esta tarefa (congelando os parâmetros das camadas anteriores) e atuando em um conjunto de dados específico.

Origem: https://d2l.ai/chapter_computer-vision/fine-tuning.html

O pré-treino e o ajuste fino envolvem ambos alterações nos parâmetros do modelo, o que resulta, em última análise, numa otimização do modelo ou dos parâmetros, enquanto a inferência é o cálculo da inferência ao carregar um modelo após as entradas do utilizador e, em última análise, obter feedback e resultados de saída.

O pré-treino, ajuste fino e inferência são classificados do maior para o menor em termos de requisitos de computador. A tabela seguinte compara os requisitos de hardware de computador do treino e da inferência. Os requisitos de hardware de computador dos dois são significativamente diferentes em termos de potência de computação, memória e comunicação/largura de banda devido às diferenças no processo de computação e requisitos de precisão, e ao mesmo tempo há um Trilema Impossível em potência de computação, memória e comunicação/largura de banda.

As medidas estatísticas nesta tabela são baseadas num único modelo a processar um único token, um único parâmetro. \ FLOPs: operações de ponto flutuante por segundo, o número de operações de matriz. \
*DP, TP, PP: paralelismo de dados, paralelismo de tensor, paralelismo de pipeline.

Comparação de hardware de computador entre treinamento e inferência, Fonte: Organizado pela HashKey Capital

O processo de treino de uma rede neural requer alternar entre a propagação para a frente e para trás, utilizando o gradiente dado pela propagação para trás para atualizar os parâmetros do modelo. Por outro lado, a inferência requer apenas propagação para a frente. Esta diferença torna-se um fator influente que diferencia principalmente os requisitos de recursos de hardware do computador para treino e inferência.

Em termos de potência de cálculo, como mostrado na tabela, existe uma relação multiplicativa simples entre o número de parâmetros do modelo e o consumo de potência de cálculo, com o treino a requerer 6-8 operações de ponto flutuante e a inferência a requerer 2. Isto deve-se à retropropagação envolvida no treino, que requer o dobro da potência de cálculo da propagação direta, e assim o consumo de potência de cálculo do treino é muito maior do que o da inferência.

Em termos de memória, a retropropagação usada para treinamento reutiliza os valores intermediários armazenados na propagação direta para evitar cálculos repetidos. Portanto, o processo de treinamento precisa manter os valores intermediários até que a retropropagação seja concluída. O consumo de memória resultante durante o treinamento contém principalmente parâmetros do modelo, valores de ativação intermediários gerados durante a computação direta, gradientes gerados pela computação de retropropagação, e estados do otimizador. A fase de inferência não precisa de retropropagação, otimizador e gradiente, etc., e o uso de memória durante a sua utilização é muito menor do que o do treinamento.

Em termos de comunicação/largura de banda, para melhorar o desempenho do treino de IA, o treino de modelos mainstream geralmente usa três estratégias paralelas: paralelismo de dados, paralelismo de tensores e paralelismo de pipeline.

  • Data parallel refere-se à replicação de múltiplas réplicas de modelos que são executadas em diferentes dispositivos, com cada réplica do modelo atuando em diferentes conjuntos de dados e sincronizando os dados de gradiente durante o ciclo de treino.
  • Por outro lado, o paralelismo de pipeline divide as camadas intermediárias ocultas e cada nó de cálculo é responsável por várias dessas camadas transformadoras. Esta abordagem também é conhecida como paralelismo entre camadas.
  • O paralelismo tensorial, por outro lado, divide cada um desses módulos transformadores e é também conhecido como paralelismo intra-camada.

Origem: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Para estas três estratégias, prevê-se que a frequência de comunicação do TP seja a maior, o volume de comunicação é o mais alto e está relacionado com o número de tokens, a largura do modelo e o número de camadas. O volume e a frequência de comunicação do PP são menores do que os do TP, e estão relacionados com o número de tokens e a largura do modelo. O volume e a frequência de comunicação do DP são os menores e são independentes dos tokens de entrada.

Trilema Impossível

O gargalo dos recursos de hardware de computador em modelos grandes é principalmente limitado pelo poder computacional, largura de banda/comunicação e memória, e existem verificações e equilíbrios entre os três, resultando no problema do Trilema Impossível. Por exemplo, devido a gargalos de comunicação, o desempenho do cluster não pode ser melhorado simplesmente otimizando o poder de um único computador.

Assim, embora as arquiteturas paralelas sejam usadas para acelerar o desempenho do cluster, a maioria das arquiteturas paralelas na verdade sacrifica a comunicação ou o armazenamento em prol da potência de computação.

Sacrificar comunicação e armazenamento em prol do poder de computação:

Em PP, se uma GPU for atribuída a cada camada dos transformadores, apesar do aumento de potência computacional em unidades de tempo, os requisitos de comunicação entre as camadas também aumentam, resultando em aumento do volume de dados e latência. Além disso, o requisito de armazenamento do estado intermediário para a propagação direta aumenta extremamente rápido.

Sacrificar a comunicação pelo poder de computação:

Em TP, cada transformador é desmontado para computação em paralelo. Uma vez que o transformador é composto por dois componentes (cabeça de atenção e rede de avanço), a tarefa pode ser dividida dentro da camada para a cabeça de atenção ou a rede neural de avanço. Esta abordagem de TP pode aliviar o problema de hierarquia PP excessiva devido às GPUs não serem capazes de ajustar o modelo. No entanto, esta abordagem ainda tem uma sobrecarga de comunicação séria.

Cripto+AI

Neste artigo, acreditamos que atualmente existem as seguintes grandes categorias de IA no campo cripto:

Fonte: Organizado pela HashKey Capital

Como mencionado anteriormente, os três componentes mais críticos em IA são dados, modelos e potência computacional, que servem como infraestrutura para potenciar a IA cripto.

A sua combinação acaba por formar uma rede de computação, com um grande número de middleware a aparecer no processo de computação para ser eficiente e mais alinhado com o espírito cripto. A jusante estão os Agentes baseados nesses resultados verificáveis, que podem servir diferentes funções para diferentes públicos-alvo.

Outro fluxograma pode ser usado para expressar a ecologia básica da IA de cripto da seguinte forma:

Fluxograma ecológico, fonte: organizado por HashKey Capital

Claro que são necessários mecanismos tokenómicos no espaço cripto para incentivar a coordenação da participação de diferentes intervenientes.

Dados

Para conjuntos de dados, pode-se escolher entre fontes de dados públicas ou fontes de dados privadas específicas.

Fonte de Dados:

  • Grass é o projeto que rastreia fontes de dados em cima de Solana, o pano de fundo é devido ao fato de que muitas empresas bloqueiam crawls de IP de data centers, mas não bloqueiam usuários residenciais, Grass atua como um provedor de serviço descentralizado que incentiva usuários residenciais a contribuir com sua largura de banda via token.
  • Vana, como DATA DAO, também fornece sua própria solução, onde o criador cria diferentes data dao para diferentes fontes de dados na cadeia e configura diferentes programas de incentivo para os usuários carregarem seus dados. Até agora, foram criados data dao para o reddit (rDAO), onde mais de 154.000 usuários fornecem seus dados pessoais ao rDAO para treinamento de IA.
  • Os dados relevantes são recolhidos sob a forma de DePINs, que permitem aos utilizadores ligar os seus veículos à plataforma DIMO através de um dispositivo de hardware, por exemplo. Informações básicas sobre o veículo e dados mais avançados sobre padrões de condução, etc. serão transmitidos de forma segura para a rede DIMO, armazenados on-chain e associados ao ID do veículo correspondente (NFT). Outro exemplo é o Hivemapper que recolhe dados de mapas enquanto o utilizador está a conduzir.

Plataforma de Dados Sintéticos:

  • Dria é uma plataforma de geração de dados sintéticos (OPStack L2) que incentiva os utilizadores a gerar/comercializar dados sintéticos de forma descentralizada. O seu armazenamento de dados é guardado no Arweave através do HollowDB. Quando os utilizadores iniciam um pedido de geração de dados sintéticos, a Dria aceitará o pedido e dividirá a tarefa pelos nós de computação na rede de dados sintéticos para execução e, após a verificação da rede, os dados sintéticos finais podem ser negociados no mercado do conhecimento.

Outros:

Plataforma de serviço de rotulagem de dados, ao atribuir a tarefa de ordem de rotulagem a diferentes trabalhadores, esses trabalhadores podem obter o incentivo de token correspondente após completarem a tarefa, como Cripto, Public AI, entre outros. No entanto, o problema atual é que há mais pessoas a fazer rotulagem de dados do que dados, enquanto as empresas de IA têm fornecedores estáveis de rotulagem de dados para as suas necessidades de dados rotulados, devido à existência pegajosa que faz com que a sua vontade de mudar para plataformas descentralizadas seja fraca. Estas plataformas podem apenas conseguir a alocação da parte restante da ordem junto dos fornecedores de rotulagem de dados.

Redes de Computação

Redes de Computação Generalizadas

Redes de computação generalizadas, que se referem a redes que agregam recursos como GPUs e CPUs para serem capazes de fornecer serviços de computação generalizada, o que significa nenhuma distinção entre treinamento e inferência.

  • Akash, um projeto de 2020, atua como um mercado para combinar oferta e demanda computacionais, permitindo que os fornecedores de computação licitem pedidos, com as correspondências finais carregadas na blockchain como transações. Um validador separado é responsável por empacotar blocos e realizar validação. Este processo não envolve como as tarefas de IA são atribuídas, nem valida o processo de computação e os resultados, sem distinguir entre treinamento e inferência.
  • io.net, que até junho de 2022 desenvolveu sistemas de negociação quantitativa de nível institucional principalmente para o mercado de ações dos EUA e mercados de criptomoedas, descobriu a Ray.io, uma biblioteca Python de código aberto para construir sistemas distribuídos de alto desempenho, ao longo do caminho. io.net aproveita o Ray e bibliotecas especializadas para streaming de dados, treinamento, ajuste fino, e combina com VPNs de Malha (que simplificam o processo de desenvolvimento e implantação de modelos de IA em grande escala em vastas redes de GPUs) para fornecer serviços de computação.
  • Bittensor, como uma plataforma aberta, permite aos usuários criar sub-redes em sua plataforma, cada uma com seus próprios incentivos exclusivos para motivar outros usuários a participar como mineradores de sub-redes, validadores de sub-redes, mineradores de sub-redes para executar tarefas específicas e validadores para verificar essas tarefas dos mineradores.
  • Aethir, é uma infraestrutura de computação em nuvem que fornece serviços de alta qualidade para IA e jogos em nuvem. Aethir foca na agregação de recursos de GPU de alta qualidade, como o chip H100 da NVIDIA, de centros de dados, empresas de tecnologia, operadoras de telecomunicações, principais estúdios de jogos e empresas de mineração de criptomoedas. A rede é composta por 3 atores principais: Container, Checker e Indexer. Os Containers, incluindo o Aethir Edge, são onde os recursos de computação são realmente utilizados. O Checker garante a integridade e o desempenho do Container. Se necessário, o Indexer corresponde os usuários finais com Containers apropriados com base nos requisitos dos usuários finais.

Redes específicas de computação

Pré-treino

No espaço da Cripto, a Gensyn, investida pela a16z, propõe uma rede de computação de treinamento descentralizada.

O processo consiste em, após um utilizador submeter uma tarefa de requisito de formação, a plataforma a analisar, avaliar a potência de computação necessária, bem como dividi-la num número mínimo de trabalhos de Aprendizagem Automática, altura em que o validador periodicamente obtém a tarefa analisada para gerar limites para a comparação das provas de aprendizagem a jusante.

Uma vez que a tarefa entra na fase de treinamento, ela é executada pelo Solver, que armazena periodicamente os pesos do modelo e os índices de resposta do conjunto de dados de treinamento, bem como gera as provas de aprendizagem, e o verificador também executa o trabalho computacional reexecutando algumas das provas para realizar cálculos de distância para verificar se elas correspondem às provas. Os denunciantes realizam arbitragem com base em um programa de desafio pontual baseado em gráficos para verificar se o trabalho de validação foi realizado corretamente.

Ajuste fino

A afinação é mais fácil e menos dispendiosa de implementar do que a pré-formação direta de um modelo grande, simplesmente através da afinação do modelo pré-formado com um conjunto de dados específico, e adaptando o modelo a uma tarefa específica, preservando o modelo original.

Hugging Face pode ser acedido como um fornecedor de recursos de modelo de linguagem pré-treinado para a plataforma distribuída, o utilizador seleciona o modelo a ser ajustado de acordo com os requisitos da tarefa e depois utiliza as GPUs e outros recursos fornecidos pela rede de computação para o ajuste fino da tarefa, o que precisa de ser baseado na complexidade da tarefa para determinar o tamanho do conjunto de dados, a complexidade do modelo, e para determinar ainda a necessidade de um nível superior de recursos como o A100.

Para além do Gensyn, uma plataforma que pode suportar pré-treino, a maioria das plataformas de computação também pode suportar ajustes finos.

Inferência

Comparado com o treino (pré-treino e afinação), que requer afinação dos parâmetros do modelo, o processo computacional de inferência envolve apenas propagação direta e requer menos potência de cálculo. A maioria das redes de computação descentralizada atualmente foca nos serviços de inferência.

  • A Rede Nosana é uma plataforma para executar cargas de trabalho de inferência de IA que fornece serviços de computação direcionados ao processo de inferência para modelos LLama 2 e Difusão Estável.
  • Ritual.AI, a primeira fase da plataforma é o Infernet, que é um framework leve. Com ele, os desenvolvedores de contratos inteligentes podem solicitar serviços de inferência fora da cadeia e entregá-los aos contratos inteligentes na cadeia. A segunda fase é a camada de execução, Ritual Chain, que suporta operações nativas de IA.

Camadas/adaptadores adicionais

Quando a inferência é realizada, esta etapa já é a etapa de uso do modelo, então a middleware pode ser introduzida no momento certo:

  • Model Matching: Ao fazer inferências, é geralmente necessário determinar o modelo apropriado de acordo com os requisitos da tarefa.
  • API: Abstrair toda a API de modelos de código aberto de interface unificada, como Redpill

Contrato inteligente on-chain para recuperar os resultados dos cálculos de IA off-chain:

  • Protocolo ORA para fornecer resultados de inferência verificados para contratos inteligentes, por exemplo, o nó opML recolhe pedidos opML enviados da cadeia, executará inferência de IA e depois carregará os resultados na cadeia e aguardará o período de desafio.

Outra camada de privacidade pode ser adicionada à rede de computação, que inclui principalmente a privacidade de dados e a privacidade do modelo, onde a privacidade dos dados é muito mais importante do que a privacidade do modelo.

  • Atualmente, o protocolo Oasis utiliza Intel TDX e NVIDIA TEEs para fornecer privacidade e verificabilidade para o treino de modelos de IA.

Verificação

A maioria das redes de computação constrói diferentes sistemas de validação para garantir que o sistema funcione com precisão, enquanto o link é uma parte que ainda não foi introduzida no campo tradicional de IA.

ZKML

O papel principal da prova ZK é o seguinte 2 pontos:

  • Usado para provar a precisão do modelo sem revelar quaisquer parâmetros
  • Prove que a computação foi feita corretamente e que o modelo + inputs correspondem aos outputs: Modulus labs, Giza

A Modulus Labs mostrou que é possível criar provas para modelos de 18 milhões de parâmetros em 60-70 segundos usando o sistema de prova Plonky da Polygon. Para modelos pequenos, é possível usar ZKML nesta fase, mas o custo ainda é significativo:

  • O tempo de prova do ZKML aumenta com o aumento dos parâmetros.
  • É muito caro em termos de consumo de memória do provador. A Worldcoin, por exemplo, utiliza um modelo com 1,8M parâmetros e 50 camadas para distinguir entre 10 bilhões de íris, para as quais as provas de inferência podem ser geradas em apenas alguns minutos, mas o consumo de memória dentro do provador é muito alto para qualquer hardware móvel.

Origem: @ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307"">https://medium.com/@ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307

OPML

Dadas as limitações do ZKML descritas acima, OPML é uma alternativa. Embora mais fraco em termos de segurança do que o ZKML, o consumo de memória e o tempo de computação da prova são significativamente melhores do que os do ZKML. De acordo com o relatório da ORA, é mostrado que para o mesmo modelo 7B-LLaMA (com um tamanho de modelo de cerca de 26GB), o opML pode ser processado dentro de 32GB de memória, enquanto o consumo de memória dos circuitos no zkML pode ser da ordem de terabytes ou até mesmo petabytes.

TEEML

O Ambiente de Execução Confiável fornece segurança ao nível do hardware e pode ser uma alternativa ao ZKML e OPML. A prova de TEE é gerada como resultado de uma computação interna dentro do TEE e seu custo computacional é muito menor do que o da prova zk. Além disso, o tamanho da prova de TEE é geralmente uma constante fixa (comprimento da assinatura) e, portanto, tem a vantagem de uma pegada menor e menor custo de validação on-chain.

Para além da verificação, TEE tem a vantagem de manter os dados sensíveis isolados, garantindo que processos ou cálculos externos não possam aceder ou alterar os dados dentro dele.

Projetos que utilizam TEE incluem:

  • Rede Aizel (fornecendo inferência)
  • Rede Phala (centrada na criação de Agentes de IA)
  • Protocolo Oasia (treino de modelo de IA)
  • Protocolo Marlin (Oyster pode implementar e validar modelos de ML)

Origem: https://arxiv.org/pdf/2401.17555,Protocolo Marlin

Além disso, o protocolo ORA desenvolveu opp/ai (Inteligência Artificial Otimista de Preservação de Privacidade na Blockchain) além de sua própria validação ZKML e OPML, e não está incluído na tabela de comparação acima.

Camada de Agente

O agente tem a capacidade de analisar a informação recebida, avaliar as condições ambientais atuais e tomar decisões. A composição do agente é mostrada na figura seguinte, na qual o LLM é o componente central, além disso, é necessário fornecer a indicação apropriada ao LLM e, através da Memória, armazenar dados de curto prazo e dados históricos de longo prazo (dados externos).

Uma vez que tarefas complexas não podem ser concluídas de uma só vez, elas precisam ser divididas em tarefas menores pelo Plano, além disso, o Agente também pode chamar APIs externas para obter informações adicionais, incluindo informações atuais, capacidades de execução de código, acesso a fontes de informação proprietárias, e assim por diante.

Origem: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande

A capacidade de tomada de decisão dos Agentes não teve uma certa quebra até ao surgimento do Grande Modelo de Linguagem LLM nos últimos anos. Um relatório compilou o número de artigos publicados sobre Agentes de 2021 a 2023, como mostrado na figura abaixo, na realidade existem apenas cerca de uma dúzia de artigos de pesquisa em 2021, mas há centenas de artigos publicados sobre eles em 2023. O artigo categorizou os Agentes em 7 categorias.

Fonte: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande

Em web3, os cenários em que os Agentes existem ainda são limitados em comparação com o mundo web2 e atualmente incluem compensação automatizada, construção de componentes de código (escrever contratos inteligentes, escrever circuitos zk), controle de risco em tempo real, e execução de estratégias como arbitragem e agricultura de rendimento.

Criação de agentes e plataformas de negociação

  • A Theoriq (ChainML) introduziu o conceito de Camada Base de Agentes, que permite aos programadores anotar Agentes sob a forma de NFT e criar os seus próprios Agentes, bem como construir um Coletivo de Agentes combinando Agentes para cumprir requisitos complexos. Este processo avalia o desempenho e a ligação de diferentes Agentes através de prova de atribuição e prova de colaboração.
  • A Spectral Labs tem dois produtos principais, o Spectral Syntax, uma plataforma que permite aos utilizadores criar Agentes na cadeia, e o Spectral Nova, um serviço de inferência que suporta solicitações de serviços de inferência. A criação de um Agente no Spectral Syntax utiliza o serviço de inferência do Spectral Nova, e essa inferência é garantida por prova de ZK para garantir que funcione. Ao mesmo tempo, eles vão lançar o Inferchain para permitir a comunicação de Agente para Agente.
  • Autonolas suporta a construção de serviços compostos por vários Agentes, o que permite ao Proprietário do Serviço criar um serviço e registar o serviço correspondente no registo de serviços para iniciar o fluxo de trabalho, solicitar ao desenvolvedor que forneça os componentes do Agente, e assim por diante. Os desenvolvedores podem desenvolver o Agente, componentes e outro código armazenado offchain, criar o NFT correspondente onchain, e fazer referência ao hash de metadados do IPFS e, em seguida, fazer referência ao código subjacente referindo-se ainda mais ao hash do IPFS. Os serviços são tipicamente executados por um conjunto de Operadores, cada um executando pelo menos uma instância do Agente. Além disso, o Autonolas alcança consenso dentro do serviço para seus agentes por meio de um Dispositivo de Consenso que estabelece um acordo entre os agentes dentro do serviço.

Plataforma de Monitorização de Agentes

  • AgentOpsAI é um parceiro da sentient, fornecendo serviços de monitorização de Agent (eventos de registo, chamadas, erros de Agent, etc.), atualmente uma plataforma centralizada, sem token envolvido.

Fluxo de trabalho

Com base em diferentes Agentes podem ser combinados/abstraídos/criados um aplicativo específico, ao mesmo tempo, existem algumas plataformas de coordenação disponíveis para os usuários escolherem que tipo de Agentes usar para construir um tipo específico de aplicativo. Mas a maioria deles limita-se ao desenvolvimento de Agentes.

Aplicação

Desenvolvedores de Projetos

Alguns desenvolvedores irão usar alguma IA para ajudar as suas plataformas a serem mais inteligentes, por exemplo, em projetos de segurança, é utilizada a aprendizagem automática para distinguir vulnerabilidades de ataque; os protocolos DeFi usam IA para construir ferramentas de monitorização em tempo real; e as plataformas de análise de dados também usam IA para ajudar na limpeza e análise de dados.

Utilizador

Janela P&R/Análise

  • Kaito.ai, os usuários podem usar as Perguntas e Respostas para obter informações sobre o sentimento da comunidade, o preço e os movimentos da equipe principal de um projeto.
  • 0xScope, a utilização subjacente de grafos de conhecimento para integrar os dados na cadeia, nomeadamente as características comportamentais do utilizador, para fornecer serviços de análise de dados aos utilizadores, lançou a janela Scopechat Q&A a tempo desta onda de IA.

Loja de Aplicativos de IA

  • Myshell propõe uma camada de consumidores e cria a AI APP Store, que fornece diferentes componentes de IA e três modos de criação para facilitar os usuários a criar diferentes aplicações de IA. Os widgets são divididos em componentes básicos e compostos. Os componentes básicos permitem aos usuários criar Prompt, Voz, Avatar e outros ativos em aplicativos de IA, enquanto os componentes compostos permitem que componentes personalizados sejam construídos usando uma combinação de vários modelos/componentes básicos. Os modos de criação incluem, clássico, dev e no-code três modos para desenvolvedores e usuários com diferentes habilidades e necessidades.

Resumo

Neste artigo, gostaríamos de destacar os seguintes 3 pontos:

  • GPUAI

Na cripto, um número de redes de computação emergem inevitavelmente fazendo com que os usuários sintam que a GPU é IA, mas como analisado na seção anterior, existe um trilema impossível de redes de computação, ou seja, potência de computação, largura de banda/comunicação e memória, bem como três tipos de estratégias paralelas usadas no treinamento do modelo, como paralelismo de dados, paralelismo de tensores e paralelismo de pipeline, todos apontam para os controles e equilíbrios impostos na configuração da estrutura de rede de computação.

  • Mesmo Modelo & mesma DadosMesmo Resultado

A razão pela qual o mesmo modelo e dados não necessariamente resultam no mesmo resultado é o uso de computação de ponto flutuante. Essa diferença na computação também tem um impacto na construção da rede de computação.

  • Mais Agentes de IA

Os Agentes de IA apenas começaram a mostrar mais utilidade nos últimos anos, e esperamos que mais Agentes apareçam no mercado. Mas como os Agentes funcionam na cripto ou como encontrar os incentivos certos de tokens continua a ser um desafio.

Declaração:

  1. Este artigo foi reproduzido de[médio],título original 'AI into Crypto', direitos de autor pertencem ao autor original[HashKey Capital ],如对转载有异议,请联系Portão Learn团队,团队会根据相关流程尽速处理。

  2. Isenção de responsabilidade: As opiniões expressas neste artigo representam apenas a opinião pessoal do autor e não constituem qualquer conselho de investimento.

  3. As outras versões linguísticas do artigo são traduzidas pela equipe Gate Learn, quando não mencionadasGate.ioEm nenhum caso, é permitida a cópia, disseminação ou plágio de artigos traduzidos.

Начните торговать сейчас
Зарегистрируйтесь сейчас и получите ваучер на
$100
!