O lançamento do ChatGPT em novembro de 2022 abriu os olhos de vários intervenientes do setor para o modelo de linguagem AI grande. Esta dinâmica frenética permeou o espaço Cripto, e este artigo tem como objetivo introduzir o desenvolvimento da AI, seu estado atual e a indústria que surgiu da combinação de AI+Crypto.
A aprendizagem automática (ML) é uma tecnologia com capacidades de aprendizagem empírica, que aprende a discriminar animais, tradução de linguagem e outras tarefas específicas através da aprendizagem a partir de grandes conjuntos de dados. A aprendizagem automática pertence à forma mais prática de realizar inteligência artificial no presente, de acordo com se os dados aprendidos estão rotulados e as características podem ser divididas em aprendizagem supervisionada e aprendizagem não supervisionada.
Existem muitos tipos de modelos que podem realizar aprendizagem supervisionada, incluindo modelos baseados em árvores, modelos de gráficos e as redes neurais recentemente surgidas. Com o rápido desenvolvimento da capacidade de computação e dados, a aprendizagem profunda foi ainda mais desenvolvida com base na arquitetura das redes neurais. As arquiteturas atuais de aprendizagem profunda comumente incluem, mas não se limitam a CNNs, RNNs e mecanismos de atenção.
Classificação de aprendizado de máquina, fonte: HashKey Capital
Redes de aprendizagem profunda diferentes têm a arquitetura básica da camada de entrada, camada oculta e camada de saída, a camada de entrada é geralmente texto, vídeo, áudio e outros dados após serem processados "tokenize/embedding". A camada oculta tem um design diferente (forma do modelo) dependendo do conjunto de dados e do propósito da tarefa, como mostrado na tabela.
Tipos de Redes Neurais, Fonte: Organizado por HashKey Capital
30 anos de desenvolvimento de redes neurais, fonte: organizado por Capital HashKey
O treino de redes neurais teve origem em meados da década de 1980, quando Jordan treinou uma rede neural para aprender padrões sequenciais em seu artigo de 1986.Ordem Serial: Uma Abordagem de Processamento Distribuído Paralelo. A pequena rede tinha apenas alguns neurônios.
Nos anos 1990, Jeffrey Ehrman expandiu a rede neural para uma rede de 50 neurônios com a descoberta de que a rede agrupa espacialmente palavras com base no significado. Por exemplo, separou substantivos inanimados e animados, e dentro destas duas categorias, os objetos animados foram subdivididos em categorias humanas e não humanas, e os inanimados foram categorizados como quebráveis e comestíveis. Isso indica que a rede tem a capacidade de aprender explicações hierárquicas.
Ele observou ainda que as palavras podem ser representadas como pontos num espaço de alta dimensão e que uma sequência de palavras ou frases pode ser vista como um caminho. Esta grande descoberta permite que conjuntos de dados textuais sejam digitalizados, vetorizados e processados por computadores.
Origem: http://3b1b.co/neural-networks
Em 2011, os pesquisadores da Confluence treinaram redes maiores envolvendo milhares de neurônios e milhões de conexões, e foi encontrado um gargalo no estudo na capacidade da rede de manter um contexto coerente ao longo de sequências longas.
Em 2017, a OpenAI baseou-se no trabalho de Kathy treinando em 82 milhões de avaliações da Amazon nas quais neurônios emocionais foram descobertos. Tais neurônios categorizaram perfeitamente as emoções do texto.
Origem: Aprender a Gerar Avaliações e Descobrir Sentimento
Em relação às limitações do tamanho do contexto, este artigo de 2017 Attention Is All You Need apresenta uma solução. O artigo cria uma rede de camada dinâmica que adapta os pesos de conexão com base no contexto da rede. Funciona permitindo que as palavras na entrada vejam, comparem outras palavras e encontrem as mais relevantes. Quanto mais próximas essas palavras estiverem em conceito, mais próximas estão no espaço e podem ter pesos de conexão mais altos. No entanto, o artigo concentrou-se apenas no problema da tradução.
Assim, os investigadores da OpenAI tentaram uma arquitetura de transformador mais poderosa e lançaram o GPT-3 em 2020, o que atraiu a atenção generalizada das indústrias em todo o mundo, desta vez com a rede a atingir 175B parâmetros, 96 camadas e uma janela de contexto de 1.000 palavras.
Tomemos a seguinte imagem digital de 28x28 pixels como exemplo, os neurónios correspondem a cada pixel da imagem de entrada de 28x28, num total de 784 neurónios, os números nos neurónios são os valores de ativação, que variam de 0 a 1.
imagem digital de 28x28 pixels, Fonte: http://3b1b.co/neural-networks
Estes 784 neurónios formam a camada de entrada da rede. A camada final é a camada de saída, que contém dez neurónios representando os números 0-9, novamente com valores de ativação variando de 0-1. A camada do meio é a camada oculta, onde o valor de ativação da camada anterior determina o valor de ativação da próxima camada conforme a rede neural opera.
A profundidade do aprendizado profundo reside no fato de o modelo aprender muitas “camadas” de transformações, cada uma com uma representação diferente. Como mostrado na figura abaixo, por exemplo, em 9, camadas diferentes podem reconhecer diferentes características. Quanto mais próxima a camada de entrada estiver do nível inferior de detalhe dos dados, mais próximos estarão os conceitos mais específicos que podem ser usados para diferenciar a camada de saída.
Origem: http://3b1b.co/neural-networks
À medida que o modelo fica maior, as camadas ocultas no meio envolvem centenas de bilhões de pesos por camada, e são esses pesos e vieses que realmente determinam o que a rede está realmente a fazer. O processo de aprendizagem de máquina é o processo de encontrar os parâmetros corretos, que são pesos e vieses.
A arquitetura do transformador usada no GPT, um modelo de linguagem grande, tem uma camada intermediária oculta composta por 96 camadas de módulos de decodificação, dos quais GPT1, GPT2 e GPT3 têm 12, 48 e 96 camadas, respectivamente. O decodificador, por sua vez, contém componentes de rede neural de atenção e feedback direto.
O processo de computação ou aprendizagem envolve a definição de uma função de custo (ou função de perda) que soma os quadrados das diferenças entre as previsões de saída computadas da rede e os valores reais, e quando a soma é pequena, o modelo opera dentro de limites aceitáveis.
O treino começa aleatorizando os parâmetros da rede e finalizando os parâmetros do modelo da rede ao encontrar o parâmetro que minimiza a função de custo. A forma de convergir a função de custo é através da descida do gradiente, pela qual é examinado o grau de impacto de cada alteração de parâmetro no custo/perda, e depois os parâmetros são ajustados de acordo com esse grau de impacto.
O processo de cálculo do gradiente do parâmetro introduz a propagação retroativa ou retropropagação, que percorre a rede da camada de saída para a camada de entrada em ordem inversa de acordo com a regra da cadeia. O algoritmo também requer o armazenamento de quaisquer variáveis intermediárias (derivadas parciais) necessárias para calcular o gradiente.
Existem três fatores principais que afetam o desempenho dos grandes modelos de linguagem de IA durante o seu treino, nomeadamente o número de parâmetros do modelo, o tamanho do conjunto de dados e a quantidade de computação.
Fonte: Relatório da OpenAI, Leis de Escalonamento para Modelos de Linguagem Neural
Isto é consistente com o desenvolvimento de conjuntos de dados e computadores (potência de computação) na realidade, mas também pode ser visto na tabela abaixo que a potência de computação está a crescer mais depressa do que os dados disponíveis, enquanto a memória é a mais lenta a desenvolver.
O desenvolvimento de conjuntos de dados, memória e potência de processamento, Fonte: https://github.com/d2l-ai
Frente a um modelo grande, o overfitting tende a ocorrer quando os dados de treino são muito pequenos e, em geral, a precisão do modelo mais complexo melhora à medida que a quantidade de dados aumenta. Em relação ao requisito de dados necessário para um modelo grande, pode ser decidido com base na regra do 10, que sugere que a quantidade de dados deve ser 10 vezes o parâmetro, mas alguns algoritmos de deep learning aplicam 1:1.
A aprendizagem supervisionada requer o uso de conjuntos de dados rotulados + em destaque para chegar a resultados válidos.
Origem: Conjunto de Dados de Categorização de Vestuário Fashion-MNIST
Apesar do rápido aumento de dados ao longo da última década ou duas e dos conjuntos de dados de código aberto atualmente disponíveis, incluindo Kaggle, Azure, AWS, Google database, etc., quantidades limitadas, escassas e caras de dados estão gradualmente a tornar-se um entrave para o desenvolvimento de IA devido às questões de privacidade, aumento de parâmetros do modelo e reprodutibilidade dos dados. Diferentes soluções de dados são propostas com o objetivo de aliviar este problema.
As técnicas de aumento de dados podem ser uma solução eficaz ao fornecer dados insuficientes ao modelo sem adquirir novas amostras, como escala, rotação, reflexão, recorte, tradução, adição de ruído gaussiano, mixup, etc.
Os dados sintéticos são outra opção. Os dados sintéticos são dados que podem ser gerados artificialmente por simulação de computador ou algoritmos com ou sem um conjunto de dados de referência anterior. Em relação ao desenvolvimento de ferramentas para gerar dados sintéticos, Ian J. Goodfellow inventou a Rede Generativa Adversária (GAN), que é uma arquitetura de aprendizado profundo.
Treina dois redes neurais para competir entre si, o que pode gerar novos dados mais realistas a partir de um conjunto de dados de treino dado. A arquitetura suporta a geração de imagens, preenchimento de informações em falta, a geração de dados de treino para outros modelos, a geração de modelos 3D com base em dados 2D e muito mais.
Ainda é cedo no desenvolvimento do campo, com a maioria das empresas existentes que trabalham com dados sintéticos fundadas em 2021 ou 2022, e algumas em 2023.
O estado do financiamento para empresas de dados sintéticos. Fonte: https://frontline.vc/blog/synthetic-data/
O processo de treino de IA envolve um grande número de operações de matriz, desde a incorporação de palavras, matriz QKV do transformador, até operações softmax, e assim por diante através das operações de matriz, os parâmetros do modelo inteiro também são transportados na matriz.
exemplo de base de dados vetorial, Fonte : https://x.com/ProfTomYeh/status/1795076707386360227
Modelos grandes trazem uma enorme demanda de hardware de computador, que é principalmente categorizada em treinamento e inferência.
O pré-treino e a afinação podem ser ainda mais divididos sob treinamento. Como mencionado anteriormente, a construção de um modelo de rede requer inicialmente a inicialização aleatória dos parâmetros, em seguida, o treinamento da rede e o ajuste contínuo dos parâmetros até que a perda da rede atinja uma faixa aceitável. A diferença entre o pré-treino e a afinação é que
o pré-treino começa com cada camada de parâmetros a partir da inicialização aleatória, enquanto algumas camadas de ajuste fino podem usar diretamente os parâmetros do modelo previamente treinado como os parâmetros de inicialização para esta tarefa (congelando os parâmetros das camadas anteriores) e atuando em um conjunto de dados específico.
Origem: https://d2l.ai/chapter_computer-vision/fine-tuning.html
O pré-treino e o ajuste fino envolvem ambos alterações nos parâmetros do modelo, o que resulta, em última análise, numa otimização do modelo ou dos parâmetros, enquanto a inferência é o cálculo da inferência ao carregar um modelo após as entradas do utilizador e, em última análise, obter feedback e resultados de saída.
O pré-treino, ajuste fino e inferência são classificados do maior para o menor em termos de requisitos de computador. A tabela seguinte compara os requisitos de hardware de computador do treino e da inferência. Os requisitos de hardware de computador dos dois são significativamente diferentes em termos de potência de computação, memória e comunicação/largura de banda devido às diferenças no processo de computação e requisitos de precisão, e ao mesmo tempo há um Trilema Impossível em potência de computação, memória e comunicação/largura de banda.
As medidas estatísticas nesta tabela são baseadas num único modelo a processar um único token, um único parâmetro. \ FLOPs: operações de ponto flutuante por segundo, o número de operações de matriz. \
*DP, TP, PP: paralelismo de dados, paralelismo de tensor, paralelismo de pipeline.
Comparação de hardware de computador entre treinamento e inferência, Fonte: Organizado pela HashKey Capital
O processo de treino de uma rede neural requer alternar entre a propagação para a frente e para trás, utilizando o gradiente dado pela propagação para trás para atualizar os parâmetros do modelo. Por outro lado, a inferência requer apenas propagação para a frente. Esta diferença torna-se um fator influente que diferencia principalmente os requisitos de recursos de hardware do computador para treino e inferência.
Em termos de potência de cálculo, como mostrado na tabela, existe uma relação multiplicativa simples entre o número de parâmetros do modelo e o consumo de potência de cálculo, com o treino a requerer 6-8 operações de ponto flutuante e a inferência a requerer 2. Isto deve-se à retropropagação envolvida no treino, que requer o dobro da potência de cálculo da propagação direta, e assim o consumo de potência de cálculo do treino é muito maior do que o da inferência.
Em termos de memória, a retropropagação usada para treinamento reutiliza os valores intermediários armazenados na propagação direta para evitar cálculos repetidos. Portanto, o processo de treinamento precisa manter os valores intermediários até que a retropropagação seja concluída. O consumo de memória resultante durante o treinamento contém principalmente parâmetros do modelo, valores de ativação intermediários gerados durante a computação direta, gradientes gerados pela computação de retropropagação, e estados do otimizador. A fase de inferência não precisa de retropropagação, otimizador e gradiente, etc., e o uso de memória durante a sua utilização é muito menor do que o do treinamento.
Em termos de comunicação/largura de banda, para melhorar o desempenho do treino de IA, o treino de modelos mainstream geralmente usa três estratégias paralelas: paralelismo de dados, paralelismo de tensores e paralelismo de pipeline.
Origem: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Para estas três estratégias, prevê-se que a frequência de comunicação do TP seja a maior, o volume de comunicação é o mais alto e está relacionado com o número de tokens, a largura do modelo e o número de camadas. O volume e a frequência de comunicação do PP são menores do que os do TP, e estão relacionados com o número de tokens e a largura do modelo. O volume e a frequência de comunicação do DP são os menores e são independentes dos tokens de entrada.
O gargalo dos recursos de hardware de computador em modelos grandes é principalmente limitado pelo poder computacional, largura de banda/comunicação e memória, e existem verificações e equilíbrios entre os três, resultando no problema do Trilema Impossível. Por exemplo, devido a gargalos de comunicação, o desempenho do cluster não pode ser melhorado simplesmente otimizando o poder de um único computador.
Assim, embora as arquiteturas paralelas sejam usadas para acelerar o desempenho do cluster, a maioria das arquiteturas paralelas na verdade sacrifica a comunicação ou o armazenamento em prol da potência de computação.
Sacrificar comunicação e armazenamento em prol do poder de computação:
Em PP, se uma GPU for atribuída a cada camada dos transformadores, apesar do aumento de potência computacional em unidades de tempo, os requisitos de comunicação entre as camadas também aumentam, resultando em aumento do volume de dados e latência. Além disso, o requisito de armazenamento do estado intermediário para a propagação direta aumenta extremamente rápido.
Sacrificar a comunicação pelo poder de computação:
Em TP, cada transformador é desmontado para computação em paralelo. Uma vez que o transformador é composto por dois componentes (cabeça de atenção e rede de avanço), a tarefa pode ser dividida dentro da camada para a cabeça de atenção ou a rede neural de avanço. Esta abordagem de TP pode aliviar o problema de hierarquia PP excessiva devido às GPUs não serem capazes de ajustar o modelo. No entanto, esta abordagem ainda tem uma sobrecarga de comunicação séria.
Neste artigo, acreditamos que atualmente existem as seguintes grandes categorias de IA no campo cripto:
Fonte: Organizado pela HashKey Capital
Como mencionado anteriormente, os três componentes mais críticos em IA são dados, modelos e potência computacional, que servem como infraestrutura para potenciar a IA cripto.
A sua combinação acaba por formar uma rede de computação, com um grande número de middleware a aparecer no processo de computação para ser eficiente e mais alinhado com o espírito cripto. A jusante estão os Agentes baseados nesses resultados verificáveis, que podem servir diferentes funções para diferentes públicos-alvo.
Outro fluxograma pode ser usado para expressar a ecologia básica da IA de cripto da seguinte forma:
Fluxograma ecológico, fonte: organizado por HashKey Capital
Claro que são necessários mecanismos tokenómicos no espaço cripto para incentivar a coordenação da participação de diferentes intervenientes.
Para conjuntos de dados, pode-se escolher entre fontes de dados públicas ou fontes de dados privadas específicas.
Fonte de Dados:
Plataforma de Dados Sintéticos:
Outros:
Plataforma de serviço de rotulagem de dados, ao atribuir a tarefa de ordem de rotulagem a diferentes trabalhadores, esses trabalhadores podem obter o incentivo de token correspondente após completarem a tarefa, como Cripto, Public AI, entre outros. No entanto, o problema atual é que há mais pessoas a fazer rotulagem de dados do que dados, enquanto as empresas de IA têm fornecedores estáveis de rotulagem de dados para as suas necessidades de dados rotulados, devido à existência pegajosa que faz com que a sua vontade de mudar para plataformas descentralizadas seja fraca. Estas plataformas podem apenas conseguir a alocação da parte restante da ordem junto dos fornecedores de rotulagem de dados.
Redes de computação generalizadas, que se referem a redes que agregam recursos como GPUs e CPUs para serem capazes de fornecer serviços de computação generalizada, o que significa nenhuma distinção entre treinamento e inferência.
No espaço da Cripto, a Gensyn, investida pela a16z, propõe uma rede de computação de treinamento descentralizada.
O processo consiste em, após um utilizador submeter uma tarefa de requisito de formação, a plataforma a analisar, avaliar a potência de computação necessária, bem como dividi-la num número mínimo de trabalhos de Aprendizagem Automática, altura em que o validador periodicamente obtém a tarefa analisada para gerar limites para a comparação das provas de aprendizagem a jusante.
Uma vez que a tarefa entra na fase de treinamento, ela é executada pelo Solver, que armazena periodicamente os pesos do modelo e os índices de resposta do conjunto de dados de treinamento, bem como gera as provas de aprendizagem, e o verificador também executa o trabalho computacional reexecutando algumas das provas para realizar cálculos de distância para verificar se elas correspondem às provas. Os denunciantes realizam arbitragem com base em um programa de desafio pontual baseado em gráficos para verificar se o trabalho de validação foi realizado corretamente.
A afinação é mais fácil e menos dispendiosa de implementar do que a pré-formação direta de um modelo grande, simplesmente através da afinação do modelo pré-formado com um conjunto de dados específico, e adaptando o modelo a uma tarefa específica, preservando o modelo original.
Hugging Face pode ser acedido como um fornecedor de recursos de modelo de linguagem pré-treinado para a plataforma distribuída, o utilizador seleciona o modelo a ser ajustado de acordo com os requisitos da tarefa e depois utiliza as GPUs e outros recursos fornecidos pela rede de computação para o ajuste fino da tarefa, o que precisa de ser baseado na complexidade da tarefa para determinar o tamanho do conjunto de dados, a complexidade do modelo, e para determinar ainda a necessidade de um nível superior de recursos como o A100.
Para além do Gensyn, uma plataforma que pode suportar pré-treino, a maioria das plataformas de computação também pode suportar ajustes finos.
Comparado com o treino (pré-treino e afinação), que requer afinação dos parâmetros do modelo, o processo computacional de inferência envolve apenas propagação direta e requer menos potência de cálculo. A maioria das redes de computação descentralizada atualmente foca nos serviços de inferência.
Quando a inferência é realizada, esta etapa já é a etapa de uso do modelo, então a middleware pode ser introduzida no momento certo:
Contrato inteligente on-chain para recuperar os resultados dos cálculos de IA off-chain:
Outra camada de privacidade pode ser adicionada à rede de computação, que inclui principalmente a privacidade de dados e a privacidade do modelo, onde a privacidade dos dados é muito mais importante do que a privacidade do modelo.
A maioria das redes de computação constrói diferentes sistemas de validação para garantir que o sistema funcione com precisão, enquanto o link é uma parte que ainda não foi introduzida no campo tradicional de IA.
O papel principal da prova ZK é o seguinte 2 pontos:
A Modulus Labs mostrou que é possível criar provas para modelos de 18 milhões de parâmetros em 60-70 segundos usando o sistema de prova Plonky da Polygon. Para modelos pequenos, é possível usar ZKML nesta fase, mas o custo ainda é significativo:
Origem: @ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307"">https://medium.com/@ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307
Dadas as limitações do ZKML descritas acima, OPML é uma alternativa. Embora mais fraco em termos de segurança do que o ZKML, o consumo de memória e o tempo de computação da prova são significativamente melhores do que os do ZKML. De acordo com o relatório da ORA, é mostrado que para o mesmo modelo 7B-LLaMA (com um tamanho de modelo de cerca de 26GB), o opML pode ser processado dentro de 32GB de memória, enquanto o consumo de memória dos circuitos no zkML pode ser da ordem de terabytes ou até mesmo petabytes.
O Ambiente de Execução Confiável fornece segurança ao nível do hardware e pode ser uma alternativa ao ZKML e OPML. A prova de TEE é gerada como resultado de uma computação interna dentro do TEE e seu custo computacional é muito menor do que o da prova zk. Além disso, o tamanho da prova de TEE é geralmente uma constante fixa (comprimento da assinatura) e, portanto, tem a vantagem de uma pegada menor e menor custo de validação on-chain.
Para além da verificação, TEE tem a vantagem de manter os dados sensíveis isolados, garantindo que processos ou cálculos externos não possam aceder ou alterar os dados dentro dele.
Projetos que utilizam TEE incluem:
Origem: https://arxiv.org/pdf/2401.17555,Protocolo Marlin
Além disso, o protocolo ORA desenvolveu opp/ai (Inteligência Artificial Otimista de Preservação de Privacidade na Blockchain) além de sua própria validação ZKML e OPML, e não está incluído na tabela de comparação acima.
O agente tem a capacidade de analisar a informação recebida, avaliar as condições ambientais atuais e tomar decisões. A composição do agente é mostrada na figura seguinte, na qual o LLM é o componente central, além disso, é necessário fornecer a indicação apropriada ao LLM e, através da Memória, armazenar dados de curto prazo e dados históricos de longo prazo (dados externos).
Uma vez que tarefas complexas não podem ser concluídas de uma só vez, elas precisam ser divididas em tarefas menores pelo Plano, além disso, o Agente também pode chamar APIs externas para obter informações adicionais, incluindo informações atuais, capacidades de execução de código, acesso a fontes de informação proprietárias, e assim por diante.
Origem: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande
A capacidade de tomada de decisão dos Agentes não teve uma certa quebra até ao surgimento do Grande Modelo de Linguagem LLM nos últimos anos. Um relatório compilou o número de artigos publicados sobre Agentes de 2021 a 2023, como mostrado na figura abaixo, na realidade existem apenas cerca de uma dúzia de artigos de pesquisa em 2021, mas há centenas de artigos publicados sobre eles em 2023. O artigo categorizou os Agentes em 7 categorias.
Fonte: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande
Em web3, os cenários em que os Agentes existem ainda são limitados em comparação com o mundo web2 e atualmente incluem compensação automatizada, construção de componentes de código (escrever contratos inteligentes, escrever circuitos zk), controle de risco em tempo real, e execução de estratégias como arbitragem e agricultura de rendimento.
Com base em diferentes Agentes podem ser combinados/abstraídos/criados um aplicativo específico, ao mesmo tempo, existem algumas plataformas de coordenação disponíveis para os usuários escolherem que tipo de Agentes usar para construir um tipo específico de aplicativo. Mas a maioria deles limita-se ao desenvolvimento de Agentes.
Alguns desenvolvedores irão usar alguma IA para ajudar as suas plataformas a serem mais inteligentes, por exemplo, em projetos de segurança, é utilizada a aprendizagem automática para distinguir vulnerabilidades de ataque; os protocolos DeFi usam IA para construir ferramentas de monitorização em tempo real; e as plataformas de análise de dados também usam IA para ajudar na limpeza e análise de dados.
Neste artigo, gostaríamos de destacar os seguintes 3 pontos:
Na cripto, um número de redes de computação emergem inevitavelmente fazendo com que os usuários sintam que a GPU é IA, mas como analisado na seção anterior, existe um trilema impossível de redes de computação, ou seja, potência de computação, largura de banda/comunicação e memória, bem como três tipos de estratégias paralelas usadas no treinamento do modelo, como paralelismo de dados, paralelismo de tensores e paralelismo de pipeline, todos apontam para os controles e equilíbrios impostos na configuração da estrutura de rede de computação.
A razão pela qual o mesmo modelo e dados não necessariamente resultam no mesmo resultado é o uso de computação de ponto flutuante. Essa diferença na computação também tem um impacto na construção da rede de computação.
Os Agentes de IA apenas começaram a mostrar mais utilidade nos últimos anos, e esperamos que mais Agentes apareçam no mercado. Mas como os Agentes funcionam na cripto ou como encontrar os incentivos certos de tokens continua a ser um desafio.
Este artigo foi reproduzido de[médio],título original 'AI into Crypto', direitos de autor pertencem ao autor original[HashKey Capital ],如对转载有异议,请联系Portão Learn团队,团队会根据相关流程尽速处理。
Isenção de responsabilidade: As opiniões expressas neste artigo representam apenas a opinião pessoal do autor e não constituem qualquer conselho de investimento.
As outras versões linguísticas do artigo são traduzidas pela equipe Gate Learn, quando não mencionadasGate.ioEm nenhum caso, é permitida a cópia, disseminação ou plágio de artigos traduzidos.
Пригласить больше голосов
O lançamento do ChatGPT em novembro de 2022 abriu os olhos de vários intervenientes do setor para o modelo de linguagem AI grande. Esta dinâmica frenética permeou o espaço Cripto, e este artigo tem como objetivo introduzir o desenvolvimento da AI, seu estado atual e a indústria que surgiu da combinação de AI+Crypto.
A aprendizagem automática (ML) é uma tecnologia com capacidades de aprendizagem empírica, que aprende a discriminar animais, tradução de linguagem e outras tarefas específicas através da aprendizagem a partir de grandes conjuntos de dados. A aprendizagem automática pertence à forma mais prática de realizar inteligência artificial no presente, de acordo com se os dados aprendidos estão rotulados e as características podem ser divididas em aprendizagem supervisionada e aprendizagem não supervisionada.
Existem muitos tipos de modelos que podem realizar aprendizagem supervisionada, incluindo modelos baseados em árvores, modelos de gráficos e as redes neurais recentemente surgidas. Com o rápido desenvolvimento da capacidade de computação e dados, a aprendizagem profunda foi ainda mais desenvolvida com base na arquitetura das redes neurais. As arquiteturas atuais de aprendizagem profunda comumente incluem, mas não se limitam a CNNs, RNNs e mecanismos de atenção.
Classificação de aprendizado de máquina, fonte: HashKey Capital
Redes de aprendizagem profunda diferentes têm a arquitetura básica da camada de entrada, camada oculta e camada de saída, a camada de entrada é geralmente texto, vídeo, áudio e outros dados após serem processados "tokenize/embedding". A camada oculta tem um design diferente (forma do modelo) dependendo do conjunto de dados e do propósito da tarefa, como mostrado na tabela.
Tipos de Redes Neurais, Fonte: Organizado por HashKey Capital
30 anos de desenvolvimento de redes neurais, fonte: organizado por Capital HashKey
O treino de redes neurais teve origem em meados da década de 1980, quando Jordan treinou uma rede neural para aprender padrões sequenciais em seu artigo de 1986.Ordem Serial: Uma Abordagem de Processamento Distribuído Paralelo. A pequena rede tinha apenas alguns neurônios.
Nos anos 1990, Jeffrey Ehrman expandiu a rede neural para uma rede de 50 neurônios com a descoberta de que a rede agrupa espacialmente palavras com base no significado. Por exemplo, separou substantivos inanimados e animados, e dentro destas duas categorias, os objetos animados foram subdivididos em categorias humanas e não humanas, e os inanimados foram categorizados como quebráveis e comestíveis. Isso indica que a rede tem a capacidade de aprender explicações hierárquicas.
Ele observou ainda que as palavras podem ser representadas como pontos num espaço de alta dimensão e que uma sequência de palavras ou frases pode ser vista como um caminho. Esta grande descoberta permite que conjuntos de dados textuais sejam digitalizados, vetorizados e processados por computadores.
Origem: http://3b1b.co/neural-networks
Em 2011, os pesquisadores da Confluence treinaram redes maiores envolvendo milhares de neurônios e milhões de conexões, e foi encontrado um gargalo no estudo na capacidade da rede de manter um contexto coerente ao longo de sequências longas.
Em 2017, a OpenAI baseou-se no trabalho de Kathy treinando em 82 milhões de avaliações da Amazon nas quais neurônios emocionais foram descobertos. Tais neurônios categorizaram perfeitamente as emoções do texto.
Origem: Aprender a Gerar Avaliações e Descobrir Sentimento
Em relação às limitações do tamanho do contexto, este artigo de 2017 Attention Is All You Need apresenta uma solução. O artigo cria uma rede de camada dinâmica que adapta os pesos de conexão com base no contexto da rede. Funciona permitindo que as palavras na entrada vejam, comparem outras palavras e encontrem as mais relevantes. Quanto mais próximas essas palavras estiverem em conceito, mais próximas estão no espaço e podem ter pesos de conexão mais altos. No entanto, o artigo concentrou-se apenas no problema da tradução.
Assim, os investigadores da OpenAI tentaram uma arquitetura de transformador mais poderosa e lançaram o GPT-3 em 2020, o que atraiu a atenção generalizada das indústrias em todo o mundo, desta vez com a rede a atingir 175B parâmetros, 96 camadas e uma janela de contexto de 1.000 palavras.
Tomemos a seguinte imagem digital de 28x28 pixels como exemplo, os neurónios correspondem a cada pixel da imagem de entrada de 28x28, num total de 784 neurónios, os números nos neurónios são os valores de ativação, que variam de 0 a 1.
imagem digital de 28x28 pixels, Fonte: http://3b1b.co/neural-networks
Estes 784 neurónios formam a camada de entrada da rede. A camada final é a camada de saída, que contém dez neurónios representando os números 0-9, novamente com valores de ativação variando de 0-1. A camada do meio é a camada oculta, onde o valor de ativação da camada anterior determina o valor de ativação da próxima camada conforme a rede neural opera.
A profundidade do aprendizado profundo reside no fato de o modelo aprender muitas “camadas” de transformações, cada uma com uma representação diferente. Como mostrado na figura abaixo, por exemplo, em 9, camadas diferentes podem reconhecer diferentes características. Quanto mais próxima a camada de entrada estiver do nível inferior de detalhe dos dados, mais próximos estarão os conceitos mais específicos que podem ser usados para diferenciar a camada de saída.
Origem: http://3b1b.co/neural-networks
À medida que o modelo fica maior, as camadas ocultas no meio envolvem centenas de bilhões de pesos por camada, e são esses pesos e vieses que realmente determinam o que a rede está realmente a fazer. O processo de aprendizagem de máquina é o processo de encontrar os parâmetros corretos, que são pesos e vieses.
A arquitetura do transformador usada no GPT, um modelo de linguagem grande, tem uma camada intermediária oculta composta por 96 camadas de módulos de decodificação, dos quais GPT1, GPT2 e GPT3 têm 12, 48 e 96 camadas, respectivamente. O decodificador, por sua vez, contém componentes de rede neural de atenção e feedback direto.
O processo de computação ou aprendizagem envolve a definição de uma função de custo (ou função de perda) que soma os quadrados das diferenças entre as previsões de saída computadas da rede e os valores reais, e quando a soma é pequena, o modelo opera dentro de limites aceitáveis.
O treino começa aleatorizando os parâmetros da rede e finalizando os parâmetros do modelo da rede ao encontrar o parâmetro que minimiza a função de custo. A forma de convergir a função de custo é através da descida do gradiente, pela qual é examinado o grau de impacto de cada alteração de parâmetro no custo/perda, e depois os parâmetros são ajustados de acordo com esse grau de impacto.
O processo de cálculo do gradiente do parâmetro introduz a propagação retroativa ou retropropagação, que percorre a rede da camada de saída para a camada de entrada em ordem inversa de acordo com a regra da cadeia. O algoritmo também requer o armazenamento de quaisquer variáveis intermediárias (derivadas parciais) necessárias para calcular o gradiente.
Existem três fatores principais que afetam o desempenho dos grandes modelos de linguagem de IA durante o seu treino, nomeadamente o número de parâmetros do modelo, o tamanho do conjunto de dados e a quantidade de computação.
Fonte: Relatório da OpenAI, Leis de Escalonamento para Modelos de Linguagem Neural
Isto é consistente com o desenvolvimento de conjuntos de dados e computadores (potência de computação) na realidade, mas também pode ser visto na tabela abaixo que a potência de computação está a crescer mais depressa do que os dados disponíveis, enquanto a memória é a mais lenta a desenvolver.
O desenvolvimento de conjuntos de dados, memória e potência de processamento, Fonte: https://github.com/d2l-ai
Frente a um modelo grande, o overfitting tende a ocorrer quando os dados de treino são muito pequenos e, em geral, a precisão do modelo mais complexo melhora à medida que a quantidade de dados aumenta. Em relação ao requisito de dados necessário para um modelo grande, pode ser decidido com base na regra do 10, que sugere que a quantidade de dados deve ser 10 vezes o parâmetro, mas alguns algoritmos de deep learning aplicam 1:1.
A aprendizagem supervisionada requer o uso de conjuntos de dados rotulados + em destaque para chegar a resultados válidos.
Origem: Conjunto de Dados de Categorização de Vestuário Fashion-MNIST
Apesar do rápido aumento de dados ao longo da última década ou duas e dos conjuntos de dados de código aberto atualmente disponíveis, incluindo Kaggle, Azure, AWS, Google database, etc., quantidades limitadas, escassas e caras de dados estão gradualmente a tornar-se um entrave para o desenvolvimento de IA devido às questões de privacidade, aumento de parâmetros do modelo e reprodutibilidade dos dados. Diferentes soluções de dados são propostas com o objetivo de aliviar este problema.
As técnicas de aumento de dados podem ser uma solução eficaz ao fornecer dados insuficientes ao modelo sem adquirir novas amostras, como escala, rotação, reflexão, recorte, tradução, adição de ruído gaussiano, mixup, etc.
Os dados sintéticos são outra opção. Os dados sintéticos são dados que podem ser gerados artificialmente por simulação de computador ou algoritmos com ou sem um conjunto de dados de referência anterior. Em relação ao desenvolvimento de ferramentas para gerar dados sintéticos, Ian J. Goodfellow inventou a Rede Generativa Adversária (GAN), que é uma arquitetura de aprendizado profundo.
Treina dois redes neurais para competir entre si, o que pode gerar novos dados mais realistas a partir de um conjunto de dados de treino dado. A arquitetura suporta a geração de imagens, preenchimento de informações em falta, a geração de dados de treino para outros modelos, a geração de modelos 3D com base em dados 2D e muito mais.
Ainda é cedo no desenvolvimento do campo, com a maioria das empresas existentes que trabalham com dados sintéticos fundadas em 2021 ou 2022, e algumas em 2023.
O estado do financiamento para empresas de dados sintéticos. Fonte: https://frontline.vc/blog/synthetic-data/
O processo de treino de IA envolve um grande número de operações de matriz, desde a incorporação de palavras, matriz QKV do transformador, até operações softmax, e assim por diante através das operações de matriz, os parâmetros do modelo inteiro também são transportados na matriz.
exemplo de base de dados vetorial, Fonte : https://x.com/ProfTomYeh/status/1795076707386360227
Modelos grandes trazem uma enorme demanda de hardware de computador, que é principalmente categorizada em treinamento e inferência.
O pré-treino e a afinação podem ser ainda mais divididos sob treinamento. Como mencionado anteriormente, a construção de um modelo de rede requer inicialmente a inicialização aleatória dos parâmetros, em seguida, o treinamento da rede e o ajuste contínuo dos parâmetros até que a perda da rede atinja uma faixa aceitável. A diferença entre o pré-treino e a afinação é que
o pré-treino começa com cada camada de parâmetros a partir da inicialização aleatória, enquanto algumas camadas de ajuste fino podem usar diretamente os parâmetros do modelo previamente treinado como os parâmetros de inicialização para esta tarefa (congelando os parâmetros das camadas anteriores) e atuando em um conjunto de dados específico.
Origem: https://d2l.ai/chapter_computer-vision/fine-tuning.html
O pré-treino e o ajuste fino envolvem ambos alterações nos parâmetros do modelo, o que resulta, em última análise, numa otimização do modelo ou dos parâmetros, enquanto a inferência é o cálculo da inferência ao carregar um modelo após as entradas do utilizador e, em última análise, obter feedback e resultados de saída.
O pré-treino, ajuste fino e inferência são classificados do maior para o menor em termos de requisitos de computador. A tabela seguinte compara os requisitos de hardware de computador do treino e da inferência. Os requisitos de hardware de computador dos dois são significativamente diferentes em termos de potência de computação, memória e comunicação/largura de banda devido às diferenças no processo de computação e requisitos de precisão, e ao mesmo tempo há um Trilema Impossível em potência de computação, memória e comunicação/largura de banda.
As medidas estatísticas nesta tabela são baseadas num único modelo a processar um único token, um único parâmetro. \ FLOPs: operações de ponto flutuante por segundo, o número de operações de matriz. \
*DP, TP, PP: paralelismo de dados, paralelismo de tensor, paralelismo de pipeline.
Comparação de hardware de computador entre treinamento e inferência, Fonte: Organizado pela HashKey Capital
O processo de treino de uma rede neural requer alternar entre a propagação para a frente e para trás, utilizando o gradiente dado pela propagação para trás para atualizar os parâmetros do modelo. Por outro lado, a inferência requer apenas propagação para a frente. Esta diferença torna-se um fator influente que diferencia principalmente os requisitos de recursos de hardware do computador para treino e inferência.
Em termos de potência de cálculo, como mostrado na tabela, existe uma relação multiplicativa simples entre o número de parâmetros do modelo e o consumo de potência de cálculo, com o treino a requerer 6-8 operações de ponto flutuante e a inferência a requerer 2. Isto deve-se à retropropagação envolvida no treino, que requer o dobro da potência de cálculo da propagação direta, e assim o consumo de potência de cálculo do treino é muito maior do que o da inferência.
Em termos de memória, a retropropagação usada para treinamento reutiliza os valores intermediários armazenados na propagação direta para evitar cálculos repetidos. Portanto, o processo de treinamento precisa manter os valores intermediários até que a retropropagação seja concluída. O consumo de memória resultante durante o treinamento contém principalmente parâmetros do modelo, valores de ativação intermediários gerados durante a computação direta, gradientes gerados pela computação de retropropagação, e estados do otimizador. A fase de inferência não precisa de retropropagação, otimizador e gradiente, etc., e o uso de memória durante a sua utilização é muito menor do que o do treinamento.
Em termos de comunicação/largura de banda, para melhorar o desempenho do treino de IA, o treino de modelos mainstream geralmente usa três estratégias paralelas: paralelismo de dados, paralelismo de tensores e paralelismo de pipeline.
Origem: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Para estas três estratégias, prevê-se que a frequência de comunicação do TP seja a maior, o volume de comunicação é o mais alto e está relacionado com o número de tokens, a largura do modelo e o número de camadas. O volume e a frequência de comunicação do PP são menores do que os do TP, e estão relacionados com o número de tokens e a largura do modelo. O volume e a frequência de comunicação do DP são os menores e são independentes dos tokens de entrada.
O gargalo dos recursos de hardware de computador em modelos grandes é principalmente limitado pelo poder computacional, largura de banda/comunicação e memória, e existem verificações e equilíbrios entre os três, resultando no problema do Trilema Impossível. Por exemplo, devido a gargalos de comunicação, o desempenho do cluster não pode ser melhorado simplesmente otimizando o poder de um único computador.
Assim, embora as arquiteturas paralelas sejam usadas para acelerar o desempenho do cluster, a maioria das arquiteturas paralelas na verdade sacrifica a comunicação ou o armazenamento em prol da potência de computação.
Sacrificar comunicação e armazenamento em prol do poder de computação:
Em PP, se uma GPU for atribuída a cada camada dos transformadores, apesar do aumento de potência computacional em unidades de tempo, os requisitos de comunicação entre as camadas também aumentam, resultando em aumento do volume de dados e latência. Além disso, o requisito de armazenamento do estado intermediário para a propagação direta aumenta extremamente rápido.
Sacrificar a comunicação pelo poder de computação:
Em TP, cada transformador é desmontado para computação em paralelo. Uma vez que o transformador é composto por dois componentes (cabeça de atenção e rede de avanço), a tarefa pode ser dividida dentro da camada para a cabeça de atenção ou a rede neural de avanço. Esta abordagem de TP pode aliviar o problema de hierarquia PP excessiva devido às GPUs não serem capazes de ajustar o modelo. No entanto, esta abordagem ainda tem uma sobrecarga de comunicação séria.
Neste artigo, acreditamos que atualmente existem as seguintes grandes categorias de IA no campo cripto:
Fonte: Organizado pela HashKey Capital
Como mencionado anteriormente, os três componentes mais críticos em IA são dados, modelos e potência computacional, que servem como infraestrutura para potenciar a IA cripto.
A sua combinação acaba por formar uma rede de computação, com um grande número de middleware a aparecer no processo de computação para ser eficiente e mais alinhado com o espírito cripto. A jusante estão os Agentes baseados nesses resultados verificáveis, que podem servir diferentes funções para diferentes públicos-alvo.
Outro fluxograma pode ser usado para expressar a ecologia básica da IA de cripto da seguinte forma:
Fluxograma ecológico, fonte: organizado por HashKey Capital
Claro que são necessários mecanismos tokenómicos no espaço cripto para incentivar a coordenação da participação de diferentes intervenientes.
Para conjuntos de dados, pode-se escolher entre fontes de dados públicas ou fontes de dados privadas específicas.
Fonte de Dados:
Plataforma de Dados Sintéticos:
Outros:
Plataforma de serviço de rotulagem de dados, ao atribuir a tarefa de ordem de rotulagem a diferentes trabalhadores, esses trabalhadores podem obter o incentivo de token correspondente após completarem a tarefa, como Cripto, Public AI, entre outros. No entanto, o problema atual é que há mais pessoas a fazer rotulagem de dados do que dados, enquanto as empresas de IA têm fornecedores estáveis de rotulagem de dados para as suas necessidades de dados rotulados, devido à existência pegajosa que faz com que a sua vontade de mudar para plataformas descentralizadas seja fraca. Estas plataformas podem apenas conseguir a alocação da parte restante da ordem junto dos fornecedores de rotulagem de dados.
Redes de computação generalizadas, que se referem a redes que agregam recursos como GPUs e CPUs para serem capazes de fornecer serviços de computação generalizada, o que significa nenhuma distinção entre treinamento e inferência.
No espaço da Cripto, a Gensyn, investida pela a16z, propõe uma rede de computação de treinamento descentralizada.
O processo consiste em, após um utilizador submeter uma tarefa de requisito de formação, a plataforma a analisar, avaliar a potência de computação necessária, bem como dividi-la num número mínimo de trabalhos de Aprendizagem Automática, altura em que o validador periodicamente obtém a tarefa analisada para gerar limites para a comparação das provas de aprendizagem a jusante.
Uma vez que a tarefa entra na fase de treinamento, ela é executada pelo Solver, que armazena periodicamente os pesos do modelo e os índices de resposta do conjunto de dados de treinamento, bem como gera as provas de aprendizagem, e o verificador também executa o trabalho computacional reexecutando algumas das provas para realizar cálculos de distância para verificar se elas correspondem às provas. Os denunciantes realizam arbitragem com base em um programa de desafio pontual baseado em gráficos para verificar se o trabalho de validação foi realizado corretamente.
A afinação é mais fácil e menos dispendiosa de implementar do que a pré-formação direta de um modelo grande, simplesmente através da afinação do modelo pré-formado com um conjunto de dados específico, e adaptando o modelo a uma tarefa específica, preservando o modelo original.
Hugging Face pode ser acedido como um fornecedor de recursos de modelo de linguagem pré-treinado para a plataforma distribuída, o utilizador seleciona o modelo a ser ajustado de acordo com os requisitos da tarefa e depois utiliza as GPUs e outros recursos fornecidos pela rede de computação para o ajuste fino da tarefa, o que precisa de ser baseado na complexidade da tarefa para determinar o tamanho do conjunto de dados, a complexidade do modelo, e para determinar ainda a necessidade de um nível superior de recursos como o A100.
Para além do Gensyn, uma plataforma que pode suportar pré-treino, a maioria das plataformas de computação também pode suportar ajustes finos.
Comparado com o treino (pré-treino e afinação), que requer afinação dos parâmetros do modelo, o processo computacional de inferência envolve apenas propagação direta e requer menos potência de cálculo. A maioria das redes de computação descentralizada atualmente foca nos serviços de inferência.
Quando a inferência é realizada, esta etapa já é a etapa de uso do modelo, então a middleware pode ser introduzida no momento certo:
Contrato inteligente on-chain para recuperar os resultados dos cálculos de IA off-chain:
Outra camada de privacidade pode ser adicionada à rede de computação, que inclui principalmente a privacidade de dados e a privacidade do modelo, onde a privacidade dos dados é muito mais importante do que a privacidade do modelo.
A maioria das redes de computação constrói diferentes sistemas de validação para garantir que o sistema funcione com precisão, enquanto o link é uma parte que ainda não foi introduzida no campo tradicional de IA.
O papel principal da prova ZK é o seguinte 2 pontos:
A Modulus Labs mostrou que é possível criar provas para modelos de 18 milhões de parâmetros em 60-70 segundos usando o sistema de prova Plonky da Polygon. Para modelos pequenos, é possível usar ZKML nesta fase, mas o custo ainda é significativo:
Origem: @ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307"">https://medium.com/@ModulusLabs/capítulo-5-o-custo-da-inteligência-da26dbf93307
Dadas as limitações do ZKML descritas acima, OPML é uma alternativa. Embora mais fraco em termos de segurança do que o ZKML, o consumo de memória e o tempo de computação da prova são significativamente melhores do que os do ZKML. De acordo com o relatório da ORA, é mostrado que para o mesmo modelo 7B-LLaMA (com um tamanho de modelo de cerca de 26GB), o opML pode ser processado dentro de 32GB de memória, enquanto o consumo de memória dos circuitos no zkML pode ser da ordem de terabytes ou até mesmo petabytes.
O Ambiente de Execução Confiável fornece segurança ao nível do hardware e pode ser uma alternativa ao ZKML e OPML. A prova de TEE é gerada como resultado de uma computação interna dentro do TEE e seu custo computacional é muito menor do que o da prova zk. Além disso, o tamanho da prova de TEE é geralmente uma constante fixa (comprimento da assinatura) e, portanto, tem a vantagem de uma pegada menor e menor custo de validação on-chain.
Para além da verificação, TEE tem a vantagem de manter os dados sensíveis isolados, garantindo que processos ou cálculos externos não possam aceder ou alterar os dados dentro dele.
Projetos que utilizam TEE incluem:
Origem: https://arxiv.org/pdf/2401.17555,Protocolo Marlin
Além disso, o protocolo ORA desenvolveu opp/ai (Inteligência Artificial Otimista de Preservação de Privacidade na Blockchain) além de sua própria validação ZKML e OPML, e não está incluído na tabela de comparação acima.
O agente tem a capacidade de analisar a informação recebida, avaliar as condições ambientais atuais e tomar decisões. A composição do agente é mostrada na figura seguinte, na qual o LLM é o componente central, além disso, é necessário fornecer a indicação apropriada ao LLM e, através da Memória, armazenar dados de curto prazo e dados históricos de longo prazo (dados externos).
Uma vez que tarefas complexas não podem ser concluídas de uma só vez, elas precisam ser divididas em tarefas menores pelo Plano, além disso, o Agente também pode chamar APIs externas para obter informações adicionais, incluindo informações atuais, capacidades de execução de código, acesso a fontes de informação proprietárias, e assim por diante.
Origem: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande
A capacidade de tomada de decisão dos Agentes não teve uma certa quebra até ao surgimento do Grande Modelo de Linguagem LLM nos últimos anos. Um relatório compilou o número de artigos publicados sobre Agentes de 2021 a 2023, como mostrado na figura abaixo, na realidade existem apenas cerca de uma dúzia de artigos de pesquisa em 2021, mas há centenas de artigos publicados sobre eles em 2023. O artigo categorizou os Agentes em 7 categorias.
Fonte: Um Inquérito sobre Agentes Autónomos Baseados em Modelos de Linguagem Grande
Em web3, os cenários em que os Agentes existem ainda são limitados em comparação com o mundo web2 e atualmente incluem compensação automatizada, construção de componentes de código (escrever contratos inteligentes, escrever circuitos zk), controle de risco em tempo real, e execução de estratégias como arbitragem e agricultura de rendimento.
Com base em diferentes Agentes podem ser combinados/abstraídos/criados um aplicativo específico, ao mesmo tempo, existem algumas plataformas de coordenação disponíveis para os usuários escolherem que tipo de Agentes usar para construir um tipo específico de aplicativo. Mas a maioria deles limita-se ao desenvolvimento de Agentes.
Alguns desenvolvedores irão usar alguma IA para ajudar as suas plataformas a serem mais inteligentes, por exemplo, em projetos de segurança, é utilizada a aprendizagem automática para distinguir vulnerabilidades de ataque; os protocolos DeFi usam IA para construir ferramentas de monitorização em tempo real; e as plataformas de análise de dados também usam IA para ajudar na limpeza e análise de dados.
Neste artigo, gostaríamos de destacar os seguintes 3 pontos:
Na cripto, um número de redes de computação emergem inevitavelmente fazendo com que os usuários sintam que a GPU é IA, mas como analisado na seção anterior, existe um trilema impossível de redes de computação, ou seja, potência de computação, largura de banda/comunicação e memória, bem como três tipos de estratégias paralelas usadas no treinamento do modelo, como paralelismo de dados, paralelismo de tensores e paralelismo de pipeline, todos apontam para os controles e equilíbrios impostos na configuração da estrutura de rede de computação.
A razão pela qual o mesmo modelo e dados não necessariamente resultam no mesmo resultado é o uso de computação de ponto flutuante. Essa diferença na computação também tem um impacto na construção da rede de computação.
Os Agentes de IA apenas começaram a mostrar mais utilidade nos últimos anos, e esperamos que mais Agentes apareçam no mercado. Mas como os Agentes funcionam na cripto ou como encontrar os incentivos certos de tokens continua a ser um desafio.
Este artigo foi reproduzido de[médio],título original 'AI into Crypto', direitos de autor pertencem ao autor original[HashKey Capital ],如对转载有异议,请联系Portão Learn团队,团队会根据相关流程尽速处理。
Isenção de responsabilidade: As opiniões expressas neste artigo representam apenas a opinião pessoal do autor e não constituem qualquer conselho de investimento.
As outras versões linguísticas do artigo são traduzidas pela equipe Gate Learn, quando não mencionadasGate.ioEm nenhum caso, é permitida a cópia, disseminação ou plágio de artigos traduzidos.