¿Cómo coexisten los grandes modelos de IA y Web3? |Todo Creation Camp AI+Crypto Studio

Intermedio1/31/2024, 3:56:38 PM
Este artículo explica cómo la tecnología de blockchain puede resolver los cuellos de botella actuales en el entrenamiento de modelos de IA grandes, incluyendo: equilibrio entre volumen de datos y privacidad, costos y potencia de cómputo, etc., y explora la relación interactiva entre la IA y la Social.

Como la tecnología de alta tecnología de más rápido crecimiento en la historia de la humanidad, los grandes modelos han atraído la atención de todos. Web3, que era solo algo de ayer, está siendo desafiado legalmente cada vez más. Pero al ser tecnologías completamente diferentes, no hay sustitución entre las dos. La persona a cargo del "Estudio de IA+Cripto" en la Isla de Todas las Cosas - el Sr. Tian Hongfei, discutirá con usted los problemas encontrados en el desarrollo de grandes modelos y cómo las empresas en el campo de web3 se comprometen a resolver estos problemas.

Problemas de la industria del modelo grande y cómo incorporar Web3 para resolverlos

Como todos sabemos, la industria de Internet entró en la etapa de oligopolio después de 2015, y los países de todo el mundo han llevado a cabo revisiones antimonopolio de las empresas de plataformas. La aparición de modelos grandes intensifica aún más la posición de monopolio de los oligopolios. Los modelos grandes incluyen algoritmos, potencia de cálculo y datos:

  • En el campo de los algoritmos, si bien existe un grado de monopolio, los algoritmos pueden seguir siendo en gran medida abiertos debido a las fuerzas del código abierto y la rivalidad de las universidades de investigación, así como la desconfianza de la gente hacia los oligarcas;
  • En términos de potencia informática, debido al costo extremadamente alto de entrenar modelos grandes, la potencia informática solo puede ser asumida por grandes empresas, por lo que esto resulta en que la producción de algoritmos esté completamente controlada por grandes empresas;
  • En términos de datos, si bien el entrenamiento de modelos grandes depende de datos públicos, pronto se agotarán los datos públicos basados en el crecimiento de los parámetros de los modelos grandes, y por lo tanto, el crecimiento continuo de los modelos grandes depende de datos privados. Si bien la cantidad absoluta de datos poseída por un gran número de pequeñas empresas es enorme, es difícil de utilizar de forma aislada, por lo que las grandes empresas siguen teniendo un monopolio sobre los datos.

Como resultado, la era del Gran Modelo está más centralmente controlada que nunca, y es probable que el mundo del futuro esté controlado por un puñado o incluso por una sola computadora. (Incluso en el mundo descentralizado de Web3, el End Game propuesto por Vitalik para Ethereum será ejecutado por una máquina gigante fuera del bloque.)

Además, la empresa OpenAI que desarrolló ChatGPT tiene solo más de 20 empleados clave. Debido a varias razones, el algoritmo de ChatGPT aún no se ha hecho de código abierto. La naturaleza original de empresa sin ánimo de lucro ha cambiado a lucrativa limitada. A medida que diversas aplicaciones que dependen de ChatGPT han cambiado la vida humana, algunas modificaciones al modelo de ChatGPT tendrán un gran impacto en los humanos. En comparación con el principio de no hacer el mal de Google, ChatGPT tiene un impacto más profundo en las personas.

Por lo tanto, la credibilidad computacional del modelo se convertirá en un tema importante. Aunque OpenAI puede operar como una organización sin fines de lucro, el control del poder por parte de unas pocas personas seguirá teniendo muchas consecuencias adversas. (En contraste, aunque el Ethereum End Game propuesto por Vitalik es producido por una máquina, mantendrá transparencia a través de una verificación muy fácil por parte del público).

Al mismo tiempo, todavía existen problemas en la industria de modelos grandes: escasez de potencia de cálculo, los datos de entrenamiento disponibles están a punto de agotarse y el intercambio de modelos. Según las estadísticas, antes de 2021, el problema en la industria de la inteligencia artificial es la falta de datos, y todas las empresas de aprendizaje profundo están buscando datos en industrias verticales; y después de los grandes modelos, la falta de potencia de cálculo se convierte en un obstáculo.

El desarrollo de modelos grandes se divide en varias etapas: recopilación de datos, preprocesamiento de datos, entrenamiento de modelos, ajuste fino de modelos y consulta de inferencia de implementación. A partir de estas etapas, describamos brevemente la contribución de la cadena de bloques a los grandes modelos y cómo combatir el daño de la concentración excesiva de grandes modelos.

  • En términos de datos, dado que los datos públicos se consumirán después de 2030, es necesario utilizar cantidades más valiosas y mayores de datos privados mientras se protege la privacidad a través de la tecnología blockchain;
  • En cuanto a la anotación de datos, los tokens se pueden utilizar para incentivar la anotación a gran escala y la verificación de datos;
  • En la etapa de entrenamiento del modelo, se logra compartir la potencia informática a través del intercambio de modelos y entrenamiento colaborativo;
  • Durante la fase de ajuste fino del modelo, la participación de la comunidad puede ser incentivada a través de tokens;
  • En la fase de consulta de usuario y cálculo de razonamiento, la cadena de bloques puede proteger la privacidad de los datos del usuario.

En particular:

1) Escasez de potencia informática

La potencia de cálculo es un factor de producción necesario para los modelos grandes, y es el factor de producción más caro hoy en día, tanto que las startups recién financiadas tienen que transferir el 80% de sus fondos a NVIDIA para comprar GPUs. Las empresas que producen sus propios modelos grandes tienen que gastar al menos $50 millones para construir sus propios centros de datos, mientras que las pequeñas startups tienen que comprar costosos servicios de computación en la nube.

Sin embargo, la popularidad a corto plazo de los modelos grandes y el enorme consumo de recursos informáticos por parte de los propios modelos grandes han superado ampliamente la capacidad de suministro de NVIDIA. Según las estadísticas, la demanda de potencia informática de los grandes modelos se duplica cada pocos meses. Entre 2012 y 2018, la demanda de potencia informática aumentó 300,000 veces, y el costo de los cálculos de modelos grandes aumentó 31 veces cada año.

Para las empresas de Internet chinas, también tienen que enfrentar el embargo estadounidense sobre las GPU de alta gama. Se puede decir que el enorme costo de entrenamiento es la razón principal por la que la tecnología de modelos grandes está controlada por unas pocas personas.

Entonces, ¿cómo resolver el problema de la potencia informática de los modelos grandes a través de la cadena de bloques?

Teniendo en cuenta la producción de modelos grandes, se divide principalmente en entrenamiento de modelos grandes, ajuste fino y cálculo de inferencia de consulta de usuario. Aunque los modelos grandes son notoriamente costosos de entrenar, una versión de un modelo grande solo necesita generarse una vez. La mayor parte del tiempo, para los usuarios de servicios de modelos grandes, solo se requiere cálculo inferencial. Según las estadísticas de AWS, esto también se confirma, el 80% de la potencia informática se consume en cálculos de inferencia.

Aunque el entrenamiento de modelos grandes requiere capacidades de comunicación de alta velocidad entre las GPUs, no se puede completar en la red (a menos que elijas intercambiar la extensión de tiempo por un bajo costo). Pero los cálculos de inferencia se pueden hacer en una sola GPU. El ajuste fino se basa en el modelo grande que se ha generado y se ha proporcionado datos profesionales, por lo que requiere muchos menos recursos informáticos que el entrenamiento de modelos grandes.

Cuando se trata de renderizado de gráficos, está claro que las GPU para consumidores funcionan mejor que las GPU empresariales y están inactivas la mayor parte del tiempo. Desde que la Universidad de California, Berkeley lanzó SETI para buscar extraterrestres en 1999, y la Computación en Red se popularizó en 2000, ha habido algunas arquitecturas técnicas que utilizan recursos informáticos inactivos para colaborar y completar algunas tareas informáticas enormes. Antes de la aparición de la blockchain, estas colaboraciones solían centrarse en tareas científicas y dependían del entusiasmo y la participación de bienestar público de los participantes, limitando el alcance del impacto. Ahora, utilizando la tecnología blockchain, su amplia gama de aplicaciones puede ser incentivada a través de tokens.

Al igual que el proyecto de computación en la nube descentralizada Akash, se ha establecido una red de computación general, y los usuarios pueden implementar modelos de aprendizaje automático para cálculos de razonamiento y renderizado de imágenes. También hay proyectos de IA basados en blockchain como Bittensor, Modulus Lab, Giza y ChainML, todos ellos destinados a cálculos de inferencia de consultas.

El protocolo de computación de inteligencia artificial blockchain Gensyn y la plataforma de inteligencia artificial generativa de código abierto Together están decididos a construir una red de computación descentralizada que sirva para el entrenamiento de modelos grandes.

Desafío: Para redes de computación descentralizadas, la dificultad no solo radica en las redes de comunicación lentas e poco confiables, la incapacidad de sincronizar estados computacionales, lidiar con múltiples tipos de entornos informáticos de tipo GPU, sino también en enfrentar incentivos económicos, trampas de los participantes, pruebas de carga de trabajo, seguridad, protección de la privacidad y ataques contra el correo no deseado.

2) Datos escasos y corrección de datos

El algoritmo central del gran modelo, Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), requiere la participación humana en el ajuste fino del entrenamiento para corregir errores y eliminar sesgos e información perjudicial. OpenAI utilizó RLHF para ajustar finamente GPT3 y generar ChatGPT. En el proceso, OpenAI encontró expertos de Facebook Group y pagó a trabajadores kenianos $2 por hora. El entrenamiento de optimización a menudo requiere la participación de expertos humanos en datos de campos especializados, y su implementación puede combinarse completamente con formas de incentivar la participación comunitaria a través de tokens.

La industria de Redes de Infraestructura Física Descentralizada (DePINs) utiliza tokens para animar a las personas a compartir datos reales y en tiempo real del mundo físico según los sensores para varios modelos de entrenamiento. Incluyendo: React recopila datos de uso de energía, DIMO recopila datos de conducción de vehículos, WeatherXM recopila datos meteorológicos, y Hivemapper recopila datos de mapas a través de incentivos de tokens para animar a las personas a marcar señales de tráfico y ayudar a su algoritmo de aprendizaje automático RLHF a mejorar la precisión.

Al mismo tiempo, a medida que los parámetros de los grandes modelos aumentan, los datos públicos existentes se agotarán para 2030, y el progreso continuo de los grandes modelos tendrá que depender de datos privados. La cantidad de datos privados es 10 veces mayor que la de datos públicos, pero está dispersa en manos de empresas y particulares, y es privada y confidencial por naturaleza, lo que dificulta su explotación. Surge un doble dilema. Por un lado, el gran modelo necesita datos, pero aunque la parte con los datos necesita el gran modelo, no desea ceder los datos al gran modelo. Este doble problema también puede resolverse a través de la tecnología en el campo de la cadena de bloques.

Para modelos de inferencia de código abierto, dado que requieren menos recursos informáticos, el modelo puede descargarse en el segmento de datos para su ejecución; para modelos no públicos o grandes, los datos deben ser desensibilizados y subidos al extremo del modelo. Los métodos de desensibilización incluyen datos sintéticos y pruebas de conocimiento cero.

Ya sea que el modelo se descargue al lado de los datos o que los datos se carguen al lado del modelo, el problema de la autoridad debe resolverse para evitar el fraude del modelo o de los datos.

Desafío: Aunque los incentivos de token de Web3 pueden ayudar a resolver este problema, el problema del engaño necesita ser resuelto.

3) Colaboración de modelos

En la comunidad Civitai, la plataforma de intercambio de modelos de pintura AI más grande del mundo, las personas comparten modelos y pueden copiar fácilmente un modelo y modificarlo para generar un modelo que cumpla con sus propios requisitos.

Bittensor, un novato de IA de código abierto y proyecto blockchain de doble consenso, ha diseñado un conjunto de modelos descentralizados con incentivos de token. Basado en el mecanismo de colaboración de una mezcla de expertos, produce conjuntamente un modelo de resolución de problemas y apoya la destilación del conocimiento, que puede ser compartido entre modelos. Información, entrenamiento acelerado, que brinda a numerosas startups la oportunidad de participar en grandes modelos.

Como red unificada para servicios fuera de la cadena, como automatización, oráculos y IA compartida, Autonolas ha diseñado un marco de colaboración para que los agentes alcancen un consenso a través de Tendermint.

Desafío: El entrenamiento de muchos modelos todavía requiere mucha comunicación, y la confiabilidad y eficiencia en el tiempo del entrenamiento distribuido siguen siendo enormes obstáculos;

Grandes modelos e innovación en Web3

En conjunto con lo discutido anteriormente, cómo Web3 puede ser utilizado para resolver algunos de los problemas en la gran industria del modelaje. La combinación de dos fuerzas importantes resultará en algunas aplicaciones innovadoras.

1) Use ChatGPT para escribir contratos inteligentes

Recientemente, un artista de NFT utilizó indicaciones para operar ChatGPT sin ningún conocimiento de programación para lanzar su propio contrato inteligente e emitir el token Turboner. El artista utilizó YouTube para grabar su proceso de creación durante una semana, inspirando a todos a usar ChatGPT. Participar en la creación de contratos inteligentes.

2) El pago Cripto potencia la gestión inteligente

El desarrollo de modelos grandes ha mejorado enormemente la inteligencia de los asistentes inteligentes, y combinado con pagos cifrados, los asistentes inteligentes podrán coordinar más recursos y colaborar en más tareas en el mercado de asistentes inteligentes. AutoGPT demuestra la dependencia de una tarjeta de crédito suministrada por el usuario, y puede ayudar al usuario a automatizar la compra de recursos de computación en la nube y la reserva de vuelos, pero está limitado por el inicio de sesión automático u otra autenticación de seguridad, y las capacidades de AutoGPT están severamente limitadas por el inicio de sesión automático u otra autenticación de seguridad. El diseño del Sistema Multi Agente (MAS), incluido el Protocolo de Red de Contratos, implica la colaboración de múltiples asistentes inteligentes en un mercado abierto, y si es compatible con tokens, dicha colaboración romperá la colaboración limitada basada en la confianza y se convertirá en una colaboración a mayor escala basada en la economía de mercado, tal como la sociedad humana se mueve de una sociedad primitiva a una sociedad monetaria.

3) zkML (Aprendizaje automático de conocimiento cero)

La aplicación de la tecnología zkp (Prueba de Conocimiento Cero) en blockchain se divide en dos categorías. Una es resolver el rendimiento de la cadena de bloques transfiriendo los requisitos de computación a off-chain, y luego a la certificación on-chain a través de zkp; la segunda categoría se utiliza para proteger la privacidad de las transacciones. Las aplicaciones de zkp en modelos grandes incluyen cálculos confiables del modelo (para demostrar la consistencia y autenticidad de los cálculos del modelo) y cálculos de privacidad de los datos de entrenamiento. En un entorno descentralizado, el proveedor de servicios del modelo necesita demostrar a los clientes que el modelo vendido es el prometido, sin recortar esquinas; para los socios de datos de entrenamiento, necesitan participar en el entrenamiento o usar el modelo bajo la premisa de proteger su propia privacidad. Aunque zkp ofrece algunas posibilidades, todavía hay muchos desafíos, y soluciones como la computación homomórfica y la computación de privacidad federada todavía son inmaduras.

Solución basada en la arquitectura BEC (Blockchain Edge Client)

Además de las escuelas mencionadas anteriormente, hay otra escuela que no ha recibido una amplia atención debido a la falta de incentivos de tokens y al uso de aplicaciones de blockchain minimalistas.

La arquitectura basada en BEC tiene muchas similitudes con los conceptos de Web5 mencionados por Jack Dorsey y Solid por Tim Berners-Lee en muchos aspectos.

Todos piensan:

  • Cada persona tiene un nodo de borde de control correspondiente;
  • La informática y el almacenamiento en la mayoría de los escenarios de aplicación deben ser manejados en nodos periféricos;
  • La colaboración entre nodos individuales se completa a través de la cadena de bloques;
  • La comunicación entre nodos se completa a través de P2P;
  • Las personas pueden controlar completamente sus propios nodos solos o confiar en personas de confianza para encomendar la gestión de los nodos (llamados servidores de retransmisión en algunos escenarios);
  • Logró la mayor descentralización posible;

Cuando este nodo correspondiente a cada persona y controlado por el individuo almacena datos personales y carga el modelo grande, se puede entrenar un agente inteligente personal completamente personalizado, 100% protegido de la privacidad (Agente). El socio fundador chino de SIG, el Dr. Gong Ting, comparó románticamente el futuro nodo personal con la nube personal sobre la cabeza de Olaf en "Frozen" que siempre lo sigue.

De esta manera, el Avatar en el Metaverso ya no será una imagen controlada por un teclado, sino un agente con alma. Puede estudiar noticias en línea, procesar correos electrónicos e incluso responder automáticamente a sus mensajes de chat social en nuestro nombre las 24 horas del día. (Atención, novias regañonas, es posible que necesiten una forma de detectar si su novio está usando un agente para tratar con ustedes en el futuro). Cuando su agente necesite nuevas habilidades, al igual que instalar una aplicación en un teléfono móvil, puede instalar una nueva aplicación en su nodo.

Resumen

Históricamente, con la continuación de la plataformaización del desarrollo de Internet, aunque el tiempo para el nacimiento de empresas unicornio se ha vuelto más corto, esto cada vez es más perjudicial para el desarrollo de startups.

Con la eficiente plataforma de distribución de contenido proporcionada por Google y Facebook, Youtube, que nació en 2005, fue adquirida por Google por US$1.6 mil millones solo un año después.

Junto con la eficiente plataforma de distribución de aplicaciones de la Apple App Store, Instagram fue fundada en 2012 por poco más de 10 personas y fue adquirida por Facebook por US$1 mil millones en 2012.

Con el apoyo del gran modelo ChatGPT, Midjourney, que solo tiene 11 personas, ganó 100 millones de dólares al año. Y OpenAI, que no tiene más de 100 personas, está valorada en más de 20 mil millones de dólares.

Las empresas de plataformas de Internet se están volviendo cada vez más poderosas, y la aparición de grandes modelos no ha cambiado el patrón existente de que Internet está siendo monopolizado por grandes empresas. Los tres elementos de los grandes modelos, algoritmos, datos y potencia de cálculo, siguen estando monopolizados por grandes empresas. Las empresas emergentes no tienen la capacidad de innovar grandes modelos y no tienen la fuerza financiera para entrenar grandes modelos. Solo pueden centrarse en la aplicación de grandes modelos en campos verticales. Aunque los grandes modelos parecen promover la popularización del conocimiento, el poder real está controlado por no más de 100 personas en el mundo que tienen la capacidad de producir modelos.

Si en el futuro los modelos grandes penetran en todos los aspectos de la vida de las personas, y le preguntas a ChatGPT sobre tu dieta diaria, tu salud, tus correos electrónicos de trabajo y las cartas de tu abogado, entonces en teoría, aquellos que dominen los modelos grandes solo necesitarán cambiar secretamente algunos parámetros. Esto puede afectar enormemente la vida de innumerables personas. Algunos desempleos causados por el modelo grande pueden resolverse a través de UBI o Worldcoin, pero las consecuencias de la posibilidad del mal causado por el control de un pequeño grupo de personas sobre el modelo grande son más graves. Esta es la intención original de OpenAI. Aunque OpenAI resuelve problemas impulsados por el lucro a través de métodos sin fines de lucro, ¿cómo resuelve los problemas impulsados por el poder? Obviamente, los modelos grandes entrenan rápidamente modelos de conocimiento utilizando el conocimiento acumulado por los humanos durante décadas y compartido libremente en Internet, pero este modelo está controlado por un número muy pequeño de personas.

  1. Por lo tanto, hay un gran conflicto de valores entre los grandes modelos y la cadena de bloques. Los practicantes de la cadena de bloques necesitan participar en el emprendimiento de grandes modelos y utilizar la tecnología de la cadena de bloques para resolver problemas de grandes modelos. Si la gran cantidad de datos libremente disponibles en Internet es el conocimiento común de la humanidad, entonces los grandes modelos generados en base a estos datos deberían pertenecer a toda la humanidad. Así como OpenAI recientemente comenzó a pagar por bases de datos de literatura, OpenAI necesita pagar por los blogs personales a los que tú y yo nos dedicamos.

Descargo de responsabilidad:

  1. Este artículo es reimpreso de [ ThreeDAO, Isla de Todas las Cosas]. Todos los derechos de autor pertenecen al autor original [36C]. Si hay objeciones a esta reimpresión, por favor contacte al Gate Learnequipo, y lo manejarán rápidamente.
  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo son únicamente del autor y no constituyen asesoramiento de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de Gate Learn. A menos que se mencione, está prohibido copiar, distribuir o plagiar los artículos traducidos.

¿Cómo coexisten los grandes modelos de IA y Web3? |Todo Creation Camp AI+Crypto Studio

Intermedio1/31/2024, 3:56:38 PM
Este artículo explica cómo la tecnología de blockchain puede resolver los cuellos de botella actuales en el entrenamiento de modelos de IA grandes, incluyendo: equilibrio entre volumen de datos y privacidad, costos y potencia de cómputo, etc., y explora la relación interactiva entre la IA y la Social.

Como la tecnología de alta tecnología de más rápido crecimiento en la historia de la humanidad, los grandes modelos han atraído la atención de todos. Web3, que era solo algo de ayer, está siendo desafiado legalmente cada vez más. Pero al ser tecnologías completamente diferentes, no hay sustitución entre las dos. La persona a cargo del "Estudio de IA+Cripto" en la Isla de Todas las Cosas - el Sr. Tian Hongfei, discutirá con usted los problemas encontrados en el desarrollo de grandes modelos y cómo las empresas en el campo de web3 se comprometen a resolver estos problemas.

Problemas de la industria del modelo grande y cómo incorporar Web3 para resolverlos

Como todos sabemos, la industria de Internet entró en la etapa de oligopolio después de 2015, y los países de todo el mundo han llevado a cabo revisiones antimonopolio de las empresas de plataformas. La aparición de modelos grandes intensifica aún más la posición de monopolio de los oligopolios. Los modelos grandes incluyen algoritmos, potencia de cálculo y datos:

  • En el campo de los algoritmos, si bien existe un grado de monopolio, los algoritmos pueden seguir siendo en gran medida abiertos debido a las fuerzas del código abierto y la rivalidad de las universidades de investigación, así como la desconfianza de la gente hacia los oligarcas;
  • En términos de potencia informática, debido al costo extremadamente alto de entrenar modelos grandes, la potencia informática solo puede ser asumida por grandes empresas, por lo que esto resulta en que la producción de algoritmos esté completamente controlada por grandes empresas;
  • En términos de datos, si bien el entrenamiento de modelos grandes depende de datos públicos, pronto se agotarán los datos públicos basados en el crecimiento de los parámetros de los modelos grandes, y por lo tanto, el crecimiento continuo de los modelos grandes depende de datos privados. Si bien la cantidad absoluta de datos poseída por un gran número de pequeñas empresas es enorme, es difícil de utilizar de forma aislada, por lo que las grandes empresas siguen teniendo un monopolio sobre los datos.

Como resultado, la era del Gran Modelo está más centralmente controlada que nunca, y es probable que el mundo del futuro esté controlado por un puñado o incluso por una sola computadora. (Incluso en el mundo descentralizado de Web3, el End Game propuesto por Vitalik para Ethereum será ejecutado por una máquina gigante fuera del bloque.)

Además, la empresa OpenAI que desarrolló ChatGPT tiene solo más de 20 empleados clave. Debido a varias razones, el algoritmo de ChatGPT aún no se ha hecho de código abierto. La naturaleza original de empresa sin ánimo de lucro ha cambiado a lucrativa limitada. A medida que diversas aplicaciones que dependen de ChatGPT han cambiado la vida humana, algunas modificaciones al modelo de ChatGPT tendrán un gran impacto en los humanos. En comparación con el principio de no hacer el mal de Google, ChatGPT tiene un impacto más profundo en las personas.

Por lo tanto, la credibilidad computacional del modelo se convertirá en un tema importante. Aunque OpenAI puede operar como una organización sin fines de lucro, el control del poder por parte de unas pocas personas seguirá teniendo muchas consecuencias adversas. (En contraste, aunque el Ethereum End Game propuesto por Vitalik es producido por una máquina, mantendrá transparencia a través de una verificación muy fácil por parte del público).

Al mismo tiempo, todavía existen problemas en la industria de modelos grandes: escasez de potencia de cálculo, los datos de entrenamiento disponibles están a punto de agotarse y el intercambio de modelos. Según las estadísticas, antes de 2021, el problema en la industria de la inteligencia artificial es la falta de datos, y todas las empresas de aprendizaje profundo están buscando datos en industrias verticales; y después de los grandes modelos, la falta de potencia de cálculo se convierte en un obstáculo.

El desarrollo de modelos grandes se divide en varias etapas: recopilación de datos, preprocesamiento de datos, entrenamiento de modelos, ajuste fino de modelos y consulta de inferencia de implementación. A partir de estas etapas, describamos brevemente la contribución de la cadena de bloques a los grandes modelos y cómo combatir el daño de la concentración excesiva de grandes modelos.

  • En términos de datos, dado que los datos públicos se consumirán después de 2030, es necesario utilizar cantidades más valiosas y mayores de datos privados mientras se protege la privacidad a través de la tecnología blockchain;
  • En cuanto a la anotación de datos, los tokens se pueden utilizar para incentivar la anotación a gran escala y la verificación de datos;
  • En la etapa de entrenamiento del modelo, se logra compartir la potencia informática a través del intercambio de modelos y entrenamiento colaborativo;
  • Durante la fase de ajuste fino del modelo, la participación de la comunidad puede ser incentivada a través de tokens;
  • En la fase de consulta de usuario y cálculo de razonamiento, la cadena de bloques puede proteger la privacidad de los datos del usuario.

En particular:

1) Escasez de potencia informática

La potencia de cálculo es un factor de producción necesario para los modelos grandes, y es el factor de producción más caro hoy en día, tanto que las startups recién financiadas tienen que transferir el 80% de sus fondos a NVIDIA para comprar GPUs. Las empresas que producen sus propios modelos grandes tienen que gastar al menos $50 millones para construir sus propios centros de datos, mientras que las pequeñas startups tienen que comprar costosos servicios de computación en la nube.

Sin embargo, la popularidad a corto plazo de los modelos grandes y el enorme consumo de recursos informáticos por parte de los propios modelos grandes han superado ampliamente la capacidad de suministro de NVIDIA. Según las estadísticas, la demanda de potencia informática de los grandes modelos se duplica cada pocos meses. Entre 2012 y 2018, la demanda de potencia informática aumentó 300,000 veces, y el costo de los cálculos de modelos grandes aumentó 31 veces cada año.

Para las empresas de Internet chinas, también tienen que enfrentar el embargo estadounidense sobre las GPU de alta gama. Se puede decir que el enorme costo de entrenamiento es la razón principal por la que la tecnología de modelos grandes está controlada por unas pocas personas.

Entonces, ¿cómo resolver el problema de la potencia informática de los modelos grandes a través de la cadena de bloques?

Teniendo en cuenta la producción de modelos grandes, se divide principalmente en entrenamiento de modelos grandes, ajuste fino y cálculo de inferencia de consulta de usuario. Aunque los modelos grandes son notoriamente costosos de entrenar, una versión de un modelo grande solo necesita generarse una vez. La mayor parte del tiempo, para los usuarios de servicios de modelos grandes, solo se requiere cálculo inferencial. Según las estadísticas de AWS, esto también se confirma, el 80% de la potencia informática se consume en cálculos de inferencia.

Aunque el entrenamiento de modelos grandes requiere capacidades de comunicación de alta velocidad entre las GPUs, no se puede completar en la red (a menos que elijas intercambiar la extensión de tiempo por un bajo costo). Pero los cálculos de inferencia se pueden hacer en una sola GPU. El ajuste fino se basa en el modelo grande que se ha generado y se ha proporcionado datos profesionales, por lo que requiere muchos menos recursos informáticos que el entrenamiento de modelos grandes.

Cuando se trata de renderizado de gráficos, está claro que las GPU para consumidores funcionan mejor que las GPU empresariales y están inactivas la mayor parte del tiempo. Desde que la Universidad de California, Berkeley lanzó SETI para buscar extraterrestres en 1999, y la Computación en Red se popularizó en 2000, ha habido algunas arquitecturas técnicas que utilizan recursos informáticos inactivos para colaborar y completar algunas tareas informáticas enormes. Antes de la aparición de la blockchain, estas colaboraciones solían centrarse en tareas científicas y dependían del entusiasmo y la participación de bienestar público de los participantes, limitando el alcance del impacto. Ahora, utilizando la tecnología blockchain, su amplia gama de aplicaciones puede ser incentivada a través de tokens.

Al igual que el proyecto de computación en la nube descentralizada Akash, se ha establecido una red de computación general, y los usuarios pueden implementar modelos de aprendizaje automático para cálculos de razonamiento y renderizado de imágenes. También hay proyectos de IA basados en blockchain como Bittensor, Modulus Lab, Giza y ChainML, todos ellos destinados a cálculos de inferencia de consultas.

El protocolo de computación de inteligencia artificial blockchain Gensyn y la plataforma de inteligencia artificial generativa de código abierto Together están decididos a construir una red de computación descentralizada que sirva para el entrenamiento de modelos grandes.

Desafío: Para redes de computación descentralizadas, la dificultad no solo radica en las redes de comunicación lentas e poco confiables, la incapacidad de sincronizar estados computacionales, lidiar con múltiples tipos de entornos informáticos de tipo GPU, sino también en enfrentar incentivos económicos, trampas de los participantes, pruebas de carga de trabajo, seguridad, protección de la privacidad y ataques contra el correo no deseado.

2) Datos escasos y corrección de datos

El algoritmo central del gran modelo, Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), requiere la participación humana en el ajuste fino del entrenamiento para corregir errores y eliminar sesgos e información perjudicial. OpenAI utilizó RLHF para ajustar finamente GPT3 y generar ChatGPT. En el proceso, OpenAI encontró expertos de Facebook Group y pagó a trabajadores kenianos $2 por hora. El entrenamiento de optimización a menudo requiere la participación de expertos humanos en datos de campos especializados, y su implementación puede combinarse completamente con formas de incentivar la participación comunitaria a través de tokens.

La industria de Redes de Infraestructura Física Descentralizada (DePINs) utiliza tokens para animar a las personas a compartir datos reales y en tiempo real del mundo físico según los sensores para varios modelos de entrenamiento. Incluyendo: React recopila datos de uso de energía, DIMO recopila datos de conducción de vehículos, WeatherXM recopila datos meteorológicos, y Hivemapper recopila datos de mapas a través de incentivos de tokens para animar a las personas a marcar señales de tráfico y ayudar a su algoritmo de aprendizaje automático RLHF a mejorar la precisión.

Al mismo tiempo, a medida que los parámetros de los grandes modelos aumentan, los datos públicos existentes se agotarán para 2030, y el progreso continuo de los grandes modelos tendrá que depender de datos privados. La cantidad de datos privados es 10 veces mayor que la de datos públicos, pero está dispersa en manos de empresas y particulares, y es privada y confidencial por naturaleza, lo que dificulta su explotación. Surge un doble dilema. Por un lado, el gran modelo necesita datos, pero aunque la parte con los datos necesita el gran modelo, no desea ceder los datos al gran modelo. Este doble problema también puede resolverse a través de la tecnología en el campo de la cadena de bloques.

Para modelos de inferencia de código abierto, dado que requieren menos recursos informáticos, el modelo puede descargarse en el segmento de datos para su ejecución; para modelos no públicos o grandes, los datos deben ser desensibilizados y subidos al extremo del modelo. Los métodos de desensibilización incluyen datos sintéticos y pruebas de conocimiento cero.

Ya sea que el modelo se descargue al lado de los datos o que los datos se carguen al lado del modelo, el problema de la autoridad debe resolverse para evitar el fraude del modelo o de los datos.

Desafío: Aunque los incentivos de token de Web3 pueden ayudar a resolver este problema, el problema del engaño necesita ser resuelto.

3) Colaboración de modelos

En la comunidad Civitai, la plataforma de intercambio de modelos de pintura AI más grande del mundo, las personas comparten modelos y pueden copiar fácilmente un modelo y modificarlo para generar un modelo que cumpla con sus propios requisitos.

Bittensor, un novato de IA de código abierto y proyecto blockchain de doble consenso, ha diseñado un conjunto de modelos descentralizados con incentivos de token. Basado en el mecanismo de colaboración de una mezcla de expertos, produce conjuntamente un modelo de resolución de problemas y apoya la destilación del conocimiento, que puede ser compartido entre modelos. Información, entrenamiento acelerado, que brinda a numerosas startups la oportunidad de participar en grandes modelos.

Como red unificada para servicios fuera de la cadena, como automatización, oráculos y IA compartida, Autonolas ha diseñado un marco de colaboración para que los agentes alcancen un consenso a través de Tendermint.

Desafío: El entrenamiento de muchos modelos todavía requiere mucha comunicación, y la confiabilidad y eficiencia en el tiempo del entrenamiento distribuido siguen siendo enormes obstáculos;

Grandes modelos e innovación en Web3

En conjunto con lo discutido anteriormente, cómo Web3 puede ser utilizado para resolver algunos de los problemas en la gran industria del modelaje. La combinación de dos fuerzas importantes resultará en algunas aplicaciones innovadoras.

1) Use ChatGPT para escribir contratos inteligentes

Recientemente, un artista de NFT utilizó indicaciones para operar ChatGPT sin ningún conocimiento de programación para lanzar su propio contrato inteligente e emitir el token Turboner. El artista utilizó YouTube para grabar su proceso de creación durante una semana, inspirando a todos a usar ChatGPT. Participar en la creación de contratos inteligentes.

2) El pago Cripto potencia la gestión inteligente

El desarrollo de modelos grandes ha mejorado enormemente la inteligencia de los asistentes inteligentes, y combinado con pagos cifrados, los asistentes inteligentes podrán coordinar más recursos y colaborar en más tareas en el mercado de asistentes inteligentes. AutoGPT demuestra la dependencia de una tarjeta de crédito suministrada por el usuario, y puede ayudar al usuario a automatizar la compra de recursos de computación en la nube y la reserva de vuelos, pero está limitado por el inicio de sesión automático u otra autenticación de seguridad, y las capacidades de AutoGPT están severamente limitadas por el inicio de sesión automático u otra autenticación de seguridad. El diseño del Sistema Multi Agente (MAS), incluido el Protocolo de Red de Contratos, implica la colaboración de múltiples asistentes inteligentes en un mercado abierto, y si es compatible con tokens, dicha colaboración romperá la colaboración limitada basada en la confianza y se convertirá en una colaboración a mayor escala basada en la economía de mercado, tal como la sociedad humana se mueve de una sociedad primitiva a una sociedad monetaria.

3) zkML (Aprendizaje automático de conocimiento cero)

La aplicación de la tecnología zkp (Prueba de Conocimiento Cero) en blockchain se divide en dos categorías. Una es resolver el rendimiento de la cadena de bloques transfiriendo los requisitos de computación a off-chain, y luego a la certificación on-chain a través de zkp; la segunda categoría se utiliza para proteger la privacidad de las transacciones. Las aplicaciones de zkp en modelos grandes incluyen cálculos confiables del modelo (para demostrar la consistencia y autenticidad de los cálculos del modelo) y cálculos de privacidad de los datos de entrenamiento. En un entorno descentralizado, el proveedor de servicios del modelo necesita demostrar a los clientes que el modelo vendido es el prometido, sin recortar esquinas; para los socios de datos de entrenamiento, necesitan participar en el entrenamiento o usar el modelo bajo la premisa de proteger su propia privacidad. Aunque zkp ofrece algunas posibilidades, todavía hay muchos desafíos, y soluciones como la computación homomórfica y la computación de privacidad federada todavía son inmaduras.

Solución basada en la arquitectura BEC (Blockchain Edge Client)

Además de las escuelas mencionadas anteriormente, hay otra escuela que no ha recibido una amplia atención debido a la falta de incentivos de tokens y al uso de aplicaciones de blockchain minimalistas.

La arquitectura basada en BEC tiene muchas similitudes con los conceptos de Web5 mencionados por Jack Dorsey y Solid por Tim Berners-Lee en muchos aspectos.

Todos piensan:

  • Cada persona tiene un nodo de borde de control correspondiente;
  • La informática y el almacenamiento en la mayoría de los escenarios de aplicación deben ser manejados en nodos periféricos;
  • La colaboración entre nodos individuales se completa a través de la cadena de bloques;
  • La comunicación entre nodos se completa a través de P2P;
  • Las personas pueden controlar completamente sus propios nodos solos o confiar en personas de confianza para encomendar la gestión de los nodos (llamados servidores de retransmisión en algunos escenarios);
  • Logró la mayor descentralización posible;

Cuando este nodo correspondiente a cada persona y controlado por el individuo almacena datos personales y carga el modelo grande, se puede entrenar un agente inteligente personal completamente personalizado, 100% protegido de la privacidad (Agente). El socio fundador chino de SIG, el Dr. Gong Ting, comparó románticamente el futuro nodo personal con la nube personal sobre la cabeza de Olaf en "Frozen" que siempre lo sigue.

De esta manera, el Avatar en el Metaverso ya no será una imagen controlada por un teclado, sino un agente con alma. Puede estudiar noticias en línea, procesar correos electrónicos e incluso responder automáticamente a sus mensajes de chat social en nuestro nombre las 24 horas del día. (Atención, novias regañonas, es posible que necesiten una forma de detectar si su novio está usando un agente para tratar con ustedes en el futuro). Cuando su agente necesite nuevas habilidades, al igual que instalar una aplicación en un teléfono móvil, puede instalar una nueva aplicación en su nodo.

Resumen

Históricamente, con la continuación de la plataformaización del desarrollo de Internet, aunque el tiempo para el nacimiento de empresas unicornio se ha vuelto más corto, esto cada vez es más perjudicial para el desarrollo de startups.

Con la eficiente plataforma de distribución de contenido proporcionada por Google y Facebook, Youtube, que nació en 2005, fue adquirida por Google por US$1.6 mil millones solo un año después.

Junto con la eficiente plataforma de distribución de aplicaciones de la Apple App Store, Instagram fue fundada en 2012 por poco más de 10 personas y fue adquirida por Facebook por US$1 mil millones en 2012.

Con el apoyo del gran modelo ChatGPT, Midjourney, que solo tiene 11 personas, ganó 100 millones de dólares al año. Y OpenAI, que no tiene más de 100 personas, está valorada en más de 20 mil millones de dólares.

Las empresas de plataformas de Internet se están volviendo cada vez más poderosas, y la aparición de grandes modelos no ha cambiado el patrón existente de que Internet está siendo monopolizado por grandes empresas. Los tres elementos de los grandes modelos, algoritmos, datos y potencia de cálculo, siguen estando monopolizados por grandes empresas. Las empresas emergentes no tienen la capacidad de innovar grandes modelos y no tienen la fuerza financiera para entrenar grandes modelos. Solo pueden centrarse en la aplicación de grandes modelos en campos verticales. Aunque los grandes modelos parecen promover la popularización del conocimiento, el poder real está controlado por no más de 100 personas en el mundo que tienen la capacidad de producir modelos.

Si en el futuro los modelos grandes penetran en todos los aspectos de la vida de las personas, y le preguntas a ChatGPT sobre tu dieta diaria, tu salud, tus correos electrónicos de trabajo y las cartas de tu abogado, entonces en teoría, aquellos que dominen los modelos grandes solo necesitarán cambiar secretamente algunos parámetros. Esto puede afectar enormemente la vida de innumerables personas. Algunos desempleos causados por el modelo grande pueden resolverse a través de UBI o Worldcoin, pero las consecuencias de la posibilidad del mal causado por el control de un pequeño grupo de personas sobre el modelo grande son más graves. Esta es la intención original de OpenAI. Aunque OpenAI resuelve problemas impulsados por el lucro a través de métodos sin fines de lucro, ¿cómo resuelve los problemas impulsados por el poder? Obviamente, los modelos grandes entrenan rápidamente modelos de conocimiento utilizando el conocimiento acumulado por los humanos durante décadas y compartido libremente en Internet, pero este modelo está controlado por un número muy pequeño de personas.

  1. Por lo tanto, hay un gran conflicto de valores entre los grandes modelos y la cadena de bloques. Los practicantes de la cadena de bloques necesitan participar en el emprendimiento de grandes modelos y utilizar la tecnología de la cadena de bloques para resolver problemas de grandes modelos. Si la gran cantidad de datos libremente disponibles en Internet es el conocimiento común de la humanidad, entonces los grandes modelos generados en base a estos datos deberían pertenecer a toda la humanidad. Así como OpenAI recientemente comenzó a pagar por bases de datos de literatura, OpenAI necesita pagar por los blogs personales a los que tú y yo nos dedicamos.

Descargo de responsabilidad:

  1. Este artículo es reimpreso de [ ThreeDAO, Isla de Todas las Cosas]. Todos los derechos de autor pertenecen al autor original [36C]. Si hay objeciones a esta reimpresión, por favor contacte al Gate Learnequipo, y lo manejarán rápidamente.
  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo son únicamente del autor y no constituyen asesoramiento de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de Gate Learn. A menos que se mencione, está prohibido copiar, distribuir o plagiar los artículos traducidos.
Mulai Sekarang
Daftar dan dapatkan Voucher
$100
!