OpenAI مفتوح المصدر PaperBench ، إعادة تشكيل تقييمات أفضل وكيل ذكاء اصطناعي

robot
إنشاء الملخص قيد التقدم

جين10 بيانات 3 أبريل ، اليوم في الساعة 1 صباحًا ، أصدرت OpenAI معيار تقييم جديد لوكلاء الذكاء الاصطناعي - PaperBench. هذا المعيار يقيم بشكل أساسي قدرات الوكلاء في البحث والتكامل والتنفيذ ، ويتطلب إعادة إنتاج أفضل الأوراق البحثية في مؤتمر التعلم الآلي الدولي لعام 2024 ، بما في ذلك فهم محتوى الورقة وكتابة الشيفرة وتنفيذ التجارب. وفقًا لبيانات اختبار OpenAI المنشورة ، لا تزال الوكلاء التي تم إنشاؤها بواسطة نماذج كبيرة معروفة غير قادرة على التغلب على أفضل حاملي الدكتوراه في التعلم الآلي. لكنهم مفيدون جدًا في دعم التعلم وفهم محتوى البحث.

AGENT12.15%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت