الأخبار

شريحة الذكاء الاصطناعي المتطورة من شركة Groq تحقق 800 رمز مميز في الثانية في نموذج Meta Meta’s LLaMA 3

في نتيجة قياسية مفاجئة يمكن أن تهز المشهد التنافسي لاستدلال الذكاء الاصطناعي، يبدو أن شركة الرقائق الناشئة Groq قد أكدت من خلال سلسلة من التغريدات أن نظامها يخدم نموذج اللغة الكبير LLaMA 3 الذي تم إصداره حديثًا من Meta بأكثر من 800 رمزًا في الثانية.

دان جاكايتيس، المهندس الذي كان يقيس أداء LLaMA 3، نشر على موقع X.com: "لقد قمنا باختبار واجهة برمجة التطبيقات (API) الخاصة بهم قليلاً، ومن المؤكد أن الخدمة ليست بالسرعة التي أظهرتها العروض التوضيحية للأجهزة. "من المحتمل أن تكون مشكلة برمجية - ما زلت متحمسًا لاستخدام Groq على نطاق أوسع" .

ولكن وفقًا لمنشور X.com من مات شومر المؤسس المشارك والرئيس التنفيذي لشركة OthersideAI، بالإضافة إلى العديد من المستخدمين البارزين الآخرين، يقدم نظام Groq سرعات استدلال فائقة السرعة تزيد عن 800 رمزًا في الثانية باستخدام نموذج LLaMA 3. إذا تم التحقق من ذلك بشكل مستقل، فسيمثل ذلك قفزة كبيرة إلى الأمام مقارنة بخدمات الذكاء الاصطناعي السحابية الحالية. (يمكنك اختبار ذلك بنفسك هنا).

بنية معالج جديدة محسنة للذكاء الاصطناعي
تعمل شركة Groq، وهي شركة ناشئة ممولة جيدًا في وادي السيليكون، على تطوير بنية معالج جديدة مُحسّنة لعمليات ضرب المصفوفات التي تمثل القلب الحسابي للتعلم العميق. يتجنب معالج Tensor Streaming Processor الخاص بالشركة ذاكرات التخزين المؤقت ومنطق التحكم المعقد لوحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات التقليدية لصالح نموذج تنفيذ مبسط وحتمي مصمم خصيصًا لأعباء عمل الذكاء الاصطناعي.

ومن خلال تجنب الأعباء العامة واختناقات الذاكرة في معالجات الأغراض العامة، تدعي شركة Groq أنها تستطيع تقديم أداء وكفاءة أعلى بكثير لاستدلال الذكاء الاصطناعي. إن نتيجة LLaMA 3 التي تبلغ 800 رمز في الثانية، إذا صمدت، ستضفي مصداقية على هذا الادعاء.

تعد بنية Groq خروجًا كبيرًا عن التصميمات التي تستخدمها Nvidia وغيرها من الشركات المصنعة للرقائق. بدلاً من تكييف المعالجات ذات الأغراض العامة للذكاء الاصطناعي، قامت شركة Groq ببناء معالج Tensor Streaming الخاص بها لتسريع الأنماط الحسابية المحددة للتعلم العميق.

يسمح نهج "الورقة النظيفة" للشركة بإزالة الدوائر الدخيلة وتحسين تدفق البيانات لأحمال العمل المتكررة للغاية والقابلة للتوازي لاستدلال الذكاء الاصطناعي. ويؤكد جروك أن النتيجة هي انخفاض كبير في زمن الوصول واستهلاك الطاقة وتكلفة تشغيل شبكات عصبية كبيرة مقارنة بالبدائل السائدة.

الحاجة إلى استنتاج الذكاء الاصطناعي السريع والفعال
يُترجم أداء 800 رمز مميز في الثانية إلى حوالي 48000 رمز مميز في الدقيقة - وهي سرعة كافية لإنشاء حوالي 500 كلمة نصية في الثانية. وهذا تقريبًا أسرع من سرعات الاستدلال النموذجية لنماذج اللغات الكبيرة التي يتم تقديمها على وحدات معالجة الرسومات التقليدية في السحابة اليوم.

أصبح استنتاج الذكاء الاصطناعي السريع والفعال ذا أهمية متزايدة مع نمو نماذج اللغة إلى مئات المليارات من المعلمات في الحجم. وفي حين أن تدريب هذه النماذج الضخمة يتطلب قدرًا كبيرًا من العمليات الحسابية، فإن نشرها بتكلفة معقولة يتطلب أجهزة يمكنها تشغيلها بسرعة دون استهلاك كميات هائلة من الطاقة. وينطبق هذا بشكل خاص على التطبيقات الحساسة لزمن الاستجابة مثل روبوتات الدردشة والمساعدين الافتراضيين والتجارب التفاعلية.

كما أن كفاءة الطاقة في استدلال الذكاء الاصطناعي تخضع أيضًا لتدقيق متزايد مع انتشار التكنولوجيا على نطاق أوسع. تعد مراكز البيانات بالفعل مستهلكًا كبيرًا للكهرباء، وتهدد المتطلبات الحسابية للذكاء الاصطناعي واسع النطاق بزيادة استهلاك الطاقة بشكل كبير. ستكون الأجهزة التي يمكنها تقديم الأداء الاستدلالي الضروري مع تقليل استهلاك الطاقة إلى الحد الأدنى هي المفتاح لجعل الذكاء الاصطناعي مستدامًا على نطاق واسع. تم تصميم معالج Tensor Streaming Processor من Groq مع أخذ هذه الكفاءة في الاعتبار، مما يعد بتقليل تكلفة الطاقة بشكل كبير لتشغيل الشبكات العصبية الكبيرة مقارنة بالمعالجات ذات الأغراض العامة.

تحدي هيمنة نفيديا
تهيمن Nvidia حاليًا على سوق معالجات الذكاء الاصطناعي، حيث تعمل وحدات معالجة الرسوميات A100 وH100 على تشغيل الغالبية العظمى من خدمات الذكاء الاصطناعي السحابية. لكن مجموعة من الشركات الناشئة ذات التمويل الجيد مثل Groq، وCerebras، وSambaNova، وGraphcore تتحدى هذه الهيمنة من خلال بنيات جديدة مصممة خصيصًا للذكاء الاصطناعي.

من بين هؤلاء المنافسين، كان Groq واحدًا من أكثر المتحدثين صوتًا بشأن استهداف الاستدلال بالإضافة إلى التدريب. توقع الرئيس التنفيذي جوناثان روس بجرأة أن معظم الشركات الناشئة في مجال الذكاء الاصطناعي ستستخدم معالجات التدفق الموتر منخفضة الدقة من Groq للاستدلال بحلول نهاية عام 2024.

يوفر إصدار Meta لـ LLaMA 3، الذي يوصف بأنه أحد أكثر نماذج اللغات مفتوحة المصدر المتاحة قدرة، فرصة رفيعة المستوى لشركة Groq لعرض قدرات الاستدلال الخاصة بأجهزتها. من المرجح أن يتم استخدام النموذج، الذي تدعي شركة Meta أنه على قدم المساواة مع أفضل العروض مغلقة المصدر، على نطاق واسع لقياس الأداء ونشره في العديد من تطبيقات الذكاء الاصطناعي.

إذا تمكنت أجهزة Groq من تشغيل LLaMA 3 بشكل أسرع وأكثر كفاءة من البدائل السائدة، فسيعزز ذلك مطالبات الشركة الناشئة وربما يسرع اعتماد تقنيتها. أطلقت Groq مؤخرًا وحدة أعمال جديدة لتسهيل وصول العملاء إلى شرائحها من خلال الخدمة السحابية والشراكات.

إن الجمع بين النماذج المفتوحة القوية مثل LLaMA وأجهزة الاستدلال عالية الكفاءة "AI-first" مثل Groq يمكن أن يجعل لغة الذكاء الاصطناعي المتقدمة أكثر فعالية من حيث التكلفة ويمكن الوصول إليها لمجموعة واسعة من الشركات والمطورين. لكن إنفيديا لن تتخلى عن تقدمها بسهولة، وهناك منافسون آخرون في الأجنحة أيضًا.

الأمر المؤكد هو أن السباق مستمر لبناء بنية تحتية يمكنها مواكبة التقدم الهائل في تطوير نماذج الذكاء الاصطناعي وتوسيع نطاق التكنولوجيا لتلبية متطلبات مجموعة واسعة من التطبيقات سريعة التوسع. إن استنتاج الذكاء الاصطناعي في الوقت الفعلي وبتكلفة معقولة يمكن أن يفتح إمكانيات تحويلية في مجالات مثل التجارة الإلكترونية والتعليم والتمويل والرعاية الصحية والمزيد.

كما رد أحد مستخدمي X.com على مطالبة Groq's LLaMA 3 المعيارية: "السرعة + التكلفة المنخفضة + الجودة = ليس من المنطقي استخدام أي شيء آخر [في الوقت الحالي]". ستكشف الأشهر المقبلة ما إذا كانت هذه المعادلة الجريئة ستتحقق أم لا، ولكن من الواضح أن أسس أجهزة الذكاء الاصطناعي لم تستقر بعد مع ظهور موجة جديدة من البنى التحتية التي تتحدى الوضع الراهن.