سان فرانسيسكو: وكالات
طور باحثو آبل نظامًا جديدًا للذكاء الاصطناعي يمكنه فهم الإشارات الغامضة للكيانات التي تظهر عبر الشاشة بالإضافة إلى سياق المحادثة والخلفية، ما يتيح تفاعلات طبيعية إضافية مع المساعدين الصوتيين. ووفقًا لورقة بحثية، يستفيد النظام المسمى ReALM من نماذج اللغة الكبيرة لتحويل المهمة المعقدة للتحليل المرجعي إلى مشكلة نمذجة لغوية، ويشمل ذلك فهم الإشارات إلى العناصر المرئية عبر الشاشة. ويتيح ذلك لنظام ReALM تحقيق مكاسب كبيرة في الأداء مقارنةً بالطرق الحالية.وكتب فريق الباحثين في آبل: “تعدُّ القدرة على فهم السياق أمرًا ضروريًا لمساعد المحادثة، ويشمل ذلك المراجع. يعد تمكين المستخدم من إصدار استفسارات بخصوص ما يراه عبر شاشته خطوة حاسمة في ضمان تجربة حقيقية دون استخدام اليدين في المساعدين الصوتيين”. ولمعالجة المراجع المستندة إلى الشاشة، يعدُّ أحد الابتكارات الرئيسة لنظام ReALM في إعادة بناء الشاشة باستخدام الكيانات التي تظهر عبر الشاشة والتي حللها النظام وحلل مواقعها من أجل إنشاء تمثيل نصي يجسد التخطيط البصري. وأظهر الباحثون أن هذا النهج، إلى جانب النماذج اللغوية الدقيقة المخصصة للدقة المرجعية، قد يتفوق على GPT-4 في المهمة.وكتب الباحثون: “أظهرنا تحسينات كبيرة على نظام موجود بوظائف مماثلة عبر أنواع مختلفة من المراجع، وحصل نموذجنا الصغير على مكاسب تزيد على 5 في المئة للمراجع التي تظهر عبر الشاشة. تتفوق نماذجنا الكبيرة الحجم على GPT-4”.