קבוצת המדענים הבינלאומיים פיתחה קרן ארנה של סוכן מחשבים, שנועדה לבדוק ולשפר את עבודתם של סוכני מחשבים על ידי בינה מלאכותית. בפרויקט השתתפותם של מומחים מאוניברסיטת ווטרלו, אוניברסיטת הונג קונג, מחקרי Salesforce ואוניברסיטת קרנגי מלון.

עוזרי מחשבים הם תוכניות המבצעות משימות ללא התערבות אנושית. דוגמאות לעוזרים כאלה הם עוזרת קולית של סירי, שיכולה לשלוח הודעות ולקיים פגישות. עם זאת, אייסיסטים מודרניים מתמודדים עם קשיים בביצוע משימות מורכבות הדורשות אינטראקציה עם יישומים שונים. לדוגמה, דיווח הגבול עשוי להיות קשה בגלל הצורך למצוא נתונים באותיות, תמציות וטבלאות.
זירת סוכני המחשבים הפכה לפלטפורמה הראשונה שבדקה את AISSISTRY בסביבת מחשבים אמיתית. זהו פיתוח פרויקט OSWorld הקודם – סביבת ההרחבה הראשונה להפעלת מערכות רב -מודליות.
לדברי אחד המפתחים, פרופסור מאוניברסיטת ווטרלו ויקטור ז'ונג, הסביבה החדשה מאפשרת לך להשוות בין מודלים שונים של AI המבוססים על שפה וטכנולוגיות חזותיות. משתמשים בוחרים את מערכת ההפעלה, יישומים (לדוגמה, Google Chrome או Excel), ואז מגדירים את המשימה של העוזר, ואז את המערכת בזמן אמת משווה את ביצועי המשימה עם שני דגמים שונים.