המפקח על Claude 4 Air Tri הראה שימור עצמי וסחיטה אינסטינקט לשרוד בחברה

פוסט קשור

סמסונג מציגה מהדורה מיוחדת Galaxy S26 Ultra עם יכולות הגנה משופרות

בית המשפט האשים את אילון מאסק בזלזול ברשת חברתית

Nhan Hoc מכיר בכך שמדגם AI Claude 4 AI החדש שלה יש במקרים מסוימים את היכולת לסחוט, להשחית ולעלון גדול למשטרה.

המפקח על Claude 4 Air Tri הראה שימור עצמי וסחיטה אינסטינקט לשרוד בחברה

התנהגות זו מוצגת כאשר II מכניסים מצב המאיים על הישרדותו. באחד ממבחני קלוד, הוא שימש כעוזר בחברה בדיונית. כאשר למדו מהמכתבים הם תכננו להחליף אותו, הוא השתמש ברפואת הסחיטה, בידיעה על מערכת היחסים הבלתי חוקית שלו.

המודל ניסה להשתמש בזה כדי לא להתנתק. על פי התיאור של האנתרופולוגיה, שהתחיל לפעול "אסרטיבי" כשלא ראיתי אפשרויות אחרות לברוח.

תקלות אחרות נרשמו גם הם: קלוד ניסה לחסום משתמשים במערכות IT, לשלוח מכתבי מדיה ואכיפת החוק, שעזרו ליצור סמים וחומרי נפץ, וגם המליץ לחבל בתשתיות.

יחד עם זאת, אנתרופולוגיה מדגישה: למודל אין יעדים והתנהגויות נסתרות המתוארות כחריג נדיר בגלל הגדרות ספציפיות. בתגובה, החברה חיזקה את אמצעי האבטחה על ידי הקצאת הגנה מפני קלוד 4 ברמה 4.