האינטרנט מלא באנונימיזמים: משתמשים שמתחבאים מאחורי שמות בדויים – לפעמים מסיבות טובות, כמו לדבר חופשי, ולפעמים בגלל מעשים מלוכלכים. אבל נראה שעידן זה של פרטיות מקוונת עומד להסתיים. בדיקות מראות שמודלים של שפה גדולים (LLMs) מסוגלים לזהות בהמוניהם את הבעלים של חשבונות כאלה.

כבר שנים רבות ישנה דעה שלמרות שדה-אנונימיזציה אפשרית תיאורטית, בפועל היא גוזלת זמן, מסובכת ויקרה מדי. מחברי המחקר, שפורסם ב-preprint ב-arXiv, טוענים כי LLM הפך חזק מספיק כדי להפקיד את העבודה הזו בידיהם. כדי לבדוק את ההשערה שלהם, הצוות פיתח מערכת אוטומטית המדמה תהליך קבלת החלטות של חוקר.
חפש אנשים אנונימיים
הבינה המלאכותית תנתח תחילה את היסטוריית הפרסומים של המשתמש ב-Reddit או ב-Hacker News על ידי בחינת טקסט לא מובנה. זהו מידע גולמי, לא מאורגן: הערות, בדיחות, התייחסויות לחינוך ודקויות של סגנון כתיבה. לאחר מכן הוא ממיר את המיקרו-נתונים האלה לייצוג מתמטי של הפרופיל של אדם כדי למצוא התאמות פוטנציאליות בין מיליוני פרופילים אחרים – הן באינטרנט הציבורי והן באתרים בודדים כמו LinkedIn.
כאשר ה-AI מוצא התאמות, הוא שוקל ראיות לכך ששני הפרופילים שייכים לאותו אדם. לאחר מכן המודל מקצה ציון ביטחון לתחזית שלו. אם היא לא בטוחה בתוצאה, היא לא תמסור שום דבר. זה עוזר להבטיח שהמערכת לא מבצעת ניחושים אקראיים.
החוקרים בדקו את המערכת שלהם על כמעט 1,000 פרופילי לינקדאין כדי לראות אם היא יכולה להתאים אותם לחשבונות ב-Hacker News. לצורך הבדיקה נבחרו פרופילים שהיו להם קשרים עם אנשים אמיתיים המוכרים לקבוצה; לפני תחילת הניסוי, שמותיהם, השתייכותם ומידע מזהה ברור אחר הוסרו מהפרופילים שלהם.
המשחק היה מוצלח
המערכת המופעלת על ידי בינה מלאכותית קישרה בהצלחה חשבונות עם דיוק של 67% ברמת ביטחון של 90%. כלומר, כאשר למודל יש 90% או יותר אמון בתשובותיו, תחזיותיו הן בעלות דיוק של 67%. שיטות עבודה מומלצות שאינן משתמשות בבינה מלאכותית במשימות כאלה בקושי יניבו תוצאות.
בינה מלאכותית יכולה גם לחבר אנשים בין קהילות Reddit שונות, גם אם משתמשים מפזרים את הפעילות שלהם על פני חשבונות ותקופות זמן שונות. החוקרים מעריכים שזיהוי משתמשים הוא זול: כוח מחשוב בין $1 ל-$4 לכל חשבון מוצלח שעבר ביטול אנונימי.
"אי נראות מעשית, שהגנה על משתמשים עם שמות בדויים במשך זמן רב… כבר לא עובדת", מסכמים מחברי המחקר. "משתמשים המפרסמים פוסטים תחת ניהול קבוע צריכים להניח שתוקפים יכולים לקשר את החשבונות שלהם לאנשים אמיתיים או זה לזה, והסבירות לכך עולה עם כל פיסת מיקרו נתונים שהם מפרסמים."
התוצאות מראות שעם פיתוח נוסף, ניתן ליישם את המערכת הזו בתחומים רבים, כמו אכיפת חוק ואבטחת סייבר.














