אם אהבתם את התוכן הזה, פה תוכלו לקבל עוד ממנו
הצטרפו עכשיו לקהילת ה- AI שלי בפייסבוק – AI Community Hub
עקבו אחרי גם בערוץ ה- YouTube שלי
הירשמו עכשיו לניוזלטר שלי
OpenAI פרסמה ב-5 בספטמבר 2025 כתבה שמסבירה בצורה די ישירה: הזיות קורות לא כי המודלים “משוגעים”, אלא כי הדרך שבה מאמנים ובודקים אותם גורמת להם להעדיף לנחש במקום להודות שהם לא בטוחים.
הזיה (hallucination) היא מצב שבו מודל שפה אומר משפט שנשמע הגיוני ומשכנע, אבל הוא לא נכון. לפעמים זה קורה גם בשאלות שנראות ממש פשוטות.
דוגמה מהכתבה: כששאלו צ’אטבוט נפוץ מה הכותרת של עבודת הדוקטורט של Adam Tauman Kalai (אחד מכותבי המאמר), הוא נתן שלוש תשובות שונות בביטחון, ואף אחת מהן לא הייתה נכונה. כששאלו על יום ההולדת שלו, הוא נתן שלושה תאריכים שונים, וגם כולם היו שגויים.
לפי הכתבה, הזיות נשארות איתנו בין השאר בגלל שהרבה שיטות מדידה (benchmarks, evals) נותנות למודלים תמריץ לא נכון: הן מתגמלות “פגיעה” בתשובה, גם אם היא הייתה ניחוש, יותר מאשר “אני לא יודע/ת”.
OpenAI מסבירים את זה כמו מבחן אמריקאי:
אם את לא יודעת את התשובה ומנחשת, לפעמים תצליחי במקרה.
אם את משאירה ריק, את מקבלת 0 בוודאות.
אותו דבר אצל מודלים: אם מודל לא יודע יום הולדת של מישהו והוא מנחש “10 בספטמבר”, יש לו סיכוי של 1 ל-365 להיות צודק. אם הוא אומר “אני לא יודע”, הוא “מפסיד נקודות” בוודאות. לאורך אלפי שאלות, המודל שמנחש נראה טוב יותר בטבלה, למרות שהוא ממציא יותר.
בכתבה מחלקים את התשובות ל-3 סוגים:
נכון
טעות
הימנעות (abstention), כלומר לא לתת תשובה ספציפית, או להודות בחוסר ודאות
OpenAI אומרים שהימנעות היא חלק מ”צניעות” (humility), ושבמודל Spec שלהם עדיף להראות חוסר ודאות או לבקש הבהרה מאשר לתת תשובה בטוחה שעלולה להיות שגויה.
הכתבה מביאה דוגמה מתוך מדד בשם SimpleQA (שמופיע גם ב-GPT-5 System Card), ומשווה בין שני מודלים:
| מדד | gpt-5-thinking-mini | OpenAI o4-mini |
|---|---|---|
| שיעור הימנעות (אין תשובה ספציפית) | 52% | 1% |
| דיוק (יותר גבוה טוב) | 22% | 24% |
| שיעור טעויות (יותר נמוך טוב) | 26% | 75% |
| סה״כ | 100% | 100% |
מה המסקנה שלהם?
למרות של-o4-mini יש דיוק קצת יותר גבוה, הוא גם טועה הרבה יותר. כלומר, הוא כנראה “מנחש” יותר, וזה מעלה הזיות.
OpenAI מוסיפים עוד נקודה חשובה: הרבה לוחות דירוג מסתכלים כמעט רק על “דיוק”, וזה יוצר חלוקה מזויפת של “נכון/לא נכון”. במציאות, יש שאלות שלא תמיד אפשר לענות עליהן בוודאות, בגלל חוסר מידע, יכולות מוגבלות, או עמימות שדורשת הבהרה. לכן דיוק לא מגיע ל-100% “בעולם האמיתי”, וזה מחזק את הפיתוי לנחש.
הם אומרים שיש תיקון די פשוט ברעיון:
להעניש טעויות בטוחות יותר חזק
ולהעניק קרדיט חלקי על הבעת חוסר ודאות במקום לנחש
הם גם מדגישים: לא מספיק להוסיף “עוד מבחן קטן” בצד שמודד הזיות. צריך לעדכן את המדדים המרכזיים שכולם משתמשים בהם, כי כל עוד לוחות התוצאות ממשיכים לתגמל ניחושים, המודלים ימשיכו ללמוד לנחש.
כאן הכתבה עוברת לשורש הסטטיסטי של העניין.
בשלב האימון הראשוני (pretraining), מודלי שפה לומדים בעיקר על ידי משימה אחת: לנבא את המילה הבאה מתוך המון טקסט. אין להם תוויות של “אמת/שקר” לכל משפט. הם פשוט רואים המון דוגמאות של שפה שוטפת, ומנסים לחקות את ההתפלגות שלה.
וזה קשה במיוחד כי:
כמעט אין להם דוגמאות “מסומנות” של משפטים שגויים
וגם אם היו, עדיין יהיו טעויות, כי יש דברים שאין בהם דפוס אמיתי שאפשר ללמוד
האנלוגיה שהם נותנים:
בזיהוי תמונות של חתולים וכלבים, יש דפוסים חזקים, לכן אפשר להגיע לדיוק גבוה.
אבל אם במקום זה תתני למערכת תמונות של חיות ותבקשי שתנבא את יום ההולדת של החיה, זה כמעט אקראי, ולכן תמיד יהיו טעויות, לא משנה כמה האלגוריתם טוב.
אותו עיקרון בטקסט:
איות וסוגריים הם דפוסים חזקים, לכן מודלים כמעט לא טועים שם.
אבל “עובדות נדירות ושרירותיות” (כמו ימי הולדת, או פרטים ספציפיים שלא מופיעים הרבה) הן לא משהו שהסטטיסטיקה של “המילה הבאה” יכולה לשחזר בצורה אמינה, ולכן שם נוצרים הרבה הזיות.
הם אומרים שבאידיאל, שלבים מאוחרים יותר אחרי ה-pretraining אמורים לנקות את זה, אבל זה לא מצליח לגמרי, בין היתר בגלל התמריצים השגויים במדידה שתיארו קודם.
בסוף הכתבה הם נותנים רשימת “טענה מול ממצא”:
טענה: אם נשפר דיוק, נעלים הזיות, כי מודל 100% מדויק לא מזייף.
ממצא: דיוק לא יגיע ל-100% כי יש שאלות שבמציאות הן לא-פתירות (אין מידע, יש עמימות וכו’).
טענה: הזיות הן בלתי נמנעות.
ממצא: לא בהכרח, כי מודלים יכולים לבחור להימנע כשלא בטוחים.
טענה: כדי לא להזות צריך להיות “חכם מאוד”, וזה אפשרי רק במודלים ענקיים.
ממצא: לפעמים דווקא קל יותר למודל קטן לדעת שהוא לא יודע. הם נותנים דוגמה: אם שואלים שאלה במאורית, מודל קטן שלא יודע מאורית יכול פשוט לומר “אני לא יודע”, בעוד מודל שיודע קצת צריך להעריך ביטחון. הם גם מוסיפים שלהיות “מכויל” (calibrated), כלומר לדעת להעריך ביטחון, דורש פחות חישוב מאשר להיות מדויק.
טענה: הזיות הן “באג מסתורי”.
ממצא: הם טוענים שאפשר להבין את המנגנון הסטטיסטי שגורם להן להופיע, ואת זה שהמדדים מתגמלים אותן.
טענה: מספיק לבנות מבחן טוב למדידת הזיות.
ממצא: יש כבר מבחנים כאלה, אבל הם לא עוזרים מספיק כל עוד מאות מדדים אחרים ממשיכים להעניש חוסר ודאות ולתגמל ניחושים. לכן צריך לעצב מחדש את המדדים המרכזיים כך שיתגמלו “אני לא בטוח/ה”.
הכתבה אומרת במפורש: גם ChatGPT עדיין יכול להזות. הם טוענים של-GPT-5 יש פחות הזיות, במיוחד במצבי “reasoning”, אבל זה עדיין קורה, והם ממשיכים לעבוד על להוריד את שיעור הטעויות הבטוחות.