מעבר ל"נתיב השמח": איך למקסם את ה-ROI של Agentforce עם Custom Scorers

סוכני בינה מלאכותית עולים לאוויר בכל רגע נתון, אבל האתגר האמיתי מתחיל כשמדדי האיכות הכלליים לא מראים את התמונה העסקית המלאה. הכירו את ה-Custom Scorers: התשתית שמחברת בין התנהגות הסוכן לתוצאות העסקיות ומאפשרת לכם למדוד את מה שבאמת מזיז את ה-ROI.

איתי אורן

10/04/2026 דקות קריאה 6

מעבר ל"נתיב השמח": מדדי איכות סטנדרטיים (כמו השלמת משימה או סנטימנט כללי) אינם מספיקים למדידת סוכני AI בשטח, מכיוון שהם אינם משקפים את המורכבות של שיחות אמיתיות ואת ההקשר העסקי הייחודי של הארגון.
הגדרת הצלחה עסקית: ה-Custom Scorers הם תשתית המאפשרת לכם ליצור לוגיקה מותאמת אישית המגשרת על "פער הנראות". הם הופכים נתונים יבשים לאיתותים ברורים שמחברים ישירות בין התנהגות הסוכן לתוצאות העסקיות (ROI).
גמישות במדידה: ניתן להגדיר את המדדים בשתי קטגוריות: מדדי ביצועים (כגון עמידה בטון המותג) ותובנות עסקיות (כגון זיהוי עניין במוצרים או אזכורי מתחרים), תוך שימוש בגישת Low-code המשלבת LLM-as-a-Judge ונוסחאות ברורות.

אם הטמעתם לאחרונה סוכן בינה מלאכותית (AI Agent) כדי לדבר עם הלקוחות שלכם, אתם בטח מכירים את ההרגשה: שילוב של התרגשות עם לא מעט חשש כשאתם נותנים לנציג דיגיטלי לייצג את המותג שלכם.

הגדרתם אותו, בדקתם אותו מכל כיוון והרצתם סימולציות. וידאתם שההנחיות (Prompts) וההוראות שלו מדויקות וששמתם לו את כל מגבלות האבטחה הנדרשות. אבל ברגע שה-Agent עולה לאוויר ("לפרודקשן"), המציאות משתנה: משתמשים אמיתיים כמעט אף פעם לא מתנהגים כמו מקרי המבחן שהרצתם במעבדה. הסיכונים הכי גדולים מגיעים בדרך כלל מהדברים שבכלל לא חשבתם לבדוק.

זה אחד האתגרים הכי גדולים בפיתוח סוכני AI. בדיקות לפני שלב ההשקה הן קריטיות, אבל הן יכולות לקחת אתכם רק עד גבול מסוים. המבחן האמיתי קורה תמיד בשטח – שם השיחות הופכות למורכבות יותר, הרגשות צפים, וההקשר העסקי משנה הרבה יותר ממדדי איכות כלליים. בדיוק בנקודה הזו נכנסים לתמונה ה-Custom Scorers (מדדי הערכה מותאמים אישית).

המגבלות של ״הנתיב השמח"
אני אוהב להשוות בדיקות של Agents לימים הישנים של הבוטים שעבדו לפי תרשימי זרימה. הצוותים היו מעבירים שבועות בניסיון לנחש מה המשתמשים ישאלו, במיפוי תהליכים ובתכנון תשובות לכל תרחיש אפשרי. העבודה הזו הייתה חשובה, והיא עדיין כזו, אבל היא התבססה על הנחה אחת: שהמשתמשים יתנהגו בדיוק כפי שצפינו. בפועל, זה כמעט אף פעם לא קורה.

לפני כמה חודשים ביקרתי עם המשפחה במלון באוסטריה. ליד הקבלה עמד רובוט לפינוי כלים בשם "מילבר", רובוט נמוך ויציב שבנו אותו למשימה פשוטה ומכובדת: לחכות ליד שולחן הקפה, לאסוף כלים מלוכלכים ולהחזיר אותם למטבח. מקצוען אמיתי. ואז, הגיע הכאוס. ילד קטן ניגש ולחץ על כפתור אקראי ונוצץ בלוח הבקרה של מילבר (אני נשבע שזה לא היה הילד שלי).

מילבר נטש מיד את העמדה שלו והתחיל להתגלגל בנחישות מאיימת ישר לכיוון דלת היציאה, כאילו הוא הגיש הרגע מכתב התפטרות והחליט לעזוב מוקדם. זה גרם לי לחשוב: האם הנהלת המלון בכלל יודעת שזה קורה? זה בדיוק ההבדל בין בדיקה מבוקרת במעבדה לבין פריסה בשטח. ה"נתיב השמח" הוא מה שאנחנו מתכננים על הנייר. החיים האמיתיים הם מה שקורה כשילד לוחץ על הכפתור הלא נכון, כשמסדרון חסום, או כשמישהו משתמש במערכת בדרך שאף אחד לא צפה מראש.

עבור סוכן בינה מלאכותית, ה"כפתור הלא נכון" הזה יכול להופיע בהרבה צורות:

לקוח שמנסח בקשה בצורה משונה.
משתמש ששואל שאלה לגיטימית אבל מתוך לחץ או מצוקה.
שיחה שמסתיימת טכנית בהצלחה, אבל משאירה את הלקוח מתוסכל.
סוכן שממלא אחר ההוראות היבשות, אבל בדרך פוגע בערכי המותג או בכוונה העסקית.

האתגר הוא לא רק לבדוק אם הסוכן ענה, אלא אם הוא הצליח בתנאים שלכם.

מקריאת לוגים לתובנות עסקיות

ברגע ש-Agents יוצאים לשטח, ארגונים חייבים משוב צמוד: לתעד, ללמוד ולהשתפר תוך כדי תנועה. רוב הצוותים מתחילים עם מדדי איכות סטנדרטיים כמו עמידה בהנחיות, השלמת משימות, שיעור הסטה (Deflection), נטישה וניתוח סנטימנט. אלו מדדים בסיסיים שעוזרים לענות על שאלות כמו:

האם הסוכן סיים את המשימה?
האם הלקוח נטש באמצע?
האם השיחה נגמרה בטון חיובי?

אלו מדדים חיוניים, ולכן Agentforce כולל אותם כחלק מובנה בפלטפורמה. לכל לקוח חייבת להיות הבנה בסיסית של ביצועי הסוכן שלו. אבל המדדים האלה מספרים רק חלק מהסיפור:

Agent יכול לקבל ציון גבוה על "השלמת משימה" ועדיין לתת תשובה שגויה מבחינה עסקית.
שיחה יכולה להיראות עם סנטימנט שלילי למרות שה-Agent עשה הכל נכון, פשוט כי הבעיה היא במדיניות המחירים או במשלוח שהתעכב.
העברה לנציג אנושי יכולה להיחשב ככישלון בעסק אחד, אבל בעסק אחר היא בדיוק התוצאה הרצויה.

זה "פער הנראות" שצוותים רבים נתקלים בו. יש לכם המון נתונים ויומני צ'אט, אבל עדיין חסרה לכם דרך אמינה למדוד מהי "הצלחה" אמיתית עבור הארגון שלכם. ה-Custom Scorers נבנו כדי לסגור בדיוק את הפער הזה.

הכירו את ה-Custom Scorers: העסק שלכם, ההגדרה שלכם להצלחה

Custom Scorers הם תשתית שמאפשרת לכם ליצור לוגיקה משלכם להגדרת הצלחה ולהוציא תובנות עסקיות מתוך שיחות אמיתיות. בשורה התחתונה, הם הופכים נתונים יבשים לאיתותים ברורים שמשקפים את מה שחשוב לעסק שלכם. זה מעביר את הערכת ה-Agent מ"בדיקת איכות כללית" ל"בדיקת תוצאה עסקית".

במקום לשאול רק "האם המשימה הושלמה?", תוכלו לשאול:

האם ה-Agent שמר על השפה של המותג שלנו?
האם הוא זיהה נכון לקוח שנמצא בסכנת נטישה?
האם הוא דאג להעביר את הטיפול לנציג במקרה רגיש, כפי שהמדיניות דורשת?
האם השיחה חשפה עניין במוצר מסוים או אזכור של מתחרים?

ככה הצוותים מפסיקים להתייחס ל-Agent כאל "קופסה שחורה" ומתחילים להבין באמת מה קורה שם. אפשר להגדיר את המדדים בשתי קטגוריות:

1. מדדי ביצועים (Performance Metrics): איך ה-Agent מתפקד לפי הסטנדרטים שלכם. למשל: שביעות רצון (CSAT) מותאמת, עמידה בטון המותג, מידת העזרה של ה-Agent או התאמה למצבי העברה לנציג.

2. תובנות עסקיות (Business Insights): חשיפת דפוסים שמעניינים את העסק. למשל: זיהוי עניין במוצרים, אזכורי מתחרים, נקודות כאב חדשות בשוק או מגמות בדרישה לפיצ'רים חדשים.

גמישות מעל הכל: לא רק למפתחים

אחת המטרות העיקריות של ה-Custom Scorers היא נגישות. לא כל שאלה עסקית צריכה להפוך לפרויקט פיתוח מסובך. בהרבה ארגונים, מי שהכי מבין מהי "הצלחה" הם האנליסטים או מנהלי השירות, ולאו דווקא המפתחים. לכן, יצרנו חוויית כתיבה בשיטת Low-code. אפשר להגדיר את המדדים בשתי דרכים:

LLM-as-a-Judge: שימוש במודל שפה כדי להעריך דקויות כמו טון דיבור או כוונה.
נוסחאות ברורות: לוגיקה מבוססת כללים למקרים שבהם חשוב שהתוצאה תהיה עקבית וקלה להסבר.

הגמישות הזו מאפשרת לכם לבחור את הגישה הנכונה לכל בעיה. חלק מהשאלות הן סובייקטיביות (כמו "האם הנציג היה נחמד?"), ואחרות הן חד-משמעיות וקלות למדידה.

אפשר להחיל את המדדים ברמות שונות, תלוי מה אתם מחפשים:

ברמת השיחה כולה: למשל, מה הסיכוי שהלקוח ינטוש או כמה אנחנו בטוחים שהבעיה נפתרה.
ברמת המשימה (Intent): למשל, כמה יעיל היה תהליך ההחזר הכספי או עד כמה הטיפול בסטטוס ההזמנה היה מדויק.
ברמת הרגע הספציפי: למשל, האם תגובה מסוימת הייתה מנומסת או האם ה-Agent זכר להגיד משפט חובה מסוים.

החלוקה הזו הופכת את המערכת לגמישה מספיק כדי לתת לכם גם תמונה כללית וגם יכולת לרדת לפרטים הכי קטנים.

למה זה קריטי ל-ROI שלכם?

ההבטחה של AI Agents היא פשוטה: שירות טוב יותר, פתרון מהיר יותר ועלויות נמוכות יותר. אבל להוכיח שהערך הזה באמת קורה בשטח זה סיפור אחר לגמרי. מדדים כלליים יכולים להראות שה-Agent עובד, אבל הם לא תמיד מחברים בין ההתנהגות שלו לבין התוצאות שבאמת מעניינות את ההנהלה שלכם. ה-Custom Scorers עושים בדיוק את החיבור הזה. הם מאפשרים לכם למדוד את מה שחשוב לעסק:

האם אנחנו חוסכים שיחות מיותרות לנציגים?
האם אנחנו מזהים הזדמנויות למכירה מוקדם יותר?
האם אנחנו עולים על בעיות במדיניות שמעצבנות את הלקוחות?
האם חסר לנו ידע במערכת שה-Agent לא מוצא?

במקום לעבור על תמלולי שיחות אקראיים ולנחש מה קורה, הצוותים יכולים לעקוב בצורה מסודרת אחרי דפוסים משמעותיים ולחבר אותם ישירות לביצועים של העסק.

להפסיק לנחש

הדבר הכי חשוב שה-Custom Scorers נותנים לכם הוא לא רק מספרים, אלא ביטחון. ביטחון שה- Agent שלכם לא רק "עובד", אלא פועל בדיוק לפי המותג, המדיניות והיעדים שלכם. ביטחון שתוכלו לעלות על בעיות לפני שהן נהיות גדולות, וביטחון שתוכלו להסביר להנהלה את התוצאות במונחים של רווח והפסד.

בין אם אתם קמעונאים שמחפשים פערי ידע, בנקים שצריכים לוודא עמידה בכללים רגישים, או ארגוני שירות שמנסים להבין ממה הלקוחות באמת מתוסכלים, ה-Custom Scorers עוזרים לכם לצאת מהתכנונים על הנייר ולעבור למציאות. כי הצלחה בשטח היא לעיתים רחוקות השאלה "האם ה-Agent ענה?". היא תמיד השאלה: "האם הוא השיג את התוצאה הנכונה עבור העסק שלכם?".

השורה התחתונה

"One size doesn't fit all". מדדים סטנדרטיים הם רק נקודת ההתחלה, אבל Custom Scorers מאפשרים לכם להחליט מהי הצלחה בעולם שלכם. ככה עוברים מקריאת אלפי שיחות לתובנות חכמות, ומפעילות של Agents לרווח מדיד. תפסיקו לנחש אם ה-Agent שלכם עובד. תתחילו למדוד אותו מול מה שבאמת מזיז את העסק שלכם קדימה.

כך תהפכו את סוכן הבינה המלאכותית שלכם לגרסה הכי טובה של עצמו – עם Agentforce Optimization

*איתי אורן הוא Senior Product Manager בסיילספורס