חברת ElevenLabs, החברה המובילה בעולם ביצירת דיבור קולי מתוך טקסט (text-to-speech), השיקה לאחרונה את ה-Expressive Mode במערכת ה-Agents שלה, שדרוג שמשנה את כללי המשחק. הפיצ'ר החדש מאפשר לסוכנים קוליים להתאים את הטון, התזמון וההגשה הרגשית שלהם בזמן אמת, בהתבסס על ההקשר של השיחה.
בפוסט זה נצלול לעומק הטכנולוגיה החדשה, נבין איך מודל ה-Eleven v3 Conversational עובד, ונלמד כיצד להגדיר סוכן שמבין מתי לצחוק, מתי ללחוש ומתי להגיב ברצינות תהומית.
מהם בכלל סוכני ה-Ai הקוליים של Eleven Labs?
סוכני ה-AI הקוליים הללו (או בשמם המקצועי: Conversational AI Agents) הם לא סתם "קריינים" שקוראים טקסט, אלא מערכות אינטראקטיביות מקצה לקצה המסוגלות לנהל שיחה קולית מלאה בזמן אמת.
בניגוד לעבר, שבו היינו צריכים לחבר בנפרד מודל שמיעה (ASR), מודל חשיבה (LLM) ומודל דיבור (TTS), ElevenLabs מציעה תשתית מאוחדת שעושה הכל תחת קורת גג אחת. הסוכנים הללו מסוגלים להבין הוראות מורכבות, לשלוף מידע ממאגרי נתונים ולענות בקול אנושי כמעט לחלוטין, מה שהופך אותם לכלי אידיאלי לשירות לקוחות, תמיכה טכנית, מכירות ואפילו ליווי אישי – והכל עם דיליי (Latency) נמוך במיוחד שמרגיש כמו שיחה עם בן אדם בצד השני של הקו.
הדבר הקורץ במיוחד בסוכנים הקוליים של Eleven Labs הוא אפשרות הקמת הסוכנים ללא ידע בפיתוח תוכנה. כל אחד, עם קצת אוריינטציה טכנית, יכול להקים סוכן קולי, לחבר אותו דרך שרת MCP, למערכות אותם הוא מפעיל בעסק, ואף לחבר את הסוכן למספר טלפון – מה שמאפשר זמינות מדהימה לשירות הלקוחות.
מהו Expressive Mode?
מצב הבעה (Expressive Mode) הוא יכולת חדשה המאפשרת לסוכנים של ElevenLabs "לשמוע" מעבר למילים הכתובות. המערכת מבוססת על שני שיפורים מערכתיים עמוקים ב-Stack השיחה:
- מודל Eleven v3 Conversational: מודל ה-TTS (טקסט לדיבור) האינטליגנטי ביותר של החברה עד כה, בעל "אינטליגנציה רגשית" והבנת הקשר.
- מערכת Turn-taking (לקיחת תורות) חדשה: מנגנון תזמון מדויק יותר שמונע הפרעות בשיחה ומבין מתי המשתמש סיים לדבר ומתי הוא רק לוקח אוויר.
השילוב של השניים מאפשר לסוכן לא רק לקרוא טקסט, אלא לבצע "משחק" (Acting) של ממש – הוא יגיב ברוגע כשאתם לחוצים, או בהתלהבות כשיש חדשות טובות.
המוח החדש: Eleven v3 Conversational
הלב של המערכת הוא המודל החדש, שפותח במיוחד לשיחות חיות (Low Latency). המודל שומר על ההקשר לאורך השיחה ומתאים את אופן הדיבור לכוונת המשתמש.
היכולות המרכזיות כוללות:
- התאמת טון קונטקסטואלית: הסוכן מנתח את הסיטואציה. אם משתמש נשמע מודאג, הסוכן יאמץ טון מרגיע. אם נדרשת בהירות טכנית, הוא ידבר בצורה ישירה וחותכת.
- תמיכה בשפות: המודל תומך כעת ב-70+ שפות (קפיצה משמעותית מ-32 המודלים הקודמים), עם שיפור דרמטי בניואנסים בשפות מורכבות כמו יפנית.
- תגי הבעה (Expressive Tags): ה-LLM יכול לשלוח למודל הדיבור הוראות בימוי ספציפיות בתוך הטקסט.
הנה דוגמאות לתגים שניתן להוסיף בתשובות המודל כדי לשלוט בביצוע:
[laughs] - Adds laughter to the speech
[whispers] - Lowers volume for whispering
[sighs] - Adds a sighing quality
[slow] - Slows down speech delivery
[excited] - Adds excitement to the delivery
כל תג משפיע על כ-4 עד 5 המילים הבאות אחריו, לפני שהדיבור חוזר לקצב ולטון הרגיל.
רוצים לנסות? הכנסו לממשק text-to-speech של Eleven Labs, בפאנל הצד בחרו במודל v3 (חשוב!), והכניסו טקסט הכולל חלק מהתגים שפורטו לעיל.
מערכת ה-Turn-Taking: להבין מתי לדבר
אחת הבעיות הקשות בבוטים קוליים היא שהם או קוטעים אותך באמצע משפט, או מחכים שתיקה מביכה לפני שהם עונים. המערכת החדשה משתמשת באותות זמן-אמת ממודל Scribe v2 כדי לפתור את זה.
המערכת מנתחת לא רק את הטקסט (מה נאמר), אלא גם את הפרוזודיה (איך זה נאמר) ורמזים רגשיים.
לדוגמא:
אם משתמש אומר את המילה "כן…" (Yeah).
- אם זה נאמר בטון יורד וסוגר – זו הסכמה, והסוכן יכול להמשיך.
- אם זה נאמר בטון מתמשך – המשתמש כנראה חושב ומתכוון להמשיך לדבר, והסוכן יחכה.
איך בונים סוכן אקספרסיבי?
הפעלת המצב החדש היא פשוטה, אך דורשת כיוונון עדין של ה-System Prompt כדי לקבל תוצאות מיטביות.
שלב 1: בחירת המודל
- כנסו ל-Dashboard של ElevenLabs באזור ה-Agents.
- תחת לשונית Agent Voice, בחרו במודל: V3 Conversational.
- ברגע שבחרתם במודל זה, Expressive mode מופעל אוטומטית כברירת מחדל.
שלב 2: הנחיות ב-System Prompt
כדי שהסוכן ידע מתי להיות אמפתי ומתי להיות ענייני, עליכם להנחות אותו ב-System Prompt. המודל מבין שפה טבעית, אז אין צורך בקוד מורכב, אלא בהגדרות אישיות (Persona).
דוגמה להנחיה כללית לטון הדיבור:
You are a customer support agent. When a user sounds frustrated or upset, respond
in a calm, reassuring tone. When delivering good news, allow your tone to reflect
genuine warmth. Maintain a professional but approachable delivery throughout.
דוגמה להנחיה עם טריגרים ספציפיים:
You are a conversational AI agent with expressive speech capabilities.
Tone guidelines:
- When a user expresses frustration, use a calm and empathetic tone
- When explaining technical steps, use a clear and measured pace
- When a user shares good news, respond with warmth and enthusiasm
- When handling complaints, remain composed and solution-oriented
שימוש בתגי הבעה בתוך הפרומפט (לשליטה מדויקת):
You can also use expressive tags in your responses for precise control:
- [laughs] for moments of humor
- [whispers] for confidential or intimate moments
- [sighs] for resignation or relief
- [slow] when emphasizing important information
Example response: "That's great to hear! [laughs] I'm glad we could sort that out for you."
מגבלות וטיפים לשימוש נכון
למרות שהטכנולוגיה מרשימה, חשוב להכיר את המגבלות והדרכים לעקוף אותן כדי ליצור חוויה חלקה.
- שיבוטי קול מקצועיים (PVC): נכון לעכשיו, מודל V3 Conversational אינו משמר בצורה מושלמת את המאפיינים של Professional Voice Clones. התוצאה עשויה להישמע שונה מהקול המקורי. אם הזהות הקולית היא קריטית לכם, עדיף להישאר כרגע עם מודל Turbo v2.
- משך ההשפעה של תגים: תגים כמו
[whisper]משפיעים רק על 4-5 מילים. אל תבנו על כך שהסוכן "ילחש" פסקה שלמה באמצעות תג אחד בתחילתה. - בדיקה בשפות שונות: רמת האקספרסיביות משתנה בין שפות. חובה לבצע בדיקות QA בשפת היעד שלכם כדי לוודא שהניואנסים הרגשיים עוברים כהלכה.
- עלות: החדשות הטובות הן שהמחיר זהה לשאר המודלים – החל מ-$0.08 לדקה.
השילוב של בינה מלאכותית שמבינה לא רק טקסט אלא גם סאב-טקסט ורגש, הוא צעד ענק בדרך לממשקים טבעיים באמת. זה הזמן להתחיל להתנסות ולשדרג את חווית השירות של הבוטים שלכם.