تا پیش از این، بزرگترین مشکل دستیارهای صوتی و ایجنتهای هوش مصنوعی این بود که در لحظات حساس، کاملاً رباتیک و بیروح عمل میکردند. اگر شما عصبانی بودید، ربات با همان لحن شاد و یکنواخت همیشگی پاسخ میداد؛ اما در جدیدترین آپدیت سال ۲۰۲۶، شرکت ElevenLabs با معرفی قابلیت Expressive Mode این مشکل را برای همیشه حل کرده است.
در این مقاله از مجله هوش مصنوعی نکسینو، به تحلیل عمیق این قابلیت میپردازیم که چگونه ایجنتهای صوتی را به شنوندگانی همدل، آرامشبخش و کاملاً طبیعی تبدیل کرده است.
قابلیت Expressive Mode چیست و چرا یک انقلاب در صدا محسوب میشود؟
بر اساس دموی منتشر شده توسط ElevenLabs (که شامل ضبط بدون ویرایشِ صحبت یک کاربرِ به شدت عصبانی از لغو پرواز با ایجنت هوش مصنوعی بود)، قابلیت Expressive Mode به هوش مصنوعی اجازه میدهد تا لحن، زمانبندی و میزان احساسات خود را بر اساس شرایط مکالمه تغییر دهد.
هدف از این آپدیت صرفاً ساختن «صداهای بامزه» نیست؛ بلکه هدف ایجاد یک تجربه در سطح سازمانی و کالسنترهاست. ایجنتهای مجهز به این حالت میتوانند تنش کاربر را کاهش دهند، در مواقع نگرانی با لحنی اطمینانبخش صحبت کنند و مکالمه را به سمت حل مشکل هدایت نمایند.
دو موتور محرک در آپدیت جدید: Eleven v3 و Scribe v2
تحلیل اسناد فنی ElevenLabs نشان میدهد که این رفتار انسانی، مدیون دو تکنولوژی جدید است که به صورت موازی با هم کار میکنند:
۱. مدل Eleven v3 Conversational
این مدل که با تاخیر فوقالعاده پایین (Ultra-low-latency) کار میکند، میتواند کانتکست (Context) احساسی مکالمه را در طول صحبت حفظ کند. این مدل به توسعهدهندگان اجازه میدهد تا با استفاده از پرامپتهای سیستمی، کنترل احساسی صریح (Explicit Emotional Control) روی ربات داشته باشند تا دقیقاً مطابق با صدای برند رفتار کند.
۲. سیستم جدید نوبتدهی (Turn-taking System)
در مکالمات انسانی، زمانبندی به اندازه کلمات اهمیت دارد. اگر زودتر از موعد حرف کسی را قطع کنید، اعتماد او سلب میشود. ElevenLabs یک سیستم نوبتدهی کاملاً جدید طراحی کرده است که به کمک آن، هوش مصنوعی میفهمد چه زمانی باید صحبت کند، چه زمانی باید مکث کند و چه زمانی صرفاً منتظر بماند.

تحلیل فناوری: هوش مصنوعی چگونه متوجه عصبانیت یا استرس ما میشود؟
شاید بپرسید مدل زبان چگونه احساسات پشت صدای کاربر را درک میکند؟ رمز این کار در استفاده از مدل تبدیل گفتار به متن Scribe v2 Realtime نهفته است.
این مدل پیشرفته، فراتر از کلمات، سیگنالهای صوتی را تحلیل میکند. به عنوان مثال، اگر کاربر به طور ناگهانی سرعت صحبت کردن خود را بالا ببرد یا افزایش حجم صدا (Volume Surges) و کلمات تکراری داشته باشد، Scribe v2 این تغییرات را به عنوان علائم “استرس حاد یا پانیک” شناسایی کرده و به ایجنت دستور میدهد تا با لحنی بسیار آرام و تسلیبخش پاسخ دهد.
تگهای احساسی و پشتیبانی از ۷۰ زبان زنده
یکی از ویژگیهای بسیار جذاب و کاربردی برای برنامهنویسان، اضافه شدن تگهای احساسی (Expressive Tags) است. حالا مدلهای زبان (LLM) میتوانند با ارسال تگهایی مانند [laughs] (خندیدن)، [whispers] (زمزمه کردن) یا [sighs] (آه کشیدن) در متن، به موتور ElevenLabs دستور دهند تا دقیقاً در همان لحظه از کلام، این واکنشهای انسانی را پیادهسازی کند.
علاوه بر این، قابلیت Expressive Mode اکنون ظرافتهای احساسی را در بیش از ۷۰ زبان زنده دنیا توسعه داده است و مشکل عدم درک لحن در زبانهایی مانند هندی و ژاپنی را که پیش از این در مدلهای Flash وجود داشت، برطرف کرده است.
جدول تحلیل هزینه و کاربرد قابلیت Expressive Mode
با وجود اضافه شدن این قابلیتهای پردازشی سنگین، سیاست قیمتگذاری ElevenLabs تغییر نکرده است که این یک خبر عالی برای کسبوکارهاست:
| ویژگی مورد بررسی | مشخصات در آپدیت جدید (Expressive Mode) |
| هزینه پردازش (قیمتگذاری) | ۰.۰۸ دلار به ازای هر دقیقه (بدون افزایش قیمت نسبت به مدلهای قبلی) |
| مدل پایه استفاده شده | Eleven v3 Conversational (بهینهشده برای گفتگوی زنده) |
| ابزار درک احساسات کاربر | مدل Scribe v2 Realtime |
| بهترین سناریوی استفاده | کالسنترها، پشتیبانی مشتریان، ایجنتهای درمانی و بازیهای ویدیویی تعاملی |
نتیجهگیری: عبور از رباتهای بیروح
قابلیت Expressive Mode در ElevenLabs به ما نشان داد که سال ۲۰۲۶، سالِ گذار از هوش مصنوعی «باهوش» به هوش مصنوعی «بااحساس» است. اگر صاحب کسبوکاری هستید که بخش پشتیبانی مشتریان دارد، استفاده از این API با هزینه مقرونبهصرفه ۰.۰۸ دلار در دقیقه، میتواند نرخ رضایت مشتریان (CSAT) شما را به شدت افزایش دهد. دیگر نیازی نیست مشتریان شما احساس کنند که در حال حرف زدن با یک ماشینِ برنامهریزیشده هستند.