قابلیت Expressive Mode در ElevenLabs: صدای هوش مصنوعی با احساسات انسانی (آپدیت ۲۰۲۶)

فهرست مطالب

تا پیش از این، بزرگترین مشکل دستیارهای صوتی و ایجنت‌های هوش مصنوعی این بود که در لحظات حساس، کاملاً رباتیک و بی‌روح عمل می‌کردند. اگر شما عصبانی بودید، ربات با همان لحن شاد و یکنواخت همیشگی پاسخ می‌داد؛ اما در جدیدترین آپدیت سال ۲۰۲۶، شرکت ElevenLabs با معرفی قابلیت Expressive Mode این مشکل را برای همیشه حل کرده است.

در این مقاله از مجله هوش مصنوعی نکسینو، به تحلیل عمیق این قابلیت می‌پردازیم که چگونه ایجنت‌های صوتی را به شنوندگانی همدل، آرامش‌بخش و کاملاً طبیعی تبدیل کرده است.

قابلیت Expressive Mode چیست و چرا یک انقلاب در صدا محسوب می‌شود؟

بر اساس دموی منتشر شده توسط ElevenLabs (که شامل ضبط بدون ویرایشِ صحبت یک کاربرِ به شدت عصبانی از لغو پرواز با ایجنت هوش مصنوعی بود)، قابلیت Expressive Mode به هوش مصنوعی اجازه می‌دهد تا لحن، زمان‌بندی و میزان احساسات خود را بر اساس شرایط مکالمه تغییر دهد.

هدف از این آپدیت صرفاً ساختن «صداهای بامزه» نیست؛ بلکه هدف ایجاد یک تجربه در سطح سازمانی و کال‌سنترهاست. ایجنت‌های مجهز به این حالت می‌توانند تنش کاربر را کاهش دهند، در مواقع نگرانی با لحنی اطمینان‌بخش صحبت کنند و مکالمه را به سمت حل مشکل هدایت نمایند.

دو موتور محرک در آپدیت جدید: Eleven v3 و Scribe v2

تحلیل اسناد فنی ElevenLabs نشان می‌دهد که این رفتار انسانی، مدیون دو تکنولوژی جدید است که به صورت موازی با هم کار می‌کنند:

۱. مدل Eleven v3 Conversational

این مدل که با تاخیر فوق‌العاده پایین (Ultra-low-latency) کار می‌کند، می‌تواند کانتکست (Context) احساسی مکالمه را در طول صحبت حفظ کند. این مدل به توسعه‌دهندگان اجازه می‌دهد تا با استفاده از پرامپت‌های سیستمی، کنترل احساسی صریح (Explicit Emotional Control) روی ربات داشته باشند تا دقیقاً مطابق با صدای برند رفتار کند.

۲. سیستم جدید نوبت‌دهی (Turn-taking System)

در مکالمات انسانی، زمان‌بندی به اندازه کلمات اهمیت دارد. اگر زودتر از موعد حرف کسی را قطع کنید، اعتماد او سلب می‌شود. ElevenLabs یک سیستم نوبت‌دهی کاملاً جدید طراحی کرده است که به کمک آن، هوش مصنوعی می‌فهمد چه زمانی باید صحبت کند، چه زمانی باید مکث کند و چه زمانی صرفاً منتظر بماند.

مدیر پشتیبانی ایرانی در حال استفاده از صدای هوش مصنوعی ایلون لبز

تحلیل فناوری: هوش مصنوعی چگونه متوجه عصبانیت یا استرس ما می‌شود؟

شاید بپرسید مدل زبان چگونه احساسات پشت صدای کاربر را درک می‌کند؟ رمز این کار در استفاده از مدل تبدیل گفتار به متن Scribe v2 Realtime نهفته است.

این مدل پیشرفته، فراتر از کلمات، سیگنال‌های صوتی را تحلیل می‌کند. به عنوان مثال، اگر کاربر به طور ناگهانی سرعت صحبت کردن خود را بالا ببرد یا افزایش حجم صدا (Volume Surges) و کلمات تکراری داشته باشد، Scribe v2 این تغییرات را به عنوان علائم “استرس حاد یا پانیک” شناسایی کرده و به ایجنت دستور می‌دهد تا با لحنی بسیار آرام و تسلی‌بخش پاسخ دهد.

تگ‌های احساسی و پشتیبانی از ۷۰ زبان زنده

یکی از ویژگی‌های بسیار جذاب و کاربردی برای برنامه‌نویسان، اضافه شدن تگ‌های احساسی (Expressive Tags) است. حالا مدل‌های زبان (LLM) می‌توانند با ارسال تگ‌هایی مانند [laughs] (خندیدن)، [whispers] (زمزمه کردن) یا [sighs] (آه کشیدن) در متن، به موتور ElevenLabs دستور دهند تا دقیقاً در همان لحظه از کلام، این واکنش‌های انسانی را پیاده‌سازی کند.

علاوه بر این، قابلیت Expressive Mode اکنون ظرافت‌های احساسی را در بیش از ۷۰ زبان زنده دنیا توسعه داده است و مشکل عدم درک لحن در زبان‌هایی مانند هندی و ژاپنی را که پیش از این در مدل‌های Flash وجود داشت، برطرف کرده است.

جدول تحلیل هزینه و کاربرد قابلیت Expressive Mode

با وجود اضافه شدن این قابلیت‌های پردازشی سنگین، سیاست قیمت‌گذاری ElevenLabs تغییر نکرده است که این یک خبر عالی برای کسب‌وکارهاست:

ویژگی مورد بررسی	مشخصات در آپدیت جدید (Expressive Mode)
هزینه پردازش (قیمت‌گذاری)	۰.۰۸ دلار به ازای هر دقیقه (بدون افزایش قیمت نسبت به مدل‌های قبلی)
مدل پایه استفاده شده	Eleven v3 Conversational (بهینه‌شده برای گفتگوی زنده)
ابزار درک احساسات کاربر	مدل Scribe v2 Realtime
بهترین سناریوی استفاده	کال‌سنترها، پشتیبانی مشتریان، ایجنت‌های درمانی و بازی‌های ویدیویی تعاملی

نتیجه‌گیری: عبور از ربات‌های بی‌روح

قابلیت Expressive Mode در ElevenLabs به ما نشان داد که سال ۲۰۲۶، سالِ گذار از هوش مصنوعی «باهوش» به هوش مصنوعی «بااحساس» است. اگر صاحب کسب‌وکاری هستید که بخش پشتیبانی مشتریان دارد، استفاده از این API با هزینه مقرون‌به‌صرفه ۰.۰۸ دلار در دقیقه، می‌تواند نرخ رضایت مشتریان (CSAT) شما را به شدت افزایش دهد. دیگر نیازی نیست مشتریان شما احساس کنند که در حال حرف زدن با یک ماشینِ برنامه‌ریزی‌شده هستند.

نکسینو در شبکه‌های اجتماعی:

فهرست مطالب

قابلیت Expressive Mode در ElevenLabs: صدای هوش مصنوعی با احساسات انسانی (آپدیت ۲۰۲۶)

قابلیت Expressive Mode چیست و چرا یک انقلاب در صدا محسوب می‌شود؟

دو موتور محرک در آپدیت جدید: Eleven v3 و Scribe v2

۱. مدل Eleven v3 Conversational

۲. سیستم جدید نوبت‌دهی (Turn-taking System)

تحلیل فناوری: هوش مصنوعی چگونه متوجه عصبانیت یا استرس ما می‌شود؟

تگ‌های احساسی و پشتیبانی از ۷۰ زبان زنده

جدول تحلیل هزینه و کاربرد قابلیت Expressive Mode

نتیجه‌گیری: عبور از ربات‌های بی‌روح

بلاگ های اخیر

قابلیت Expressive Mode در ElevenLabs: صدای هوش مصنوعی با احساسات انسانی (آپدیت ۲۰۲۶)

استراتژی ترکیبی برنامه‌ نویسی با هوش مصنوعی: کاهش هزینه‌ها با Qwen3، Gemma 4 و Claude

معرفی Nano Banana 2 Lite و Gemini Omni Flash: انقلاب مقرون‌به‌صرفه گوگل در تولید عکس و ویدیو (۲۰۲۶)