قابلیت Expressive Mode در ElevenLabs: صدای هوش مصنوعی با احساسات انسانی (آپدیت ۲۰۲۶)

نمایش موج صوتی احساسی و تگ‌های هوش مصنوعی در ElevenLabs Expressive Mode
فهرست مطالب

تا پیش از این، بزرگترین مشکل دستیارهای صوتی و ایجنت‌های هوش مصنوعی این بود که در لحظات حساس، کاملاً رباتیک و بی‌روح عمل می‌کردند. اگر شما عصبانی بودید، ربات با همان لحن شاد و یکنواخت همیشگی پاسخ می‌داد؛ اما در جدیدترین آپدیت سال ۲۰۲۶، شرکت ElevenLabs با معرفی قابلیت Expressive Mode این مشکل را برای همیشه حل کرده است.

در این مقاله از مجله هوش مصنوعی نکسینو، به تحلیل عمیق این قابلیت می‌پردازیم که چگونه ایجنت‌های صوتی را به شنوندگانی همدل، آرامش‌بخش و کاملاً طبیعی تبدیل کرده است.

قابلیت Expressive Mode چیست و چرا یک انقلاب در صدا محسوب می‌شود؟

بر اساس دموی منتشر شده توسط ElevenLabs (که شامل ضبط بدون ویرایشِ صحبت یک کاربرِ به شدت عصبانی از لغو پرواز با ایجنت هوش مصنوعی بود)، قابلیت Expressive Mode به هوش مصنوعی اجازه می‌دهد تا لحن، زمان‌بندی و میزان احساسات خود را بر اساس شرایط مکالمه تغییر دهد.

هدف از این آپدیت صرفاً ساختن «صداهای بامزه» نیست؛ بلکه هدف ایجاد یک تجربه در سطح سازمانی و کال‌سنترهاست. ایجنت‌های مجهز به این حالت می‌توانند تنش کاربر را کاهش دهند، در مواقع نگرانی با لحنی اطمینان‌بخش صحبت کنند و مکالمه را به سمت حل مشکل هدایت نمایند.

دو موتور محرک در آپدیت جدید: Eleven v3 و Scribe v2

تحلیل اسناد فنی ElevenLabs نشان می‌دهد که این رفتار انسانی، مدیون دو تکنولوژی جدید است که به صورت موازی با هم کار می‌کنند:

۱. مدل Eleven v3 Conversational

این مدل که با تاخیر فوق‌العاده پایین (Ultra-low-latency) کار می‌کند، می‌تواند کانتکست (Context) احساسی مکالمه را در طول صحبت حفظ کند. این مدل به توسعه‌دهندگان اجازه می‌دهد تا با استفاده از پرامپت‌های سیستمی، کنترل احساسی صریح (Explicit Emotional Control) روی ربات داشته باشند تا دقیقاً مطابق با صدای برند رفتار کند.

۲. سیستم جدید نوبت‌دهی (Turn-taking System)

در مکالمات انسانی، زمان‌بندی به اندازه کلمات اهمیت دارد. اگر زودتر از موعد حرف کسی را قطع کنید، اعتماد او سلب می‌شود. ElevenLabs یک سیستم نوبت‌دهی کاملاً جدید طراحی کرده است که به کمک آن، هوش مصنوعی می‌فهمد چه زمانی باید صحبت کند، چه زمانی باید مکث کند و چه زمانی صرفاً منتظر بماند.

مدیر پشتیبانی ایرانی در حال استفاده از صدای هوش مصنوعی ایلون لبز

تحلیل فناوری: هوش مصنوعی چگونه متوجه عصبانیت یا استرس ما می‌شود؟

شاید بپرسید مدل زبان چگونه احساسات پشت صدای کاربر را درک می‌کند؟ رمز این کار در استفاده از مدل تبدیل گفتار به متن Scribe v2 Realtime نهفته است.

این مدل پیشرفته، فراتر از کلمات، سیگنال‌های صوتی را تحلیل می‌کند. به عنوان مثال، اگر کاربر به طور ناگهانی سرعت صحبت کردن خود را بالا ببرد یا افزایش حجم صدا (Volume Surges) و کلمات تکراری داشته باشد، Scribe v2 این تغییرات را به عنوان علائم “استرس حاد یا پانیک” شناسایی کرده و به ایجنت دستور می‌دهد تا با لحنی بسیار آرام و تسلی‌بخش پاسخ دهد.

تگ‌های احساسی و پشتیبانی از ۷۰ زبان زنده

یکی از ویژگی‌های بسیار جذاب و کاربردی برای برنامه‌نویسان، اضافه شدن تگ‌های احساسی (Expressive Tags) است. حالا مدل‌های زبان (LLM) می‌توانند با ارسال تگ‌هایی مانند [laughs] (خندیدن)، [whispers] (زمزمه کردن) یا [sighs] (آه کشیدن) در متن، به موتور ElevenLabs دستور دهند تا دقیقاً در همان لحظه از کلام، این واکنش‌های انسانی را پیاده‌سازی کند.

علاوه بر این، قابلیت Expressive Mode اکنون ظرافت‌های احساسی را در بیش از ۷۰ زبان زنده دنیا توسعه داده است و مشکل عدم درک لحن در زبان‌هایی مانند هندی و ژاپنی را که پیش از این در مدل‌های Flash وجود داشت، برطرف کرده است.

جدول تحلیل هزینه و کاربرد قابلیت Expressive Mode

با وجود اضافه شدن این قابلیت‌های پردازشی سنگین، سیاست قیمت‌گذاری ElevenLabs تغییر نکرده است که این یک خبر عالی برای کسب‌وکارهاست:

ویژگی مورد بررسیمشخصات در آپدیت جدید (Expressive Mode)
هزینه پردازش (قیمت‌گذاری)۰.۰۸ دلار به ازای هر دقیقه (بدون افزایش قیمت نسبت به مدل‌های قبلی)
مدل پایه استفاده شدهEleven v3 Conversational (بهینه‌شده برای گفتگوی زنده)
ابزار درک احساسات کاربرمدل Scribe v2 Realtime
بهترین سناریوی استفادهکال‌سنترها، پشتیبانی مشتریان، ایجنت‌های درمانی و بازی‌های ویدیویی تعاملی

نتیجه‌گیری: عبور از ربات‌های بی‌روح

قابلیت Expressive Mode در ElevenLabs به ما نشان داد که سال ۲۰۲۶، سالِ گذار از هوش مصنوعی «باهوش» به هوش مصنوعی «بااحساس» است. اگر صاحب کسب‌وکاری هستید که بخش پشتیبانی مشتریان دارد، استفاده از این API با هزینه مقرون‌به‌صرفه ۰.۰۸ دلار در دقیقه، می‌تواند نرخ رضایت مشتریان (CSAT) شما را به شدت افزایش دهد. دیگر نیازی نیست مشتریان شما احساس کنند که در حال حرف زدن با یک ماشینِ برنامه‌ریزی‌شده هستند.

نکسینو در شبکه‌های اجتماعی:
فهرست مطالب

بلاگ های اخیر

نمایش موج صوتی احساسی و تگ‌های هوش مصنوعی در ElevenLabs Expressive Mode

قابلیت Expressive Mode در ElevenLabs: صدای هوش مصنوعی با احساسات انسانی (آپدیت ۲۰۲۶)

ترکیب مدل‌های لوکال و ابری برای برنامه‌ نویسی

استراتژی ترکیبی برنامه‌ نویسی با هوش مصنوعی: کاهش هزینه‌ها با Qwen3، Gemma 4 و Claude

اتصال هوش مصنوعی عکس‌ساز Nano Banana 2 Lite و ویدیوساز Gemini Omni Flash گوگل

معرفی Nano Banana 2 Lite و Gemini Omni Flash: انقلاب مقرون‌به‌صرفه گوگل در تولید عکس و ویدیو (۲۰۲۶)