Обновление голосового ассистента ChatGPT: новые возможности и технологии

25.03.2025 |

Александр Абрамов

Изображение с сайта openai.com

Компания OpenAI представила значительное усовершенствование голосового ассистента ChatGPT, существенно расширив его аудиовозможности. Новые модели делают взаимодействие с голосовым помощником более естественным, гибким и технологичным.

Ключевые нововведения

Обновление включает передовые аудиотехнологии, которые позволяют:

Осуществлять высокоточное распознавание речи в реальном времени
Генерировать речь с настраиваемым эмоциональным окрасом
Адаптировать голосовой интерфейс под различные сценарии использования

Преимущества для пользователей

Пользователи теперь могут рассчитывать на:

Более естественный диалог без резких прерываний
Живую и выразительную речь ассистента
Гибкую настройку стиля речи через текстовые инструкции

Возможности для бизнеса

Новая технология открывает широкий спектр применений:

Создание продвинутых голосовых интерфейсов для колл-центров
Разработка образовательных приложений с интерактивным голосовым взаимодействием
Интеграция в e-commerce решения

Тарификация API

Стоимость использования новых аудиомоделей:

Распознавание речи gpt-4o-transcribe: $0,006 за минуту
Экономичное распознавание gpt-4o-mini-transcribe: $0,003 за минуту
Озвучивание текста gpt-4o-mini-tts: $0,015 за минуту аудио + $0,0006 за текст

Этический аспект

После инцидента с предполагаемым заимствованием голоса актрисы Скарлетт Йоханссон OpenAI усилила контроль за голосовыми моделями. Теперь пользователи могут самостоятельно настраивать голосовые параметры, исключая возможность имитации конкретных личностей.

Обновление демонстрирует стремление OpenAI сделать голосовые технологии более точными, персонализированными и этичными.