Центр Речевых Технологий создал первую технологию по распознаванию слитной русской речи

Компания «Центр Речевых Технологий» первой в истории завершила работу над технологией распознавания слитной русской речи на 30,000 словоформ – «Руссограф». Инновационная разработка российской компании открывает новые возможности в общении человека с техникой на русском языке. Работы над проектом продолжались более 3 лет, а собственные инвестиции компании в разработку составили порядка $5 млн. Новая технология позволит компании выйти на рынок с целым рядом принципиально новых продуктов.

Оригинальная российская технология распознавания «Руссограф» создавалась с учетом фонетических и грамматических особенностей русского языка. Существующие на западе системы распознавания созданы для работы с английским, испанским и другими популярными языками и малоприменимы в работе с русской речью. Это связано с тем, что русский язык принципиально отличается от других языков не только фонетически (например звуком «ы»), но и свободным порядком слов в предложении, что значительно усложняет математическое моделирование речи. В результате использование западных технологий для качественного распознавания русской речи не представляется возможным.

Для разработки технологии «Руссограф» ЦРТ создал научно-исследовательскую группу из специалистов в лингвистике, фонетике, математике, обработке сигналов и программировании. Для работы над проектом в ЦРТ использовали уникальный для России набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом 5 диалектных групп русского языка. Эти базы были использованы для создания акустических моделей звуков русской речи. Для создания языковых моделей в ЦРТ была собрана текстовая база русского языка объемом 35 миллионов слов. Поскольку создание качественной системы распознавания невозможно без обширных экспериментальных исследований, в ЦРТ был развернут мощный вычислительный кластер с производительностью около 1012 операций в секунду. Важной частью проекта стало создание базового речевого декодера, который используя оригинальные акустические и языковые модели русского языка преобразовывает речевой сигнал в текст.

Промышленное внедрение технологии распознавания «Руссограф» отрывает новые возможности голосового управления компьютерной и бытовой техникой, промышленным оборудованием и транспортом; управления службами и сервисами по телефону; систематизации фонограмм и поиска по аудио архивам, а также обеспечения безопасности людей и объектов. Особенно актуальной новая разработка может стать для тех русскоговорящих людей, чьи физические возможности ограничены.

Сейчас ЦРТ работает над аппаратной реализацией технологии. Уже в 2008 году компания предложит несколько продуктов построенных на основе технологии распознавания, в частности систему интерактивного голосового управления для контакт центров, а так же системы управления промышленными объектами.

В перспективе компания планирует создание на базе технологий распознавания и синтеза карманного переводчика устной русской речи. Данный продукт может быть подготовлен уже к Олимпиаде-2014 в Сочи. Таким образом, участники и гости Олимпиады из разных стран смогут говорить и понимать друг друга без посторонней помощи, даже не зная иностранного языка.

Напомним, что в начале этого года, в своих прогнозах на развитие компьютерных технологий второго цифрового десятилетия, Билл Гейтс назвал создание естественного интерфейса одной из приоритетных задач человечества, отметив, что технологическое будущее – за голосовым управлением и распознаванием речи. Благодаря технологиям разработанным в ЦРТ, Россия вошла в число мировых лидеров в области речевых технологий.

«Технология распознавания русской речи «Руссограф», разработанная в ЦРТ, создает основу для создания целой линейки инновационных продуктов в одном из наиболее перспективных сегментов рынка. Думаю, очень скоро общение с компьютером и другой техникой с помощью русской речи будет так же естественно как разговор между двумя людьми» – говорит Генеральный директор «Центра Речевых Технологий» Михаил Хитров.

Справка

Центр Речевых Технологий – петербургская инновационная компания, разработчик высокотехнологичных решений и продуктов в области речевых технологий, записи и компьютерной обработки звука. ЦРТ является признанным лидером российского рынка речевых технологий и входит в тройку мировых технологических лидеров по компьютерной обработке голосовой информации.
      

Тематики: Интеграция, ПО

Ключевые слова: программирование, языки программирования, программное обеспечение, программное обеспечение Microsoft, программное обеспечение лицензия, разработка программного обеспечения, операционная система Windows, операционные системы, Unix, Linux, Windows, Windows Server 2003, Windows Vista, программы Windows, интеграция, системная интеграция, интеграция приложений, сервер, server, серверное оборудование, центр обработки данных, системы хранения данных, storage, системы хранения, управление проектами, бизнес-решение, информационные технологии, информационные системы, CRM, CRM-система, ERP-системы, SAP, ERP, внедрение CRM, внедрение, автоматизация, системы автоматизации, автоматизация процессов, автоматизация производств, автоматизация торговли, автоматизация учета, автоматизация управления, автоматизация бизнеса, автоматизация склада, автоматизация технологических, программы автоматизации, автоматизация предприятий, планирование производства, управление производством, система управления предприятием, система управления, управление предприятием, биллинг, Java, Java-приложения, разработки , разработка программ, центр разработки, автоматизация бизнес процессов, оптимизация бизнес-процессов, управление бизнес-процессами, автоматизация документооборота, автоматизация делопроизводства, система документооборота, система электронного документооборота, организация документооборота, электронный документооборот, документооборот предприятия, ECM, системный интегратор, хранение данных, серверные решения, серверные платформы, серверные системы, устройства хранения данных, сервер хранения данных, сеть хранения данных, база хранения данных, корпоративные системы хранения данных, организация хранения данных, управление хранением данных, технологии хранения данных, сетевое устройство хранения данных, Псков, Петрозаводск, Карелия, СЗФО, Северо-Западный федеральный округ, управление персоналом, система управления персоналом, Documentum, Lotus, , 1С:Предприятие, 1С 8, 1С 7.7, 1С 8.0, Microsoft, Майкрософт, Oracle, Санкт-Петербург, Petersburg, Петербург, Новгород, SQL, SQL Server, SQL сервер, MS SQL, Калининград, Мурманск, Вологда, Череповец, Ленобласть