Давай с тобой поговорим. ЦРТ представил «Руссограф»

30.01.2008 |

Дарья Тренина

Петербургская компания «Центр Речевых Технологий», разработчик высокотехнологичных решений и продуктов в области речевых технологий, объявила о создании технологии по распознаванию слитной русской речи «Руссограф». Работы над проектом продолжались более 3 лет, а собственные инвестиции компании составили порядка $5 млн. На сегодняшний день компания уже получила ряд заявок на приобретение будущих продуктов на основе новой технологии.

«Центр речевых технологий» (ЦРТ) специализируется в области разработки электронной техники и программного обеспечения для высококачественной записи, обработки и анализа звуковой информации. Штат компании, включая ученых, составляет порядка 200 сотрудников. С момента создания в 1990 году специалисты ЦРТ производят и поставляют продукцию для подразделений МВД, МЮ, МЧС, МО, служб экстренной помощи, центров обработки вызовов, производителей средств связи и других. Основными клиентами компании являются организации, в деятельности которых особое значение придается передаче, регистрации и обработке речевой информации. ЦРТ является соучредителем консорциума «Российские речевые технологии», членом Русского биометрического общества, членом Совета инновационной образовательной программы СПбГУ (национальный проект «Образование»), соредактором Международного речевого биометрического стандарта от Российской Федерации. Более одной трети объема выпускаемой продукции компании реализуется за пределами России в 62 странах мира. В числе отечественных заказчиков ЦРТ - аппарат Администрации Президента РФ, Совета Федерации РФ, Правительства РФ, органы исполнительной и законодательной власти субъектов Федерации.

На днях компания «Центр Речевых Технологий» завершила работу над технологией распознавания слитной русской речи на 30 тыс. словоформ – «Руссограф». Инновационная разработка российской компании открывает возможности в общении человека с техникой на русском языке. Работы над проектом специалистами-разработчиками продолжались около 3 лет. Инвестиции, привлеченные собственными силами компании на разработку технологии, составили около $5 млн.

Оригинальная российская технология распознавания «Руссограф» создавалась с учетом особенностей русского языка. «На западе уже существует ряд разработок систем распознавания. Такие системы предназначены для работы с английским, испанским и другими популярными языками. Что же касается русского языка, то здесь эти технологии не работают за счет языковой специфики - как фонетической, так и грамматической. Это значительно усложняет математическое моделирование речи. В результате использование западных технологий для качественного распознавания русской речи не представляется возможным», - прокомментировал генеральный директор компании «Центр Речевых Технологий» Михаил Хитров. Для разработки технологии «Руссограф» ЦРТ создал научно-исследовательскую группу из специалистов в лингвистике, фонетике, математике, обработке сигналов и программировании, штат которых в компании насчитывает около 80 человек. Для работы над проектом в ЦРТ использовали набор речевых баз данных, в который входят записи более чем 3 тыс. дикторов общей длительностью около 300 часов, собранных с учетом 5 диалектных групп русского языка. Эти базы были использованы для создания акустических моделей звуков русской речи. Для создания языковых моделей в ЦРТ была собрана текстовая база русского языка объемом 35 млн слов. Поскольку создание качественной системы распознавания невозможно без обширных экспериментальных исследований, в ЦРТ был развернут мощный вычислительный кластер с производительностью около 1012 операций в секунду. Важной частью проекта стало создание базового речевого декодера, который, используя оригинальные акустические и языковые модели русского языка, преобразовывает речевой сигнал в текст.

По мнению специалистов компании-разработчика, в качестве потенциальных заказчиков
технологии распознавания «Руссограф» можно рассматривать компании как промышленного, так и потребительского, образовательного, ИТ и других рынков. Особенно актуальны будут технологии распознавания слитной русской речи для людей с ограниченными физическими возможностями. «Руссограф» предоставляет возможности голосового управления компьютерной и бытовой техникой, промышленным оборудованием и транспортом, управления службами и сервисами call-центров, систематизации фонограмм и поиска по аудиоархивам, а также обеспечения безопасности людей и объектов.

Сейчас ЦРТ работает над аппаратной реализацией технологии. Уже в 2008 году компания предложит несколько продуктов, которые будут построены на основе технологии распознавания, в частности, систему интерактивного голосового управления для контакт-центров, а так же системы управления промышленными объектами.

В перспективе компания планирует создание на базе технологий распознавания и синтеза карманного переводчика устной русской речи. Переводчик будет записывать информацию через микрофон, затем интерпретировать и выдавать в качестве реплики пользователю на понятном ему языке, после чего будет происходить обратный процесс. В результате люди будут иметь возможность общаться без посторонней помощи, не владея языком собеседника. Данный продукт может быть подготовлен уже к Олимпиаде-2014 в Сочи.

О планах по продвижению новой технологии и развитию компании рассказал Михаил Хитров: «Сегодня компания «Центр Речевых Технологий» активно участвует в различных мероприятиях. В их числе плотное сотрудничество с образовательным сектором. Например, в рамках сотрудничества с СПбГУ учреждены стипендии по результатам конкурсов нашего профиля. Компания заинтересована проводить в данном направлении обучающие семинары в целях ликбеза и актуализации технологий распознавания речи. Также в течение более 10 лет компания ежегодно участвует в крупных российских и международных выставках: Milipol Paris (Париж), «Интерполитех» (Москва), «Технологии безопасности» (Москва), «Охрана и безопасность» (Петербург); конференциях EAFS, InterSpeech, SpeCom, SpeechTek (США) и «Диалог» (Россия). Так и в марте этого года на выставке CeBIT в Германии (Ганновер) компания намеревается представить среди прочих также и новую разработку «Руссограф».

Среди разработок компании «Центр речевых технологий» отметим комплексы исследования фонограмм «Икар Лаб», системы автоматизации фоноучетов и экспресс-исследований фонограмм речи «Трал-М», документирования выступлений «Нестор», а также устройства шумоочистки серии «Золушка» и другие. В контексте последних разработок отметим, что в декабре 2007 года компания «Центр речевых технологий» получила 152 млн руб. на разработку синтезатора русской речи, позволяющего озвучивать текстовую или цифровую информацию. К разработке привлечены специалисты СПбГУ.

Напомним, что одним из последних решений Microsoft, лидера разработок программного обеспечения, является создание интерфейса речевых приложений Speech API. И в начале этого года, в своих прогнозах на развитие компьютерных технологий второго цифрового десятилетия, Билл Гейтс назвал создание естественного интерфейса одной из приоритетных задач, отметив, что технологическое будущее за голосовым управлением и распознаванием речи.

В настоящее время технологиями распознавания речи занимается ряд компаний, подавляющее большинство которых - зарубежные. Поэтому из их числа сравнительно небольшое количество исследовательских групп специализируется на системах, которые применимы к русскому языку. В числе наиболее крупных - петербургский институт информатики и автоматизации РАН, Клуб голосовых технологий от МГУ, Sakrament (Минск), Microsoft Speech SDK и Lernout&Hauspie. Компания Conversay (США) предоставляет возможность организации получения информации из Интернета посредством голосовых команд. Компания Elan Informatique (Франция) занимается разработкой приложений для слепых и слабовидящих людей. На данный момент из программных пакетов, которые поддерживают русский язык, помимо разработки «Руссограф», отметим Microsoft Speech SDK, Lernout&Hauspie и разработка Digalo фирмы Elan Informatique.

По мнению аналитиков, если в целом объем мирового рынка речевых технологий в 2006 году оценивался, по данным компании Datamonitor, примерно в $5,6 млрд, то к 2010 году за счет резкого увеличения спроса на автоматизированные речевые технологии оборот увеличится в разы.