Microsoft собирает в Петербурге образцы почерков

Компания Microsoft приступила к работе над созданием программы распознавания русского рукописного текста. Для этого корпорацией проводится сбор почерков. Центр этой активности развернут в Петербурге – на базе Инновационного центра института систем управления БГТУ "Военмех". Сбор начался в апреле 2005 года и продлится до декабря 2005 года.

Корпорация Microsoft, основанная в 1975 году, является мировым лидером в производстве программного обеспечения, предоставлении услуг и разработке интернет-технологий для персональных компьютеров и серверов. С ноября 1992 года в России действует представительство Microsoft (с июля 2004 года – ООО «Майкрософт Рус»), в задачи которого входит продажа и продвижение программного обеспечения, развитие рынка информационных технологий, внедрение и локализация новейших технологий на территории России. Впервые распознаватель рукописного текста Calligrapher был установлен Microsoft на первой версии Apple Newton. Непосредственное отношение к разработке имела русская компания «Параграф», занимавшаяся распознавателями. В дальнейшем «Параграф» был куплен SGI (Silicon Graphics, Incorporated), затем перекуплен компанией Vadem, у которой его и приобрела корпорация Microsoft.

Новая программа по распознаванию почерков разрабатывается для операционной системы Windows XP Tablet PC Edition, выпущенной в августе 2004 года специально для Tablet PC. Как рассказал на посвященной проекту пресс-конференции системный инженер петербургского офиса Microsoft Александр Шаповал, особенность этой ОС образца 2005 заключается в расширенной поддержке рукописного ввода при помощи цифрового пера. Планшетные компьютеры с WindowsXP Tablet PC Edition 2005 гораздо более функциональны, чем обычные мобильные компьютеры, – они позволяют вводить текст и изображения с обычной и виртуальной клавиатур, а также при помощи цифрового пера. Операционная система локализована для всех языков V1, включая английский, французский, греческий, японский, китайский, корейский. В 2005 году осуществлена локализация для испанских и итальянских пользователей. В стадии разработки находятся распознаватели русского, голландского, португальского, шведского, датского, норвежского и финского языков.

О работе центра сбора данных, расположенного в Инновационном центре института систем управления БГТУ «Военмех», рассказал координатор центра Стас Пивинский. Ежедневно сюда приходят и оставляют образцы своих почерков более 20 человек разного пола, возраста и социального положения. Каждый из них заполняет на планшете при помощи стилуса ряд форм, что по времени занимает примерно полчаса. Всего необходимо собрать порядка 4 тыс. образцов почерка. На данный момент количество собранных образцов превышает 2 тыс.

Сбор почерков для распознавателя русского языка ведется в 2 этапа. На первом этапе, который прошел в апреле 2005 года, участникам исследования предлагалось написать мини-сочинения на темы из разных областей. Полученная информация была проанализирована, и на основе сделанных выводов был разработан набор фраз, отражающий различные языковые явления. Этот набор фраз используется на втором этапе сбора данных, который ведется в настоящее время и закончится в декабре 2005 года. В рамках него респонденты заполняют своим почерком формы заданным текстом. Специально для сбора почерков группой по разработке программы распознавания было создано приложение Microsoft Handwriting Collector.

Модуль распознавания русского рукописного текста будет создаваться командой по распознаванию рукописного текста Microsoft Handriting Recognition Team в штаб-квартире корпорации в Рэдмонде. Разработанный штатный модуль будет включен в будущую версию Tablet PC Edition. Ориентировочно это произойдет в течение 2006 года, после того как будет выпущена новая операционная система Windows Vista. По прогнозам специалистов Microsoft, появление программы распознавания русского рукописного теста, соответствующей функционалу Windows XP Tablet PC Edition 2005 и следующей версии ОС, вызовет рост количества пользователей планшетных компьютеров в России. Об этом позволяет говорить опыт аналогичных проектов в других странах.

Автор: Анна Тумакова.

Тематики: ПО, Outsourcing

Ключевые слова: