Обезличенные данные о гражданах пойдут на обучение государственных ИИ-систем

По итогам проведенного в конце 2021 года совещания Правительства РФ с руководителями министерств и ведомств по планам их цифровой трансформации – Министерству цифрового развития выдано поручение разработать до начала февраля план-график по обезличиванию государственных данных, собранных ранее в рамках работы министерств. Ответственным за подготовку и согласование графика создания дата-сетов министерств и ведомств назначен Максут Шадаев, глава Минцифры.

Собранные и обезличенные данные планируется в дальнейшем предоставлять бизнес-компаниям для разработки ими экспертных систем на базе искусственного интеллекта (ИИ). Регламенты, по которым сторонние коммерческие компании смогут получить доступ к обезличенным госданным, еще не детализированы. Известно, что в обмен компании смогут стать партнерами в развитии системы госуслуг.

Планы будущего сотрудничества, а также тарифы за использование государственных обезличенных данных будут выработаны в процессе подготовки план-графика. В дальнейшем эти планы будут детализироваться.

Исходные данные, которые будут обезличены для предоставления бизнес-компаниям, были подготовлены в 2021 году. По данным Минцифры, к настоящему времени подготовлены уже 26 ведомственных дата-сетов. Известно, что стадии готовности для использования сторонними разработчиками в своих бизнес-решениях достигли пять дата-сетов: информация, собранная в Росреестре, Минвостокразвития, Россельхознадзоре, ФНС России и Росстате. Остальные дата-сеты были подготовлены для внутреннего использования в  министерствах в рамках выполнения ими задач по цифровой трансформации. Пока они могут использоваться только для внутренних нужд ФОИВов, а для готовности для обезличивания потребуется еще время.

Собранные дата-сеты данные должны быть обезличены таким образом, чтобы исказить оригинальную информацию и сделать невозможным любое восстановление связей с персональными данными. Это позволит сохранить их в неприкосновенности. Будет также обеспечена безопасность для конфиденциальной информации, сведений, имеющих коммерческую тайну, которые имеются в собранных дата-сетах.

В результате обезличивания должны быть получены данные, которые пригодны для свободного (контролируемого) распространения. Созданные массивы информации будут отражать специфику реальной оригинальной информации, собранной в министерствах, но восстановление связей с их источниками будет практически невозможно.

При подготовке план-графика будут также включены мероприятия будущего тестирования созданных дата-сетов. Планируется проводить их на хакатонах по ИИ.

В план-графике будут отражены также планы по выработке необходимых изменений в законодательстве. Они несомненно потребуются, чтобы разработчики будущих решений на базе ИИ могли на законных основания получать доступ к созданным государственным дата-сетам. Потребуется также урегулировать вопросы применения технологии обезличивания данных, чтобы исключить возможную компрометацию данных после преобразования.

Созданные дата-сеты будут размечены определенным образом. Это позволит считывать их для использования при обучении нейронных сетей. Благодаря этому, коммерческие компании и некоммерческие организации смогут создавать новые сервисы, востребованные на рынке. Указанные дата-сеты будут пригодны только для обучения ИИ-систем – иных целей их применения не предусматривается. Ожидается, что этот шаг позволит ускорить разработку новых продуктов и их вывод на рынок, будет способствовать дальнейшей цифровизации страны.

Появление на рынке дата-сетов обезличенных данных позволит решить множество задач, которые до сих пор могли быть решены только за счет экспертных, но субъективных мнений. С помощью таких дата-сетов можно оценивать востребованность инвестиционных бизнес-проектов, рассчитывать тарифы на различные услуги и пр.

Планируется в дальнейшем создать единый репозиторий (хранилище) отраслевых дата-сетов. Потребуется разработать единые правила для работы с этими данными. Для удобства доступа к данным потребуется разработать также единый интерфейс, чтобы данные могли быть предоставлены в удобном и понятном виде. С учетом того, что информация в разных министерствах обычно собиралась с использованием различных систем, эта задача будет не из легких.

О планах создания единого государственного «озера данных» (Data Lake) упоминалось еще в конце 2021 года. Тогда Максут Шадаев упоминал о появлении маркетплейса дата-сетов. Работы по их созданию станут приоритетными для работы Минцифры в 2022 году. В то же время отмечалось, что законопроект о порядке обезличивания персональных данных был внесен в Госдуму еще летом 2020 года, но до сих пор не принят. Поэтому сроки практической реализации этих планов могут быть сдвинуты на неопределенное время.

Автор: Игорь Новиков.

Тематики: Регулирование

Ключевые слова: регулирование, персональные данные, Минкомсвязь