Другим именем: в России создадут центр обезличивания данных для подготовки ИИ

03.07.2023 |

Источник: Известия

Минцифры России в 2024 году планирует создать внутри собственной информационной системы отдельный центр обезличивания персональных данных. В дальнейшем такие сведения будут использоваться для выполнения разных задач, включая обучение моделей искусственного интеллекта. Подробности о том, зачем нужны обезличенные данные и каковы перспективы их использования в России, выясняли «Известия».

На пути к центру

О том, что в составе Минцифры в 2024 году может появиться центр обезличивания, рассказал заместитель главы ведомства Александр Шойтов. По его словам, для создания центра вначале потребуется его макет — специальный программно-аппаратный комплекс. При этом в ходе создания модели будут проведены исследования в области обезличивания персональных данных.

Как сообщил Шойтов, первый вариант макета будущего центра на базе Национального технологического центра цифровой криптографии должен появиться в конце нынешнего года, а полноценный образец, в котором будут реализованы разные варианты исходных данных, появится к концу 2024 года. Работы над самим центром обезличивания будут идти параллельно — их также планируется закончить в 2024 году.

Замглавы Минцифры отметил, что при обезличивании данных есть две задачи. Первая — обеспечить невозможность достоверного установления по обезличенным данным исходной информации конкретного человека. Вторая — необходимо сохранять их в качественном виде для дальнейшего использования, в том числе обучения искусственного интеллекта.

Между тем сам вопрос обезличивания персональных данных считается довольно сложным не только с технической, но и с нормативной точки зрения. Именно поэтому в настоящее время в Госдуму внесен проект федерального закона, в котором предусматривается нормативное регулирование одного из подходов в этой области.

Анатомия данных

Как говорит в беседе с «Известиями» директор координационного центра доменов RU/РФ Андрей Воробьев, обезличивание персональных данных — это процесс удаления их части или их замена специальными идентификаторами. Цель таких действий — обеспечение невозможности определения принадлежности этой информации конкретному человеку.

— Основная цель обезличивания — вывод данных из-под действия Федерального закона «О персональных данных» от 27 июля 2006 года № 152-ФЗ, — объясняет Воробьев. — Это позволяет хранить и обрабатывать их без требуемой законом защиты, а также обменивать и продавать эти данные на рынке без согласия субъектов.

Руководитель группы защиты инфраструктурных IT компании «Газинформсервис» Сергей Полунин в качестве примера обезличивания данных приводит таблицу с ФИО людей и их датами рождения. Можно зашифровать первый столбец — и тогда в случае утечки, на выходе третьи лица получат лишь набор символов, которым соответствует какая-то календарная дата. Однако на практике способов обезличивания гораздо больше.

— Данные считаются обезличенными, если для их персонализации необходимо слишком много времени, усилий, денег или ресурсов, — отмечает IT-специалист и генеральный директор компании ProControl Станислав Сидоров.

По словам руководителя направления мониторинга и аналитики Innostage Ксении Рысаевой, на сегодняшний день существует четыре основных метода обезличивания персональных данных. Первый из них — замена состава или семантических особенностей этих данных: в таком случае производится удаление части информации, не имеющей пользы, ее замена на анонимизированные данные или обобщение.

Второй способ — использование идентификаторов вместо конкретной информации. В результате создается особая таблица, где обозначены коды и их расшифровка. Такой метод при наличии соответствующего доступа позволяет восстановить изначальный объем и содержание персональных данных.

— Третий способ — это декомпозиция, разделение общего массива на то или иное количество блоков, — рассказывает Рысаева. — Суть в том, что, имея доступ лишь к части информации, невозможно понять, какому именно субъекту она принадлежит.

Наконец, четвертый способ обезличивания персональных данных — это их перемешивание до того момента, когда становится нереальным определить, о чьих именно данных идет речь.

— Зачастую обезличивание персональных данных преследует рекламные цели, — объясняет Андрей Воробьев. — Персональная часть — допустим, имена и фамилии — заменяются на цифровые идентификаторы.

В качестве примера специалист приводит базу сервиса WHOIS, который предоставляет информацию о регистрации доменных имен. Там персональные данные администраторов — физических лиц — скрыты и заменены статусом private person. А при обработке cookie-файлов персональные данные часто вообще не собираются, зато сохраняется информация о поведении пользователя на сайте, которая позволяет затем показать ему рекламу с учетом персональных особенностей.

Области применения

По словам специалистов, опрошенных «Известиями», сегодня обезличенные данные пользователей находят применение в самых разных областях. Сергей Полунин объясняет, что порой возникают ситуации, когда уничтожать информацию нельзя, а организовать ее правильное хранение либо в принципе невозможно, либо слишком затратно.

— Например, вы тестируете новое банковское приложение, которое работает с огромными пользовательскими массивами данных, — объясняет специалист. — С одной стороны, вы не можете отдать эти данные разработчикам, а с другой — тестировать продукт без данных не имеет смысла. Тогда-то и появляется необходимость в реальных, но обезличенных данных.

Как отмечает Станислав Сидоров, такие данные сегодня используются в широком спектре областей — от маркетингового анализа до медицинских исследований. Поскольку они не содержат личной информации, их можно безопасно использовать для анализа трендов, паттернов и других массовых явлений, не нарушая прав на конфиденциальность пользователей. Наконец, обезличенные персональные данные играют важную роль в обучении ИИ — в частности, прогностических, которые предсказывают потребительское поведение пользователей.

— Используя обезличенные данные, системы ИИ могут обучаться на реальных примерах без риска нарушения конфиденциальности, — рассказывает Сидоров. — Это позволяет создавать более точные и надежные модели, поскольку они основаны на реальных данных, но при этом не нарушаются законы о защите данных.

По мнению Сергея Полунина, для обучения искусственного интеллекта обезличенные данные подходят не хуже обычных, если правильным образом проводить обучение. При этом сам ИИ позволяет обезличивать данные куда эффективнее, чем все известные алгоритмы.

Задачи Минцифры

Между тем Андрей Воробьев указывает на то, что ИИ под силу провести операцию, обратную обезличиванию данных, — так называемую деанонимизацию.

— При необходимости системы на основе ИИ могут с высокой точностью привязать изученные поведенческие паттерны к базе, в которой присутствуют персональные данные, — например, по персонализированным корзинам интернет-магазинов опознать пользователей, которые делали покупки в других магазинах, и данные, которые ранее были обезличены, — объясняет собеседник «Известий».

Что касается создания центра обезличивания персональных данных внутри информационной системы Минцифры, то, по мнению Воробьева, такая структура позволит гарантированно обезличивать критичные государственные данные, утечка которых могла бы привести к тяжелым последствиям. При этом разработчики смогут обучать свои ИИ на обезличенных данных, но под строгим контролем Минцифры.

— Не исключено, что речь также идет о создании изолированной экосистемы, которая должна придать дополнительные возможности ИИ-проектам, разрабатываемым под патронажем ведомства, — отмечает специалист.

В свою очередь Сергей Полунин называет создание центра на базе Минцифры назревшей необходимостью: дело в том, что государственные информационные системы уже сейчас работают с колоссальными массивами данных. И появление отдельной структуры, которая возьмет на себя эту работу, а также взаимодействие с субъектами, которым требуется доступ к этим данным, было лишь вопросом времени.

Полунин считает, что, поскольку сегодня Россия взяла курс на цифровизацию, работа центра будет востребована. При этом для грамотной интеграции с ним всех государственных информационных систем, а также подключения к нему коммерческих предприятий неизбежно потребуется найти баланс между удобством и безопасностью.

— Перспективы работы центра обезличивания данных в России зависят от многих факторов, включая законодательную базу и готовность индустрии к такому подходу, — заключает Станислав Сидоров. — В общем и целом, это направление кажется очень перспективным, учитывая растущую потребность в безопасной обработке больших данных для исследований и обучения ИИ.

Дмитрий Булгаков