Эксперты «Сколково» предложили писать законы с помощью big data. Звучит очень инновационно, но с тех пор, как лет пять назад все стали говорить о больших данных, появилось немало аргументов против их использования. Или, по крайней мере, против того, чтобы считать их панацеей от всех бед. Подробности — в материале «Известий».
Идею анализировать большие массивы информации для корректировки действующих законодательных норм прокомментировал для РБК глава департамента по развитию фонда «Сколково» Сергей Израйлит. Он подчеркнул, что «обозначенные темы в настоящее время еще не прошли экспертное обсуждение».
Сергей Израйлит, глава департамента по развитию фонда «Сколково»:
«Основная идея регулирования заключается в том, чтобы своевременно вносить изменения в регулирование, чтобы оно не вредило экономическому состоянию тех или иных субъектов. Например, если у граждан есть спрос на проезд и остановку транспорта в каком-то определенном месте, то в результате запрета остановки может сократиться поток клиентов в магазины и рестораны. В итоге снизится инвестиционная привлекательность всего района. За счет накопленных на цифровых платформах данных, например сервиса «Яндекс.Карты», можно связать регуляторные решения с реальным спросом и создать более эффективную модель регулирования.»
По мнению Израйлита, такая модель будет эффективнее сегодняшней практики, когда нормы создаются только на основе человеческого анализа и пожеланий заказчика.
Звучит это очень здраво, особенно в таком герметичном случае, который описал глава департамента фонда. Одна остановка, один перекресток и анализ потока людей в этом месте. Но вряд ли нацпрограмма «Цифровая экономика», частью которой может стать высказанная в «Сколково» идея, разрабатывалась для решения только таких сугубо локальных проблем.
Никто толком не знает, что такое большие данные. Вернее, никто не может определить, где кончаются маленькие и начинается большие. Все более-менее сошлись на том, что это массивы информации, анализ которых может дать какие-то закономерности.
Например, есть информация о темпах экономического роста, изменении численности населения, его социальной активности и о том, как за этот промежуток времени менялись курсы валют. Значит, можно попробовать найти закономерности и предсказать, как будет меняться курс валют в будущем? Или предсказать следующий кризис? Нет.
Можно, конечно, попробовать, но это, скорее всего, будет бессмысленно. Потому что, во-первых, колебания курсов валют зависят не только от упомянутых факторов, а от каких еще — есть разные теории. Во-вторых, не всегда информация о том, что было в прошлом, дает понимание того, что будет в будущем. Так, весь предыдущий опыт животных, выращиваемых на мясокомбинате, говорит им, что их всегда будут сытно кормить.
Метафора с мясокомбинатом принадлежат экономисту Нассиму Николасу Талебу. Он использовал ее в книге, посвященной тому, почему невозможно спрогнозировать случайности. Высказывался Талеб и конкретно про большие данные. В интервью Wired экономист жалел компании, которые под влиянием модного (уже сколько лет) термина собирают огромные массивы данных и ищут в них корреляции. При этом не понимают, что большие объемы информации могут стать источником возникновения ложных связей.
Нассим Николас Талеб, экономист, писатель:
«Если взять набор из случайно выбранных 200 переменных, которые никак не связаны между собой, и присвоить им 1000 информационных параметров, то будет практически невозможно не найти при дальнейшем анализе какое-то количество статистически обоснованных корреляций. Но на самом деле эти корреляции будут ложными, поскольку никакой связи между переменными никогда не было.»
Но вопрос не только в том, чтобы выбрать правильные переменные для анализа. Нужно еще и правильно эти переменные анализировать.
Математические модели анализа больших данных создаются так же, как и законодательные нормы, по выражению Сергея Израйлита. На основе человеческого анализа и пожеланий заказчика.
Кэти О’Нейл, американский математик и борец за права человека (очень уж сложно феминитивы к этим словам подобрать), рассказывала на форуме Personal Democracy Forum, как пыталась понять методику оценки эффективности преподавателей в США. Она основана на big data.
Ее подруга, преподаватель из спецшколы с углубленным изучением естественных наук и математики, решила изучить этот алгоритм. Сначала в министерстве образования Нью-Йорка просто отказали. По словам О’Нейл, учительнице сказали: «Вы ничего не поймете, это же математика!»
Женщина настаивала и получила брошюру, в которой описывалась методика. Но «документ оказался слишком абстрактным для того, чтобы прояснить ситуацию». И О’Нейл написала официальный запрос, ссылаясь на закон США о свободном доступе к информации. Но получила отказ.
Кэти О’Нейл, математик и борец за права человека:
«Позднее я узнала, что научно-исследовательский центр в Мэдисоне, штат Висконсин, который разрабатывает эту аналитическую модель, заключил контракт, согласно условиям которого ни у кого нет права заглянуть внутрь алгоритма. Никто в министерстве образования Нью-Йорка не понимает, как работает эта модель. Учителя не знают, на каком основании им ставят те или иные оценки, и что нужно сделать, чтобы их повысить, — им никто ничего не может и не хочет объяснить.»
Сейчас у действующих в России законов по крайней мере есть авторы. А так будут алгоритмы, которые, во-первых, могут быть составлены неправильно. Во-вторых, они вряд ли будут опубликованы на портале «Открытого правительства». И не зная их, невозможно оспорить справедливость скорректированных таким образом законов.
Существует вероятность, что те, кто будут (если идея станет частью программы «Цифровая экономика»), так вот те, кто будут корректировать действующие законодательные нормы с помощью больших данных, всё сделают правильно: и переменные нужные подберут, и алгоритм хороший напишут.
Но на нынешнем этапе развития технологии проблемы на этом не кончатся. Во-первых, при внесении данных в программу для анализа человек может ошибиться и вписать что-то не то. Во-вторых, кажущиеся правильными алгоритмы могут не справляться с новыми данными, хотя с теми, на которых их учили и испытывали, всё было в порядке. Это называется «переобучение», когда программа сама, без помощи человека, обнаруживает ложные корреляции в старых данных. И, не имея возможности сделать этого с новыми данными, выдает бессмысленные выводы. И в-третьих, машины, на которых будут работать программы, могут оказаться банально слабыми.
Есть и еще одна большая проблема с обсуждаемым нововведением. То, из каких данных будет состоять анализируемая big data. В сколковской концепции говорится, что на законодательном уровне необходимо определить понятие «цифрового следа» как совокупности данных о «действиях пользователя в цифровом пространстве».
Вопрос конфиденциальности обсуждается столько же, сколько сами большие данные. Потому что от того, насколько данные в массивах уникальны, а значит и приватны, зависит, насколько уникальные выводы может сделать алгоритм.
«Сколково» выступает за то, чтобы делить активный и пассивный цифровой следы. И регламентировать использование только активного. Это информация, которую пользователь оставляет в социальных сетях и личных кабинетах на сайтах, включая портал госуслуг и банковские ресурсы. К ней относятся Ф.И.О., дата рождения, контакты, место работы, личные фото и видео.
Пассивный цифровой след в «Сколково» предлагают вынести за скобки закона. Это данные, которые оставляются ненамеренно или вследствие работы соответствующего ПО — то как и какими сервисами пользуется человек.
И даже в локальном случае использования big data, описанном Сергеем Израйлитом, речь идет о пассивном цифровом следе. О данных о перемещениях водителей, которые используют карты «Яндекс.Карты». Водители, не глядя, соглашаются делиться этим пассивным следом с компанией. А она, вероятно, будет отдавать их машинам-законотворцам.
Игнат Шестаков