Соревнование Pump it Up: Data Mining the Water Table, в котором принимают участие студенты СПбГУ, было предложено открытой платформой Taarifa, агрегирующей данные Министерства водных ресурсов и ирригации Танзании. Разработчикам требовалось спрогнозировать работоспособность водяных насосов по всей стране на основе крайне малых данных — в среднем одна запись для каждого водяного насоса. Актуальность этой задачи связана с невозможностью вести непрерывный мониторинг всех водяных насосов в стране из-за отсутствия необходимой инфраструктуры или персонала, а иногда и обоих этих факторов. Однако четкое понимание того, какие точки водоснабжения выйдут из строя и когда, может улучшить операции по техническому обслуживанию и обеспечить доступность чистой питьевой воды для населения по всей Танзании.
Участники команды «Бутса и Студенты in spbu» — студенты бакалавриата Университета Тимофей Малов, Дмитрий Васильев, Артем Пешков, Мария Барковская и Директор Центра искусственного интеллекта и науки о данных СПбГУ, профессор Ованес Петросян предложили свое решение проблемы, с которым в настоящее время находятся в топе рейтинга разработчиков из университетов, научно-исследовательских организаций, а также IT-компаний всего мира.
Идея, на которой зиждется построенное универсантами решение, основывается на двух принципах. Режимы использования водяного насоса и среда, в которой он эксплуатируется, напрямую влияют на сроки его работы. При этом в условиях отсутствия данных режимы эксплуатации могут быть вычислены, исходя из плотности населения, а среда определяется погодными условиями и сопутствующими показателями. Построенный подход позволяет по косвенным признакам о месторасположении водяного насоса, дате установки и его типе делать предсказание его текущего состояния без какой-либо дополнительной информации. Как подчеркнул научный руководитель команды — директор Центра искусственного интеллекта и науки о данных СПбГУ, подобные принципы могут быть использованы и для других схожих задач предиктивной аналитики в условиях очень малого объема данных для объектов предиктивного анализа, распределенных географически по всей стране (например, трубопроводы и другое инженерное оборудование).
Профессор СПбГУ Ованес Петросян отметил, что сложность задачи, которую решали студенты, заключалась в том, чтобы найти принципиально новый научный подход к анализу данных и новое алгоритмическое решение задачи. «Студенты Санкт-Петербургского университета вошли в топ-3 наравне с разработчиком из Electronic Arts и профессором Королевского университета Канады, что говорит о высоком качестве подготовки студентов Университета. Для того чтобы справиться с задачами такого уровня, необходимо отличное знание не только науки о данных, но и статистики, и программирования, умение пользоваться современными новыми инструментами обработки данных, важно изучать современную литературу по теме исследования», — рассказал Ованес Петросян.
Санкт-Петербургский университет и Центр искусственного интеллекта и науки о данных СПбГУ поддерживают обучающихся, участвующих в индустриальных соревнованиях в области искусственного интеллекта. Согласно Приказу № 1954/1 от 27.02.2023, ежегодно для них проводится конкурс на получение стипендии, и Университет приглашает талантливых студентов подавать заявки на участие. Подробнее о Центре искусственного интеллекта и науки о данных СПбГУ, специфике его работы и стипендиальной программе читайте в журнале «Санкт-Петербургский университет».
Конкурс Pump it Up: Data Mining the Water Table продлится до октября 2024 года, новые и действующие участники могут подгружать новые варианты решения задачи. Участники команды «Бутса и Студенты in spbu» планируют предложить более эффективные решения и побороться за первое место в рейтинге. Команда, завоевавшая золото, войдет в мировой рейтинг ведущих специалистов по искусственному интеллекту. «Создание top-модели — это инсайт, свежий статистический подход или инструмент для анализа новых данных, позволяющий более эффективно и устойчиво выполнять миссию решения некоторых крупнейших социальных задач в мире», — подчеркнул профессор СПбГУ Ованес Петросян.
Платформа DrivenData проводит онлайн-соревнования по науке о данных, в которых любой желающий может проверить свои аналитические навыки, решая реальные индустриальные кейсы. После публикации данных организаторами соревнований любая команда сможет использовать их для построения модели, обучения алгоритмов ИИ и отправить свое решение в мировой рейтинг. Конкурсантам предоставляется обучающий набор данных и дополнительно публикуется набор тестовых данных, для которых участники должны сделать предсказание с помощью методов машинного обучения. Участники конкурса отправляют полученные прогнозы через автоматизированную систему организаторам, которые уже сравнивают их с фактическими значениями. По окончании соревнований команда, показавшая лучшие результаты, объявляется победителем.