Как рассказали в Mail Cloud Solutions, технология распознавания звуков может использоваться во множестве сценариев: распознавание отдельных звуков в аудиопотоке (крики, выстрелы, шаги, звуки разбитого стекла, плач), очистка аудиозаписей от шумов, идентификация людей по голосам, повышение четкости голоса диктора, выявление неполадок в работе механизмов.
С помощью аудиоаналитики можно обрабатывать как архивные файлы, так и онлайн-потоки. В ряде ситуаций технология применяется как альтернатива видеонаблюдению: технология распознает звуки в полной темноте, а микрофоны стоят значительно дешевле камер и не требуют специальных условий для размещения и обслуживания.
Нейронные сети "компьютерного слуха" обучены на собственных датасетах Mail.Ru Group и работают на серверных мощностях компании. Специалисты компании сопровождают проект на всех стадиях реализации и дорабатывают его в соответствии с задачами заказчика.
"Не так давно Mail.Ru Group вышла на рынок компьютерного зрения, запустив проект Vision. Мы убедились, что решение востребовано, поэтому пошли дальше и дополнили зрение слухом. Новая технология позволит развить эффективность предложения в целом. Например, нестандартный шум или шорох на наблюдаемом объекте должен вызывать подозрение, если речь идет об охранных функциях. Это перспективное направление, которое сейчас активно развивается. По прогнозам исследовательской компании Research and Markets, к 2023 году объем рынка аудиоаналитики составит $18 млрд", – говорит заместитель вице-президента, руководитель направления облачных и бизнес-сервисов Mail.Ru Group Егор Ганин.
Наопмним, что ранее Mail.Ru Group объявила о выходе на рынок B2B-услуг в сфере компьютерного зрения с продуктом Vision. В его основе лежит машинное обучение, которое с помощью нейронных сетей обеспечивает распознавание различных одушевленных и неодушевленных объектов.
"Мы работаем над проектом Sound с начала 2018 года. Практически сразу после запуска сервиса компьютерного зрения Vision, мы поняли необходимость и в "слухе" — сервисе аудиоаналитики. Над разработкой данного продукта работали сотрудники компании и мы не привлекали дополнительных средств", – рассказал Егор Ганин.
По его словам, оплата сервиса рассчитывается индивидуально для каждого клиента в зависимости от решаемых задач и необходимости кастомизации. Расчет происходит по API и зависит от продолжительности обработанного аудио.
"Наибольший интерес к сервису аудиоаналитики сейчас проявляют логистические компании и складские комплексы. Несколько клиентов сейчас находятся на стадии испытания технологии. Рынок подобных услуг совсем молодой и аналогичных продуктов практически нет, поэтому сложно давать сегодня какие-то прогнозы", – подчеркнул Егор Ганин.
Егор Ганин также пояснил, каким образом происходит работа с сервисом со стороны клиента. "Все начинается с описания проекта и задач клиентом. Мы анализируем специфику бизнеса и предлагаем подходящие инструменты или разрабатываем индивидуальное решение. Мы можем предложить готовое API, которое клиент сможет интегрировать самостоятельно или решить задачу "под ключ", что потребует дополнительного бюджета со стороны заказчика", – добавил Егор Ганин.
Директор научно-исследовательского департамента ГК "Центр речевых технологий" (ЦРТ) и лидер проекта "Нейроухо" Кирилл Левин рассказал, что в ЦРТ есть решения, которые позволяют классифицировать звуковую сцену. "Так, искусственный интеллект сможет оценивать, где находится устройство – закрытое помещение, открытое пространство, что, например, справа от микрофона находится или железная дорога, по которой идет поезд, слева находятся люди — мужчина и женщина средних лет и спокойно разговаривают, впереди звуковой индикатор на светофоре разрешает пешеходам переходить дорогу и т.д.", – пояснил Кирилл Левин.
Кирилл Левин также рассказал, что у ЦРТ есть множество продуктов в области аудиоаналитики, работающей на базе нейронных сетей – от шумоочистки и повышения разборчивости звука, до поиска по ключевым словам в слитной речи. "Сейчас мы работаем над большим проектом объединения этих решений в платформу анализа звуковой среды, проще говоря — машинный слух — под названием "Нейроухо". Решение будет доступно через облачную платформу вместе с другими технологиями ЦРТ, например, той же видеоаналитикой", – добавил Кирилл Левин.
По словам Кирилла Левина, практически все крупные компании, проводящие исследования в сфере искусственного интеллекта и особенно – распознавания речи – так или иначе работают с этим направлением. Среди них Google, IBM, Microsoft, Amazon, Nuance, и другие компании. "Сейчас точно можно говорить об устойчивом спросе на речевую аналитику — она сейчас используется в большинстве крупных контактных центров, интерес к ней проявляет сфера ретейла", – пояснил Кирилл Левин.
Он также рассказал, что данная технология может помочь людям с ограничениями по слуху, работникам шумных производств: вовремя предупреждая об опасности, призывая обратить или повысить внимание через носимые гаджеты – "умные" очки, браслеты, смартфоны и так далее.
"Что касается анализа звуковой обстановки, распознавания шумов, регистрации акустических событий, то сферы применения таких технологий — робототехника, интернет вещей, телемедицина, умный дом, умный город. Большие перспективы у "НейроУха" в сегменте беспилотных автомобилей, где технология будет успешно дополнять машинное зрение", – подчеркнул Кирилл Левин
Как заметил Кирилл Левин возможностью встроить распознавание звуков в системы мониторинга интересуются производители медицинской техники. "Например, отслеживать здоровье пациента по звуку кашля, вызывать помощь, если регистрируется звук падения или просьба о помощи в сочетании с изменениями показателей сердечных мониторов и так далее".
Кирилл Левин также рассказал, что по данным аналитиков ЦРТ, в ближайшие 2-3 года отрасль аудиоаналитики на российском рынке будет развиваться с опережением среднерыночных темпов — более 25% в год.
София Бокитько