Искусственный интеллект – не волшебная коробка: эксперт «Газпром нефти» о важности сэмплов цифровых продуктов

радио Sputnik

Интервью руководителя направления продвинутой аналитики и машинного обучения в «Газпром нефти» Анны Дубовик для радио Sputnik на всемирном цифровом саммите по интернету вещей и искусственному интеллекту в Казани.

Руководитель направления продвинутой аналитики и машинного обучения в «Газпром нефти» Анна Дубовик

— Как в информационном потоке о развитии нейросетей и искусственного интеллекта разобраться — где речь идет о реальных прорывах, а где обычный пиар?

— Мне кажется, что любая индустрия, будь то нефтяная отрасль, ИТ или даже возьмем ритейл — она должна давать сэмпл своих продуктов. Если вы приходите в магазин, вы можете отрезать колбасу, попробовать ее — точно так же и с ИТ. Если вам предлагают какое-то невероятно прекрасное решение, вы сразу должны спрашивать — а где я могу об этом почитать, где это описано, где потрогать. Важно помнить, что искусственный интеллект — это не волшебная коробка. Поэтому мы стараемся делать некоторый сэмпл своих продуктов, чтобы любая компания в мире, любые заказчики, подрядчики, другие разработчики могли посмотреть, как мы работаем и убедиться в том, о чем мы докладываем и презентуем.

Есть известная компания Nvidia, которая разрабатывает железо для того, чтобы делать нейронные сети. Их сервера и их карточки стоят очень дорого. Но они при этом все равно дают их другим компаниям на бесплатной основе, чтобы потестировать. Попробовали, не получилось — обсудили почему. Это огромные деньги, которые они тратят только лишь для того, чтобы распространить свое влияние в мир. Мы как компания делаем то же самое. Да, мы вложились большим количеством сил и работы, но мы хотим распространить свои разработки, потому что тогда индустрия действительно будет развиваться и применять, и привлекать правильное машинное обучение.

— А какие эффекты от этого можно получить?

— Самый яркий пример бесплатной реализации — это Google и их библиотека TensorFlow, которую они сделали и выложили в мир. Все, что сейчас происходит, в большинстве своем, с компьютерным зрением, в машинном обучении, обязано этому шагу. Вот представьте, насколько за последние 4 года индустрия шагнула бесконечно хорошо. Не сделали бы они, может быть, сделал бы кто-то другой. Но теперь они лидеры и на них все равняются. Поэтому сейчас, когда у нас есть такая возможность в своей отрасли закрепиться на этой позиции, мне кажется, это правильная стратегия.

— Какие компании сейчас в России на передовой в развитии искусственного интеллекта, большой ли разрыв с Google и другими мировыми мейджорами?

— Я знаю, согласно некоторым репортам, к примеру, Яндекс с их селфдрайвингом хорошо шагает и очень интересны на рынке. И в Яндексе точно так же есть своя открытая библиотека, по которой можно судить о качестве их работ. Действительно, есть прорыв, он ощущаем, он осязаем, он не только в пресс-релизах виден — он есть как продукт. Поэтому Яндекс, мне кажется, является таким большим примером. Есть много мелких компаний, есть даже некоторые исследовательские лаборатории. Я точно знаю, что в Сколтехе есть несколько компаний, которые реализуют небольшие задачи в области машинного обучения, но делают это очень качественно. И это самое важное — не масштаб, а именно качество.

— Есть ли какие-то единые стандарты и дорожные карты в области развития искусственного интеллекта, по которым сейчас работают мировые компании?

— Я знаю, что идет большая работа по созданию ISO-стандартов, которые существуют относительно всех других областей, но мне кажется, это не самое главное. Есть внутренние корпоративные стандарты, и они должны быть в любой компании. Это правила, по которым люди пишут код. Поэтому мы постарались пока в мягком режиме, но ввести у себя корпоративный стандарт. Он точно так же доступен в открытом доступе у нас в репозитории «Газпром нефть». Можно посмотреть какой стандарт написания моделей, описания моделей, датасетов, метрик. То есть, действительно, дает понимание другим компаниям, как мы работаем.

Наша компания ориентирована на партнерства, в том числе в технологической сфере. Благодаря нашему стандарту любая компания может работать с нами в едином формате и все наши приложения и разработки будут совместимы, не будет проблем с поддержкой кода, который пришел со стороны.

— А с какими сложностями уже может справляться искусственный интеллект и что ему будет по плечу в ближайшей перспективе, как вам представляется?

— Если мы говорим про индустрию — именно про нефтяную отрасль, то большинство частей огромной картины разработки месторождения и геологоразведки сейчас нашими разработками начинает покрываться. Нужно их связать в один процесс, чтобы это было почти без участия человека, чтобы человек был над процессом. Когда мы получили данные геологом или сейсморазведки — дальше все постепенно поэтапно модель за моделью обрабатывается и передается по цепи. Мы выстраиваем этот связанный процесс. Эксперт в этом случае действует как валидатор и поддержатель этих решений для того, чтобы можно было контролировать весь процесс. Это позволяет не только ускорять работы, но и переключить время специалистов на более интересные и сложные задачи, потому что этим богата нефтяная отрасль — можно находить новые паттерны и их добавлять в модель. А относительно всей индустрии, мне кажется, что искусственный интеллект уже настолько глубоко проник — он есть везде, есть у вас в телефоне, FaceID — все работает на нейросетях. Даже обрабатывать фотографии в Instagram сейчас принялись на алгоритмах, обученных, предобученных, которые делают вашу жизнь лучше, качественней и прекрасней. Поэтому это есть везде и дальше будет только больше.

— Преимущества искусственного интеллекта всем понятны и ясны, однако, технологии, в том числе, развиваются и те, которые используются в кибератаках. С какими рисками компаниям придется сталкиваться в перспективе?

— Есть неплохой пример из моей области — это генерирующие нейронные сети. Есть некоторая сеть, которая валидирует, есть сеть, которая пытается обмануть, есть сеть, которая пытается проверить не обманывают ли ее. И уже на множестве экспериментов было доказано, что сеть, которая пытается обмануть, долго и упорно будет бомбить до тех пока действительно не выиграет. Она все варианты проработает — это может быть очень долго, но нет чего-то абсолютно безопасного и 100% защищенного. Но есть определенные гайдлайны, которым нужно придерживаться. Это касается и правил кода, и правил организации структур данных, и ваших серверов, всего, что вы храните.

— Получается так, что к этому надо в любом случае быть готовым, да?

— Да, чтобы отразить кибератаки и спасти самое важно. Потому что, если самое важное случилось, то атака происходит не за секунду — это некоторое время, когда ты можешь предпринять критичные действия, и тебе важно отработать этот момент наилучшим образом.

Очень важна анонимизация данных. Есть некоторые вещи, и сейчас большинство скандалов, которые есть относительно кибератак — это то, что были персональные данные и они были ничем не защищены. И вот это самая большая проблема, что люди об этом не заботятся. Если у вас есть данные и они где-то лежат и к ним можно добраться, они должны быть анонимизированны. Все, что мы делаем, анономизированно. Когда мы работаем с месторождениями, со скважинами, мы не знаем, где они. Если даже что-то произойдет, никто не знает, где эта скважина — в России или нет, наша она или из открытых источников — это какая-то цифра, она где-то существует. Другим пользы от нее никакой не будет, так как они не смогут ее интерпретировать и понять, как данные разобрать.