Цифровая нефть

Цифровая нефть

Большие данные как один из ключевых инструментов цифровой трансформации

Текст: Борис Макевнин, директор Центра монетизации данных «Газпром нефти»
Инфографика: Алексей Столяров

Для «Газпром нефти» цифровая трансформация — важнейший аспект стратегии развития бизнеса, ведь перспективы внедрения технологий Индустрии 4.0 тесно связаны с повышением эффективности производственных и бизнес-процессов в компании. «Сибирская нефть» знакомит читателей с инструментами и подходами, характерными для процесса цифровизации. Первый материал — об одном из ключевых понятий четвертой промышленной революции — больших данных, или big data

Бурный рост цифровых технологий и интернет-активности в начале 2000-х отразился на всех отраслях экономики, от продаж товаров и услуг до сложных производств. Одно из характерных последствий этих перемен — глобальное увеличение количества и качества данных и появление новых методов работы с ними. В 2010 году исследовательская компания Gartner опросила более 1000 компаний из 8 стран. Согласно итогам опроса, из-за роста масштабов Всемирной паутины, а также благодаря усиливающейся цифровизации бизнеса ежегодный прирост количества данных в этих компаниях составил от 40 до 60%. При этом эксперты отмечали, что наравне с увеличением скорости поступления новых данных сократилось время на принятие решений на основе их анализа.

Были предприняты попытки дать определение феномену взрывного роста объемов и разнообразия данных, который получил название big data, или «большие данные». Например, Мерв Адриан из Gartner дал следующее определение: «Большие данные — это такие данные, захват, управление и обработку которых невозможно выполнить при помощи традиционно используемых аппаратных платформ и программных инструментов в течение промежутка времени, приемлемого для пользователей».

Похожее определение дала компания McKinsey: «Большие данные — это такие наборы данных, размеры которых превосходят возможности типичных систем управления базами данных по их сбору, хранению, управлению и анализу».

Исследовательская компания IDC считала, что «технологии big data описывают новое поколение технологий и архитектур, предназначенных для экономически целесообразного извлечения ценности из больших объемов самых разнообразных данных при помощи высокоскоростного захвата, исследования и/или анализа».

Консенсус заключался в том, что реляционные системы (см. глоссарий), до последнего времени применявшиеся для хранения и управления данными, оказались не предназначены для работы с большими данными как с точки зрения их типов и разнообразия, так и скорости роста их объемов. Новые типы данных (текст, изображения, видео/аудио, логи посещений сайтов, гео-пространственные данные, данные с датчиков промышленных систем) требовали других, легко масштабируемых и более дешевых технологий сбора, хранения и обработки. И такие технологии появились.

Экосистема

Большая заслуга в появлении технологий работы с big data принадлежит компании Google. Благодаря характеру своего бизнеса Google постоянно сталкивалась с необходимостью обработки не просто больших, а гигантских объемов данных, причем растущих на постоянной основе. С начала 2000-х годов Google для своих внутренних нужд разработала ряд технологий, многие из которых послужили отправной точкой для появления продуктов с открытым кодом, лежащих в основе экосистемы Hadoop (см. глоссарий).

Hadoop и другие технологии, получившие коллективное название NoSQL (Not only SQL — не только SQL, то есть не только реляционные базы данных, основным языком общения с которыми был язык программирования SQL), сыграли главную роль в обеспечении возможности хранения и обработки больших данных. Основная идея новой экосистемы состоит в распределении задач по хранению и обработке данных между сотнями и тысячами различных узлов, что позволяет наиболее эффективно задействовать машинные ресурсы, минимизируя при этом риски потери данных в случае выхода из строя отдельных узлов.

Следующим толчком к гигантскому росту объемов данных станет интернет вещей. По данным компании Gartner, к 2020 году в мире будет насчитываться 20,4 миллиарда устройств, подключенных к Сети

Для пользователей идея распределенной обработки данных вылилась в появление облачных интернет-сервисов. Размещение вычислительных систем в облаке позволило компаниям заниматься аналитикой больших данных без необходимости развертывать у себя всю нужную инфраструктуру и содержать штат сотрудников для ее эксплуатации и поддержки. Также появились более приемлемые с точки зрения безопасности гибридные аналитические системы, отдельные подсистемы которых расположены в облаке, а какие-то — на самом предприятии.

Почему большие данные оказывают такое влияние на настоящее и будущее как самого бизнеса, так и всего общества в целом? Дело в том, что в ходе их анализа можно получить новую, ранее недоступную информацию и знание, причем с небывалым уровнем детализации.

В промышленности использование аналитики данных помогает многим компаниям добиться ощутимых результатов, решая задачи повышения эффективности производства и оптимизации оборудования, управления качеством продукции, обслуживания оборудования по состоянию. Например, такие крупнейшие производители электронных устройств и компьютерных компонентов, как Intel и Micron, используют аналитические технологии для контроля за выходом продукции и управления качеством. Получаемый эффект может исчисляться значительными суммами, если учесть, что для таких компаний увеличение выхода продукции даже на 1% означает порядка 100 миллионов долларов дополнительной выручки.

Возможности аналитики больших данных могут стать и дополнительным сервисом. «Финский производитель оборудования для выпуска бумаги и бумажной продукции, компания Valmet, предоставляет своим заказчикам сервис, который благодаря анализу больших данных предотвращает внеплановые остановки линий. Потери от таких остановок могут составлять порядка 30 миллионов евро для производителя бумаги, — рассказывает старший индустриальный консультант „Teradata Россия“ Олег Кузьменко. — За год одной линией генерируется около 760 миллионов событий. При помощи анализа этих данных удалось выделить набор событий, который помогает предсказать наступление незапланированной остановки оборудования. По словам Valmet, им удается выдать предупреждение заказчику о грядущем ЧП за 2 часа до остановки линии».

В России с большими данными успешно работают такие компании, как Сбербанк, ВТБ24, МТС, Мегафон. Например, МТС и Мегафон при помощи больших данных решают задачи геоаналитики, цифрового маркетинга, клиентской аналитики, гарантирования доходности. Сбербанк использует большие данные для борьбы с мошенниками, проведения маркетинговых кампаний, финансовой аналитики.

Список тех, кто уже смог по достоинству оценить возможности big data, постоянно пополняется. Появляются и новые триггеры для этой тенденции: следующим толчком к гигантскому росту объемов данных эксперты называют интернет вещей. По данным исследовательской организации Gartner, в 2017 году в мире будет насчитываться 8,4 миллиарда устройств, подключенных к Сети, а к 2020 году таких устройств уже будет 20,4 миллиарда.

Большой бизнес

В нефтегазовой индустрии аналитика больших данных используется как в разведке и добыче, так и в переработке и сбыте. Последнее десятилетие лидеры отрасли активно инвестировали в автоматизацию производства, и эти вложения уже приносят немалую отдачу. Однако компании стремятся получать еще большую выгоду от этих инвестиций за счет анализа накопленных данных.

В конце марта этого года на форуме Houston Energy Breakfast компания ConocoPhillips сделала доклад по разработке нетрадиционных запасов нефти. В нем говорилось, что использование анализа больших данных уже позволило в два раза сократить время на бурение одной скважины и, как результат, сократить расходы на бурение.

Американская нефтеперерабатывающая компания Andeavor использовала данные, поступающие с установки атмосферной перегонки нефти, для построения аналитической модели энергопотребления, что в итоге помогло уменьшить затраты на газовое топливо, относящееся на НПЗ к одной из основных статей расходов.

Компания Repsol использует аналитику данных для получения полной, детальной картины о своих клиентах, а также о продажах на каждой АЗС (топливо, магазин, кафе, сопутствующие услуги), которых у компании более 4700. В частности, решение задач о продажах на АЗС помогло добиться получения наилучшей цены от поставщиков, снизить потери от упущенных продаж за счет своевременного формирования заказов и выбора подходящего ассортимента, запустить процесс распространения лучших практик на каждую АЗС, получить достоверную картину о бизнесе франшиз, проводить более эффективные промоакции, уменьшить воровство персонала, устанавливать гибкое ценообразование.

«Опыт показывает, что ключевым подходом для извлечения ценности из данных становится интеграция, — отмечает Олег Кузьменко. — Например, если вы объединяете данные от датчика вибрации с данными о техническом обслуживании и ремонте (ТОиР), то вы можете связать конкретный характер значений показаний датчика с выполненными или невыполненными действиями по обслуживанию или замене частей оборудования. В свою очередь, это позволит определить первопричины или конкретные последствия того или иного инцидента, а также предсказать, что случится в будущем. Когда вы объединяете эти данные с данными о стоимости ТОиР, то сможете предсказать стоимость будущих затрат на ТОиР в зависимости от характера показаний датчика вибрации».

Накопленные данные становятся активом предприятия, таким же, как основные средства или финансовые вложения. Уже прижился и никого не удивляет лозунг, что «данные — это новая нефть». В «Газпром нефти» понимание новой реальности привело к процессу цифровой трансформации, реализующейся в том числе и через работу с большими данными.

Глоссарий

Реляционная система — предполагает математический способ структуризации, хранения и использования данных. Отношения (англ. relations) дают возможность группировки данных как связанных наборов, представленных в виде таблиц, содержащих упорядоченную информацию (например, имя и адрес человека) и соотносящих значения и атрибуты (его номер паспорта).

В свою очередь, в нереляционных системах (NoSQL) способ структуризации данных заключается в избавлении от ограничений при хранении и использовании информации. Базы данных NoSQL, используя неструктуризированный подход, предлагают много эффективных способов обработки данных в отдельных случаях (например, при работе с хранилищем текстовых документов).

Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределенных программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов. Разработан в рамках вычислительной парадигмы, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.

Проекты будущего

Данные и информация, получаемая на их основе, — строительный материал для многих инициатив, связанных с цифровизацией. Поэтому данными необходимо управлять, как и любым другим активом. В «Газпром нефти» успешно исследуются возможности монетизации накапливаемых «цифровых» богатств. В настоящее время в «недрах» центров обработки данных компании накоплено уже порядка 6000 терабайт (для сравнения: около 200 терабайт — это объем информации, содержащийся на всех информационных носителях, как то: книги, электронные носители, журналы, рукописи и т.д., Российской государственной библиотеки), и поток поступающих данных растет год от года.

Компания поддерживает начинания своих подразделений по «разработке» этих недр, и многие из реализуемых проектов уже признаны рынком как прорывные в своей области. В частности, в upstream отдельные компоненты технологий big data опробованы или применяются для решения бизнес-задач по прогнозу эффективности сложных геолого-технических мероприятий, кластеризации скважин по фациальным признакам, автоматизации интерпретации результатов сейсмических исследований. В свою очередь, в блоке логистики, переработки и сбыта создан Центр управления эффективностью, задача которого — управлять всей цепочкой добавленной стоимости блока, от поставок нефти на НПЗ до продаж нефтепродуктов, и работа с большими данными — один из инструментов в арсенале специалистов Центра.

Инфографика: Алексей Столяров

Реализуя проекты, в основе которых лежат технологии big data, «Газпром нефть» сотрудничает с ведущими российскими научными институтами и с компаниями — мировыми лидерами в сфере информационных технологий. Так, совместно с компанией IBM в «Газпром нефти» разрабатываются алгоритмы для автоматизации процесса выбора оптимальной системы разработки вновь вводимых месторождений и оптимизации режимов работы скважин на длительно разрабатываемых месторождениях для максимизации добычи. Эффект от внедрения этой технологии оценивается в 1 млн т потенциальной дополнительной добычи.

Совместно со «Сколтехом» «Газпром нефть» занимается исследованиями, связанными с прогностическим анализом больших объемов информации и развитием технологий сбора, хранения, моделирования и визуализации данных геолого-технологических процессов, а также процессов транспортировки и переработки нефти.

Алгоритмы обработки больших данных и принятия решений на основе их анализа будут заложены и в первой в России интегрированной платформе для обработки и интерпретации данных сейсморазведки, созданием которой занимаются специалисты Научно-технического центра «Газпром нефти» в партнерстве с компаниями Яндекс Терра (ООО «Сейсмотек»), АО «Пангея» и МФТИ. Платформа будет решать задачи от выбора перспективных участков и интерпретации данных до предложения идей по созданию сейсмогеологических моделей.

В целом же в «Газпром нефти» задан вектор развития, нацеленный на полномасштабную цифровую трансформацию. И без всеобъемлющего применения технологий big data в этом процессе, несомненно, не обойтись.

ЧИТАЙТЕ ТАКЖЕ