Больше, чем данные – Журнал «Сибирская нефть»

Больше, чем данные


Фото: Стоян Васев, Александр Зубков, getty images
Инфографика: Алексей Столяров

Рынок технологий работы с большими данными (big data) — один из самых быстрорастущих сегментов мировой IT-индустрии. Это вполне объяснимо, ведь big data в последнее время нашли применение во множестве таких разных областей, как умные дома, увеличение доходов банков и торговых сетей, повышение эффективности самых разных производств. Именно большие данные — то сырье, которое необходимо, чтобы запустить механизм цифровой трансформации нефтяной компании

Зеттабайты информации

Каждый день любой человек оставляет множество следов. И если раньше это были только физические следы — отпечатки подошв обуви или пальцев, — то сегодня речь идет в первую очередь о цифровых следах. Отправили запрос поисковику, прогулялись по улице со смартфоном, оборудованным GPS-модулем, или воспользовались навигатором, совершили покупку в магазине с помощью кредитки, лайкнули чей-то пост, скачали музыку или установили приложение — любое из этих действий генерирует поток информации. А учитывая количество живущих на Земле людей, информации накапливается очень много.

Еще больше данных производят машины, работа которых либо полностью основана на цифровых технологиях, либо предполагает оцифровку физических или химических процессов, как, например, это происходит на нефтехимических предприятиях.

Ученые разрабатывают новые способы хранения возрастающих объемов данных, используя молекулы ДНК. Один грамм ДНК может вместить около 700 терабайт данных. Такой способ хранения также очень надежен: молекулы стабильны и могут храниться в течение тысяч лет.

В итоге мировой объем оцифрованной информации растет по экспоненте. Так, к 2003 году было накоплено 5 эксабайт данных (1 ЭБ = 1 млрд гигабайт = 1018 байт), к 2008-му — 0,18 зеттабайта (1 ЗБ = 1021 байт), к 2011 году — 1,76 зеттабайта, к 2017-му — порядка 10 зеттабайт (1022 байт). Это данные российского IT-холдинга IBS, специалисты которого прогнозируют, что к 2020 году человечество сформирует 40–44 зеттабайта информации. Если задаться целью и записать 40 зеттабайт данных на стандартные blu-ray-диски, их общий вес будет примерно равен весу 424 авианосцев.

Однако данные получают какую-либо ценность, только если сохраняются и анализируются. По оценке того же IBS, сегодня ценность имеет лишь несколько процентов генерируемых данных, а по расчетам аналитиков американской корпорации Dell ЕМС, используется лишь 3% от потенциально полезной информации. Дело в том, что существовавшими еще 10–15 лет назад методами с таким объемом данных справиться было невозможно. И именно тогда возникло понятие big data — то есть буквально «большие данные».

Технологии в тренде

Общепринятого определения для понятия big data нет. На Западе, говоря о больших данных, подразумевают лишь сами объемы неоднородной и быстро поступающей цифровой информации (свыше 100 Гб в день), которые невозможно обработать традиционными инструментами. В России к этому понятию относят еще и технологии обработки данных.

Сам же термин big data появился в 2008 году с легкой руки редактора журнала Nature Клиффорда Линча, который употребил это выражение в спецвыпуске, посвященном взрывному росту мировых объемов информации. Примерно в это же время стали появляться программные продукты, позволившие по-новому, более эффективно работать с большими информационными массивами. А чуть позже — в начале второго десятилетия XXI века — к развитию направления серьезно подключились такие IT-гиганты, как Microsoft, Oracle, EMC и IBM.

По оценкам экспертов, к 2020 году наибольшую часть мирового рынка big data будет занимать финансовая отрасль, чуть меньше на развитие этих технологий будут тратить интернет-компании, госсектор и телеком, а самым быстрорастущим сектором станет энергетика.

Технологии работы с big data — это целый комплекс различных инструментов, подходов и методов работы с информацией, позволяющих решать несколько глобальных задач. Первая — хранение и управление гигантскими массивами информации, которые невозможно эффективно использовать с помощью обычных баз данных. Вторая задача — организация и систематизация этой неструктурированной или частично структурированной информации, записанной в многообразных форматах. Третья глобальная задача — обработка и анализ полученной информации, как правило, для формирования высокоточных прогнозов.

Технологии обработки больших данных остаются одним из самых динамично развивающихся сегментов рынка информационных технологий. Согласно прогнозу исследовательской и консалтинговой компании IDC (International Data Corporation), мировые расходы на оборудование, ПО и услуги обработки больших данных и бизнес-аналитики возрастут с $150,8 млрд в 2017 году до $210 млрд в 2020-м и среднегодовой темп роста составит 11,9%.

ЗV — значит, big data

Большие данные характеризуются параметрами, которые сокращенно обозначают как 3V — по первым буквам английских слов volume («объем»), velocity («скорость») и variety («многообразие»). Для big data значения этих параметров высоки, и, что важно, со временем они становятся только выше.

С объемом все достаточно очевидно: объем больших данных велик и он постоянно растет. Только представьте: один-единственный датчик, раз в секунду фиксирующий тот или иной параметр (например, температуру), за год производит более 31,5 млн значений. А на современном нефтеперерабатывающем заводе таких датчиков могут быть десятки тысяч. В социальной сети Facebook сейчас хранится 250 млрд изображений, загруженных пользователями, число же отдельных публикаций — постов — больше на несколько порядков. Камеры видеонаблюдения Москвы ежедневно записывают около 450 лет видео. И так практически в любой сфере!

Скорость, с которой поступают новые данные, также все время возрастает, так как увеличивается количество источников информации, подключенных к сети и генерирующих данные. Ускоренное обновление данных, в свою очередь, влияет на нашу оценку их актуальности. То, что еще недавно воспринималось как свежая информация, сейчас представляется безнадежно устаревшим. Когда-то люди могли ждать письма неделями, сегодня даже электронная почта кажется недостаточно оперативной, ее вытесняют мессенджеры.

Большие данные в «Газпром нефти»

Наконец, параметр «многообразие» относится к форматам, в которых получают и хранят различные данные. Это тексты (самые разные — от книг до СМС-сообщений), таблицы, всевозможные базы данных, изображения, аудио- и видеофайлы, а также спецификации соответствующих им цифровых файлов — форматов тоже становится все больше. И когда говорят о больших данных, как правило, подразумевают, что это данные в разных форматах, а значит, их намного сложнее структурировать, а методы анализа, пригодные для обычных баз данных, к ним неприменимы. Например, цифры, записанные в табличку в Exel, легко поддаются обработке, анализу и графической визуализации. А что делать с набором аудиофайлов? Как быстро проанализировать записанную в них информацию?

Работа с большими данными потребовала создания новых подходов к их хранению и обработке. Задачи распределяются между тысячами узлов, что позволяет эффективнее задействовать машинные ресурсы, минимизируя риски потери данных в случае выхода из строя отдельных узлов.

Со временем к трем V добавились еще две: veracity («достоверность») и value («ценность») (некоторые называют и другие V). С достоверностью все не так однозначно: с ростом объемов и скорости поступления новых данных их качество и точность все сложнее контролировать. С другой стороны, появляются и новые пути их проверки — в том числе за счет многообразия источников и типов данных. Так, например, навигатор в вашем смартфоне из-за потери сигнала спутников может увести вас совсем не туда. Но данные сотовой сети, акселерометра Акселерометр — устройство для измерения ускорения. Позволяет оценить изменение положения смартфона. и карты помогают скорректировать итоговый результат. Что же касается ценности, то именно возможность полезного использования больших данных придает им смысл и заставляет искать способы их сбора, хранения и анализа.

Так что большие данные — это не просто много данных, а количество, которое уже перешло в новое, ранее недоступное качество.

Озеро в облаке

Многие уже привыкли использовать Dropbox, Google Drive, iCloud и другие облачные сервисы для хранения файлов. Это не только возможность не ограничивать себя емкостью локального диска на своем компьютере, но и способ организации совместной работы с данными и существенно большая надежность, ведь сервис гарантирует сохранение важной информации даже в случае аппаратных сбоев.

Для big data создаются свои особые хранилища — так называемые озера данных. В них концентрируются большие объемы неструктурированных данных, собранных одной компанией. Размещаться такие озера могут также в облаке, чтобы упростить доступ к ним для широкого круга специалистов. Отличие подобных хранилищ в том, что они объединяют данные самого разного рода, предназначение и ценность которых могу быть еще до конца непонятны. Озера данных пополняются по принципу «лишней информации не бывает». Потом уже искусственный интеллект разберется — возможно, найдет в этих данных важные закономерности и установит связи.

Большие данные для бизнеса

Сегодня big data уже вовсю используются в бизнесе. В первую очередь новые веяния затронули потребительский сектор. Раньше маркетологам приходилось проводить выборочные исследования: опрашивать отобранных по определенным правилам людей и на основании их ответов делать глобальные выводы. У таких методов много ограничений, а значит, и прогнозы получаются не самые точные. Сегодня в распоряжении исследователей огромные массивы информации, в деталях описывающие потребительское поведение, нужды и чаяния практически каждого человека: транзакции по кредитным картам, данные геопозиционирования, запросы в поисковых системах, фотографии, размещенные в соцсетях, слова, произнесенные рядом со смартфоном... В наше время нужно еще очень постараться, чтобы не оставить цифровых следов. Торговые сети получили возможность анализировать покупки сотен тысяч конкретных клиентов и узнавать, как меняется спрос на те ли иные товары в течение дня, недели, месяца и как он связан с изменением сотен других факторов. Анализ всей этой информации в идеале должен позволить сделать предложение товаров и услуг максимально точным и персонифицированным: в нужное время предложить человеку нужный именно ему товар.

Особенно продвинулись в анализе больших данных банки. Такой подход позволяет автоматически выявлять мошеннические операции, оценивать кредитоспособность клиентов, лучше управлять рисками. Широко применяется в финансовой сфере так называемый data mining (буквально «добыча данных») — методы, позволяющие обнаружить в информации новые, ранее неизвестные, скрытые закономерности. Раньше ключевую роль здесь играли опыт и интуиция сотрудников. Но что такое интуиция, если не результат фонового анализа больших данных, поступающих в мозг из внешней среды? Впрочем, сегодня человеческий мозг в этой работе все чаще заменяют искусственным интеллектом.

Не обходится без использования технологий big data и в промышленном секторе. Конечно, скважины на месторождениях и установки на нефтеперерабатывающих заводах сами в интернет не заходят. Однако сегодня их все активнее оснащают датчиками, подключенными к промышленному интернету вещей. Такие датчики передают данные, которые раньше приходилось собирать вручную, и это позволяет гораздо лучше узнавать о потребностях и проблемах оборудования и даже предсказывать его будущее (например, прогнозировать, когда может понадобиться ремонт).

Умная розница

Большие данные уже активно используются в сети АЗС «Газпромнефть» для того, чтобы делать персонифицированные предложения клиентам. Основные инструменты для этой работы — программа лояльности и мобильное приложение. Компания стремится к тому, чтобы приблизиться к идеальной модели: «одна акция — один клиент». Современные подходы к анализу пользовательской активности позволили сети АЗС заработать в 2017 году дополнительно 2 млрд рублей по сравнению с 2016 годом.

Big data и нефть

О том, что данные — это новая нефть, сегодня повторяют довольно часто. Но чем они могут быть полезны для нефти традиционной? На самом деле место для применения технологий big data есть буквально на любом этапе в цепочке создания стоимости в нефтяной отрасли. Так, в геологоразведке накоплен огромный объем информации, и новые подходы к работе с ней позволяют обнаруживать закономерности, точнее моделировать строение пластов и более эффективно искать перспективные месторождения, сравнивая новые участки с уже известными аналогами. В сфере добычи и переработки нефти сбор данных о работе оборудования позволяет удаленно контролировать работу любого актива, оптимизировать производственные процессы, предсказывать возможные аварии и сбои в работе.

Например, в «Газпром нефти» был реализован проект, позволивший значительно увеличить надежность скважинного оборудования. Цель этого проекта — выявление причин сбоев автоматического перезапуска электроцентробежных насосов после аварийного отключения электропитания. Рабочая группа использовала более 200 млн записей, полученных в 2014 году с контроллеров систем управления насосами на 1649 скважинах, а также записи рестартов напряжения из аварийных журналов. Анализ этой информации традиционными методами был невозможен из-за большого объема неструктурированных данных в разных форматах. Также необходимо было учесть множество различных факторов: скважинные условия, условия эксплуатации, схемы электроснабжения и др. Применение инструментов big data позволило не только сформировать и проверить набор гипотез о причинах сбоев в автозапуске, но и получить информацию о ранее неизвестных взаимосвязях в работе насосного оборудования.

В геологоразведке накоплен огромный объем информации, и новые подходы к работе с ней позволяют обнаруживать закономерности, точнее моделировать строение пластов и более эффективно искать перспективные месторождения

Большие данные лежат в основе крупных проектов, повышающих эффективность управления отдельными активами и компанией в целом. Пример такого проекта — Центр управления эффективностью (ЦУЭ) блока логистики, переработки и сбыта «Газпром нефти». Для сбора и обработки данных в центре развернуто озеро данных, в которое стекаются информационные потоки со всех перерабатывающих активов блока. В частности, на основе поступающих данных в ЦУЭ осуществляется предиктивное управление по отклонениям. То есть анализ показаний различных датчиков позволяет предсказывать потенциальные инциденты до их наступления, что значительно повышает стабильность технологических режимов и безопасность производства.

ЧИТАЙТЕ ТАКЖЕ