В потоке

Перспективы внедрения технологий работы с большими массивами информации big data

«Газпром нефть» внедряет технологии работы с большими массивами информации

«Информирован — значит богат», «Информирован — значит вооружен» — фразы, подобные этим, давно объяснили нам важность обладания информацией. Однако скорости, с которыми сегодня формируются и распространяются информационные потоки, просто не позволяют обрабатывать данные привычными способами. Для работы с гигантскими объемами информации все активнее используются технологии, получившие общее название big data

Информационные цунами

Информации становится все больше, а кривая ее роста стремится к экспоненте. Согласно результатам исследований, проведенных IDC по заказу корпорации ЕМС, каждые два года объемы информации в мире увеличиваются вдвое, и, по прогнозам, к 2020 году цифровая вселенная на нашей планете составит 40 зеттабайт. Пользуясь шаблонным сравнением, это примерно в 60 раз больше, чем песчинок на всех пляжах мира. При этом накопленные человечеством данные хаотичны. Они разнородны, часто не структурированы и в подавляющем большинстве случаев не подвергаются анализу. По статистике, сегодня проанализировано менее 1% всей имеющейся информации. А это означает, что при таком положении дел почти наверняка упускается что-то очень важное.

Источников больших данных в современном мире множество. В их качестве могут выступать непрерывно поступающая информация с измерительных устройств, аудио- и видеорегистраторов, потоки данных о местонахождении абонентов сетей сотовой связи и т.д. Считается, что рост общего объема информации происходит в основ- ном именно за счет автоматически генерируемых данных. К примеру, датчики, установленные на авиадвигателе, формируют около 10 Тб за полчаса. Примерно такие же потоки характерны для буровых установок и нефтеперерабатывающих комплексов.

Еще один важный источник растущих объемов информации — интернет, и в частности социальные сети, а также сервисы массовых коммуникаций. Например, только один сервис коротких сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток 8 Тб в сутки, а сеть Facebook ежемесячно выкладывает в открытый доступ 30 млрд новых источников информации.

Собственно, массовое распространение перечисленных выше технологий и принципиально новых моделей использования различного рода устройств и интернет-сервисов послужило отправной точкой для проникновения больших данных едва ли не во все сферы деятельности человека.

Действительно, трудно найти отрасль, для которой проблематика больших данных была бы неактуальной. Умение оперировать большими объемами информации, анализировать взаимосвязи между ними и выявлять важные закономерности позволило бы помочь в принятии взвешенных бизнес-решений, составлении точных прогнозов и повышении эффективности текущей деятельности.

Однако не все так просто. Работа с большими данными предполагает нечто большее, чем традиционный анализ огромных объемов информации. Проблема не в самом размере информационных потоков, а в том, что значительная их часть представлена в формате, плохо соответствующем традиционному структурированному формату баз данных. Это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Все это хранится во множестве разнообразных хранилищ. В результате можно иметь доступ к огром- ному объему собственных данных, но не располагать необходимыми инструментами, чтобы установить взаимосвязи между ними и сделать на их основе значимые выводы. При этом данные обновляются все чаще и чаще — и в итоге возникает ситуация, в которой традиционные методы анализа информации с ними просто не справляются. Именно это и открывает дорогу технологиям больших данных.

От термина до продукта

Большие данные (big data)

Cерия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов и значительного многообразия для получения воспринимаемых человеком результатов,

эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети. Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном уровне практичности.

Считается, что термин «большие данные» ввел в употребление Клиффорд Линч, редактор журнала Nature. 3 сентября 2008 года в свет вышел специальный номер журнала на тему «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». В спецвыпуск вошли материалы о феномене взрывного роста объемов и многообразия обрабатываемых данных и технологических перспективах их использования и анализа. С 2009 года термин широко распространился в деловой прессе, а уже в 2010-м появились первые продукты и решения, относящиеся к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий начали использовать понятие о больших данных в своих стратегиях.

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики. К их числу, к примеру, относятся методы класса data mining (добыча данных), такие как кластерный и регрессионный анализ, а также машинное обучение, А/В-тестирование и т.д. На основе этих методик IT-компании создают аналитические системы для работы с big data.

В этой области создано уже достаточно много IT-продуктов. В их разработке преуспели IBM, Oracle, Microsoft, Hewlett-Packard, EMC и Teradata. Помимо общеизвестных мировых брендов в число разработчиков входит и большое число компаний-стартапов, ориентированных именно на создание инструментов для big data. Например, большую популярность наряду с патентованными решениями приобрело открытое программное обеспечение Apache Hadoop, на основе которого сформировалось уже целое направление по созданию средств анализа больших данных.

Впрочем, до разработки полного спектра решений, в которые бы входили сбор, хранение, обработка, анализ и интерпретация данных, в том числе их визуализация, еще очень и очень далеко. Тем не менее сегодня технологии big data уже успешно реализуются в ряде сфер деятельности. В их числе банки, телеком, ретейл, энергетика, медицина и управление городской инфраструктурой.

Несмотря на малый срок существования технологий big data, уже есть оценки их эффективного использования, основанные на реальных примерах. Один из самых высоких показателей относится к энергетике — по оценкам аналитиков, технологии big data способны на 99% повысить точность распределения мощностей генераторов. Очевидны перспективы этого направления и в нефтегазовой отрасли, работа которой зависит от многочисленных технологических и бизнес-процессов, генерирующих значительные информационные потоки. Многие из компаний уже пытаются в том или ином виде опробовать технологии big data для решения своих задач.

Большие возможности больших данных

Первое и самое очевидное использование технологий работы с большими данными — геологогеофизические моделирование, обработка данных сейсморазведки. Очевидно, что это позволит повысить точность интерпретации и, соответственно, быстрее выйти на промышленную добычу нефти. В сфере переработки, где информационные потоки растут лавинообразно с повышением уровня автоматизации, внедрением интеллектуальных систем управления, big data позволят решить проблемы с хранением данных, обработкой неструктурированной информации (данные о технологических процессах, состоянии оборудования, потреблении электроэнергии и т.д.) и ее анализом, станут шагом к внедрению углубленных прогностических моделей. Технологии обработки больших массивов данных в сбытовом сегменте позволят собирать, хранить и анализировать огромное количество информации из множества источников, таких, например, как программы лояльности (данные о клиентах), системы анализа социальных сетей (выявление лидеров мнений и отношения к бренду), видеоаналитика (распознавание пола, возраста, количества пассажиров, марки автомобиля) и т.д. Собирая и обрабатывая информацию из различных источников, современные аналитические системы могут обнаруживать взаимосвязи в поведении потребителя, выявлять потребительские привычки и формировать маркетинговые и коммерческие рекомендации.

Рыночное решение big data находится не просто на стадии активного формирования, а в самом начале этой стадии

Это только специфические направления применения. Но очевидно, что технологии big data позволят существенно повысить эффективность работы и в общеэкономических сферах. Таких, например, как экономика и корпоративное планирование, где необходимо проведение корреляционного анализа, позволяющего выявить рыночные показатели, влияющие на выручку, или спрогнозировать эластичность спроса по каналам и категориям клиентовна основе исторических данных для последующего использования при расчете цен на продукты. Даже в сфере управления персоналом и коммуникаций сегодня приходится анализировать сверхбольшие объемы данных как внутри, так и за пределами компании: онлайн-версии печатных профессиональных и новостных изданий, социальные медиа, блоги, форумы, обезличенную внутреннюю переписку, результаты опросов сотрудников и потребителей.

Михаил Корольков,
руководитель направления стратегического развития информационных технологий «Газпром нефти»

Тематика big data сегодня весьма актуальна для большинства отраслей и видов бизнеса, включая и нефтегазовую промышленность. Это важный инструмент повышения эффективности бизнеса, однако в настоящее время у нас практически нет опыта работы с этим инструментом. Поэтому идея пилотного проекта «Аналитика самозапусков УЭЦН после аварийных отключений электроэнергии» заключалась, с одной стороны, в том, чтобы опробовать технологию больших данных на практике, а с другой — оценить возможный эффект от результатов ее использования. Итоги испытаний достаточно убедительно показали, как с помощью big data можно получить новые качества, которые были бы невозможны без использования инструментов больших данных. Успешный опыт применения big data в БРД дает нам возможность распространения этой практики и на другие направления деятельности «Газпром нефти».

Первый опыт

Интересно, что при всем разнообразии задач вендорские решения в сфере big data пока не приобрели ярко выраженной отраслевой направленности. Рынок находится не просто на стадии активного формирования, а в самом начале этой стадии. «Газпром нефть», например, начала развитие этого перспективного направления с использования системы Teradata Aster для анализа эксплуатации фонда скважин.

Целью пилотного проекта под названием «Аналитика самозапусков установок электроцентробежных насосов после аварийных отключений электроэнергии», реализация которого завершилась в августе 2015 года, стало использование инструментов big data для выявления причин сбоев автоматического перезапуска насосов после аварийного отключения электропитания. Для проведения исследований рабочая группа, в которую вошли специалисты Научнотехнического центра компании, IT-департамента «Газпром нефти» и Teradata, использовала более 200 млн записей, полученных в 2014 году с контроллеров систем управления на 1649 скважинах, а также записи рестартов напряжения из аварийных журналов. Изучение и анализ этой информации с использованием традиционных инструментов оказались невозможны, поскольку речь шла о большом объеме неструктурированных данных — в каждой модели системы управления применяются различные форматы записей. При этом решение задачи осложнялось зависимостью работы насосов от множества различных факторов: скважинных условий, условий эксплуатации, схемы электроснабжения и т.д.

С помощью аналитической системы все данные были обработаны и созданы визуализированные модели цепочек событий, имеющих отношение к самозапуску насосов, а также карты вероятностного распределения причинноследственных связей. Применение инструментов big data позволило не только сформировать и проверить набор различных гипотез о причинах сбоев в автозапуске, но и получить информацию о ранее неизвестных взаимосвязях в работе насосного оборудования, в частности появлении в ряде случаев эффекта турбинного вращения, который приводит к обратному сливу нефти при отключении электропитания насоса. Результаты исследований еще предстоит детально изучить, однако уже сейчас в «Газпромнефть НТЦ» отмечают высокую эффективность технологии больших данных при решении задач блока разведки и добычи. И это только первый шаг, который компания сделала на пути к применению технологий больших данных.

ЧИТАЙТЕ ТАКЖЕ