Умный поиск — Журнал «Сибирская нефть» — №176 (ноябрь 2020)

Программа «Газпром нефти» против COVID-19

Подробнее
Умный поиск — Журнал «Сибирская нефть» — №176 (ноябрь 2020)

Умный поиск

Корпоративный поиск как единое окно доступа к данным компании

Текст:
Иллюстрации: Fotodom/Shutterstock
Умный поиск

В эпоху информационного общества ключевым конкурентным преимуществом человека или компании становится умение эффективно работать с данными и извлекать из них ценность. Внедряются специализированные инструменты для управления данными, оценки и повышения качества данных. Растет востребованность в аналитическом инструментарии, появляются системы управления знаниями (СУЗ). В связи с этими изменениями серьезный бизнес рассматривает вложения в работу с информацией как инвестиции, а не как вынужденные траты. Одним из основных инструментов СУЗ может стать корпоративный поиск. При условии, что он окажется достаточно умным

По результатам исследования агентства IDC, до 36% рабочего времени сотрудники корпораций тратят на поиск информации. Подобная неэффективность, как бы странно это ни звучало, во многом — результат цифрового прорыва, той самой четвертой промышленной революции, которую мы сегодня наблюдаем. Взрывной рост информационных технологий ведет к накоплению огромных объемов данных. Проблема в том, что нередко эти данные бессистемно хранятся на нескольких площадках, а инструменты централизованного поиска, структурирования больших массивов информации и удобной работы с ней зачастую отсутствуют.

Чем компания платит за неумение или нежелание организовать эффективный поиск данных, помимо такого ценного ресурса, как рабочее время? В первую очередь упущенными возможностями. Не происходит (или происходит медленно и с потерями) трансфер информации внутри компании, хромает аналитика, недополучающая часть данных, не оптимизируются бизнес-процессы, связанные с работой с данными.

Попытки решать проблему локально — создавать отдельные базы знаний, в которых эксперты вручную фиксируют полезный опыт, — выглядят не слишком уместными. Во-первых, объемы данных постоянно растут. Например, в «Газпром нефти» (без учета дочерних структур) объем файлового хранилища уже превышает 350 ТБ. Во-вторых, увеличивается количество самих экспертных систем. И наконец, сотрудники компаний зачастую могут даже не знать о существовании таких специализированных источников информации или не иметь к ним доступа.

В «Газпром нефти» проблему быстрого доступа к накопленным знаниям осознали еще в 2017 году. Сначала был создан прототип поисковой системы, основанной на  когнитивном анализе данных Когнитивный анализ данных включает в себя алгоритмы искусственного интеллекта и машинного обучения, которые помогают обучить систему распознавать образы и закономерности. Благодаря семантическому анализу текстов когнитивные системы могут понимать значение и контекст в языке, обеспечивая более глубокий и интуитивный уровень обнаружения и даже взаимодействия с информацией. . Запрос на такой сервис сформировался в Научно-Техническом Центре компании. Сотрудники Центра ведут большую научную и аналитическую работу, и возможность оперативного доступа к различным информационным системам «Газпром нефти» для них — вопрос повседневной эффективности. Но также очень быстро стало понятно, что с проблемами поиска сталкивается практически каждый, кому может понадобиться документ или информация, выходящая за рамки привычной деятельности. Поэтому было принято решение о развитии прототипа в полномасштабный общекорпоративный инструмент большой кросс-функциональной командой в рамках развития функции управления данными. Сегодня интеллектуальный корпоративный поиск стал доступен каждому сотруднику компании, а количество охваченных им систем и документов постоянно растет.

Спрос на поиск

Первые системы корпоративного поиска появились около 30 лет назад. Они строились на принципе быстрой индексации информации и реализации полнотекстового поиска на основе построенного индекса. Сначала поисковики позволяли находить только четкие совпадения в заголовках, а затем научились делать это и внутри файлов отдельных форматов, а также на веб-страницах.

Сегодня поисковую систему можно научить не только прямо сопоставлять запрос и содержание документов, но и учитывать контекстные связи, тематические пересечения между документами, особенности корпоративного языка. Все это стало возможным благодаря развитию технологий искусственного интеллекта и машинной обработки естественного языка. Задача умного поисковика заключается в том, чтобы понять намерение пользователя и предложить максимально релевантный ответ на поставленный вопрос. При этом система должна учесть дополнительные факторы: наличие похожих по смыслу документов, связи между документами, истории предыдущих запросов, принадлежность пользователя к конкретному подразделению и т. д. Именно по пути создания современной интеллектуальной системы, использующей машинное обучение, шли разработчики корпоративного поиска «Газпром нефти».

Алексей Урусов
Алексей Урусов,
руководитель дирекции экономики и корпоративного планирования «Газпром нефти»

Наша задача — создать систему искусственного интеллекта (ИИ), которая понимает запрос сотрудника и может помочь ответить на вопрос. По сути, мы строим сложный ИИ, интегрированный с многообразием наших баз данных и информационных систем для решения таких задач, как извлечение информации и создание ее краткой выжимки (синтез). Обилие информации — это следствие цифровизации в «Газпром нефти». Поэтому мы создаем ядро поисковой платформы, вокруг которой, как сателлиты, должны выстроиться аналитические и экспертные приложения, решающие локальные бизнес-задачи, сервисы семантического анализа контента.

Первый общедоступный релиз корпоративного поиска появился в 2019 году. Сегодня к поисковику уже подключено более 30 внутренних и внешних информационных систем, таких как внутренние порталы компании, ресурсы по управлению различными процессами, системы кадровых и сервисных служб, аналитические приложения, корпоративная периодика, образовательные программы и многое другое. Суммарно это около 6,5 млн объектов различных форматов, из которых система может в считанные секунды найти и показать пользователю нужный документ.

За развитием семантического сервиса стоит будущее машинного обучения. Это приведет к тому, что человек будет общаться с машиной на естественном языке

Что должен уметь идеальный корпоративный поиск

Пытаясь ответить на этот вопрос, команда разработчиков выпустила уже десять релизов. За прошедший год поисковик обзавелся мощной инфраструктурой, обеспечивающей семантическую обработку данных, сбор и классификацию всех доступных файлов. Для краулинга внешних источников был написан поисковый робот, с помощью которого информация собирается с внешних сайтов — сайта «Газпром нефти», тематических новостных сайтов, специализированных сайтов, таких как сайт ЦБ РФ и других — и добавляется в индекс.

В свою очередь, пользователь взаимодействует с простым и интуитивно понятным интерфейсом. Для сужения области поиска предусмотрены фильтры и сортировка: по дате, дочернему предприятию, источнику информации, типу документа. По запросу поисковик выдает привычные для яндекса или гугла карточки с кратким описанием содержания документа. Кроме того, легко можно находить информацию по запросу, написанному с ошибками или на естественном разговорном языке. Система учитывает морфологию слов, понимает ряд сокращений и специализированных терминов и может исправлять опечатки.

Наталья Третьякова
Наталья Третьякова,
руководитель управления
организации работы с данными
«Газпром нефти»

От внедрения корпоративной поисковой системы бизнес получает очевидные плюсы: повышается эффективность и скорость доступа к данным, реализуется принцип демократизации данных внутри компании, развивается внутренняя экспертиза. Так как в «Газпром нефти» поисковая система разрабатывалась собственными силами, компания получила сильный центр компетенций по поиску и анализу контента, способный создавать новые поисковые и экспертно-аналитические системы.

Система обладает и некоторыми предикативными навыками. Как только пользователь начинает вбивать запрос, поисковик уже предлагает варианты конкретных документов, имеющихся в базе. Это отлично работает с внутренними нормативно-методическими документами и помогает быстро их находить. Также поиск умеет расширять запрос близкими по смыслу понятиями, расшифровывать за пользователя аббревиатуры и, конечно, персонализировать выдачу с учетом истории использования и места работы. Все это делает поисковую систему универсальным инструментом для работы с накопленными знаниями компании.

Помимо интеллектуального поиска по документам, реализованы и специализированные виды поиска: поиск по сотрудникам или внутренним сервисам компании. Например, если пользователь введет запрос «неисправен телефон», то в ответ он в первую очередь получит ссылку на службу технической поддержки.

Кругозор поисковика постоянно расширяется. В перспективе в его распоряжении окажутся материалы из правовых баз данных, базы российских нормативно-технических документов и текстов, относящихся к региональному законодательству. Новые типы данных повлекут за собой развитие функциональности и сценариев взаимодействия с инструментом для наибольшей эффективности в работе с корпоративной поисковой системой. Поиск станет лучше понимать корпоративный язык, сможет давать фокусные ответы на вопросы, а при формировании выдачи будут учитываться комплексные ролевые модели информационных систем.

Систему интеллектуального корпоративного поиска «Газпром нефти» уже оценили не только сотрудники компании. В конце 2018 года проект стал победителем конкурса «Лучшие 10 IT-проектов для нефтегазовой отрасли» в номинации «Корпоративная информационная система». А в январе 2019 года он получил награду в специальной номинации «Выбор Global CIO» конкурса «Проект года».

«В ряде моментов корпоративный поиск сложнее Яндекса или Гугла»

СН

Что отличает современные поисковые системы?

О.Р.

Они основаны на семантическом анализе документов. То есть современные алгоритмы работают с естественным человеческим языком, решая довольно большое количество задач. За развитием любых видов семантического сервиса стоит будущее машинного обучения. В конечном счете это приведет к тому, что человек будет общаться с машиной на естественном языке. И это полностью изменит пользовательский опыт и взаимодействие человека и машины. Сегодня появляется много проектов, связанных с развитием семантики. Как правило, они начинаются с очень предметных целей и задач: разбор человеческого языка, чат-боты, поиск. И все они работают с неструктурированной информаций, то есть с контентом.

СН

Почему так важна работа с контентом?

О.Р.

Неструктурированная информация окружает нас повсюду. Инвестиционные процедуры, организационные решения, приказы и закрепление их на бумаге — это тоже контент (не реляционные базы и даже не всегда цифры). Получается, несмотря на то что мы принимаем решения на основе структурированных данных, сами решения хранятся в неструктурированном виде: это выводы и обоснования, презентации и протоколы, то есть слова и тексты.

СН

Если говорить о корпоративном поиске «Газпром нефти», то с какими данными он работает?

О.Р.

Мы уже подключили к поисковику около 30 общедоступных корпоративных и внешних информационных систем. И эта работа продолжается. Кроме того, мы увеличиваем и количество форматов, с которыми может работать система. Если сначала речь шла только о вордовских файлах или страницах в html, то сегодня их дополнили файлы в графических форматах, например сканы документов, где требуется предобработка и распознавание информации. Следующий шаг — подключение экспертных систем со специализированными данными, например для геологов или юристов. Для этого мы внедряем инструментарий поиска с учетом корпоративного языка, а также разрабатываем ролевую модель: человек будет видеть в выдаче документы из всех систем, к которым у него есть доступ. Если доступа нет, то эти документы будут скрыты.

СН

Что самое сложное при создании корпоративного поиска?

О.Р.

Добиться высокого уровня релевантности выдачи запросу пользователя. Эта проблема усугубляется еще и тем, что мы имеем дело с самыми разными типами данных. Организовать одинаково релевантный поиск по статьям, книгам, нормативным документам и аналитическим отчетам — это нетривиальная задача. Ее невозможно решить один раз. При подключении каждого нового источника интеллектуальное ядро системы приходится дообучать. И в этом, кстати, отличие корпоративного поиска от привычных всем яндекса и гугла. Сайты создаются с учетом известной и постоянной разметки, ставятся описания и теги. Все это облегчает задачу поисковика. Мы же не только работаем с объектами в интерфейсе, но и анализируем файлы, прежде чем добавить их в индекс.

СН

Как происходит обучение системы?

О.Р.

Здесь есть два главных направления: каталогизация и тематические подборки. Чтобы как-то упорядочить все документы, мы сформировали каталог, основанный на бизнес-процессах компании. Изначально мы сделали подборку документов по всем бизнес-процессам и уже на ее основе обучали систему. Сделать такую выборку — это фактически ручная и от этого довольно трудоемкая работа. Нужно не просто подобрать похожие документы, но и учесть исключения из правил. Далее система уже сама, на основе полученного опыта и семантического анализа документа, определяет, к какой тематике или тематикам он относится.

СН

Вы упомянули, что корпоративный поиск отличается от привычных всем поисковиков анализом файлов. Есть еще какие-то отличия?

О.Р.

Это не только поисковик, а, по сути, единое окно доступа к самым разным корпоративным данным и сервисам. Например, к поиску подключена система бизнес-аналитики BI Qlik, и пользователь может легко найти нужный ему показатель в определенном отчете, а затем запросить доступ к этому отчету. Или типовые сервисы, которыми пользуются сотрудники: забронировать переговорную, запросить у бэк-офиса форму 2-НДФЛ. Чтобы ими воспользоваться, теперь достаточно сделать запрос в поисковой строке.

Кроме того, мы развиваем наш поиск с учетом специфичного корпоративного языка, обучаем его различным терминам и аббревиатурам. Сейчас создаем корпоративную онтологию — базу данных, где будет храниться информация не только о самих терминах, но и о связях между ними. Так система будет знать, что, например, определенный департамент входит в определенную дирекцию, а значит, и документы, относящиеся к дирекции, могут быть интересны при упоминании в запросе департамента. Все это расширяет границы поиска и делает его результаты значительно релевантнее.

Еще одно важное отличие привычных поисковых систем от корпоративных и еще одна сложность для нас: во внешних поисковых системах значительно больше пользователей и данных об их опыте, то есть больше примеров того, что пользователь А обычно хочет получить по запросу Б. У нас же таких данных пока мало, а запросы очень специфичны. Поэтому, пользуясь случаем, призываю сотрудников компании чаще задавать вопросы поиску, ведь тем самым вы сделаете его умнее.

СН

Вы уже выясняли, насколько удобнее искать что-то с корпоративным поиском, чем без него?

О.Р.

После того, как мы вышли в продуктив, мы проводили замеры: дали контрольные задания, и пользователи прошли путь поиска сами и с помощью системы. В среднем время поиска сократилось на 35%. Думаю, что с каждым новым релизом этот показатель будет улучшаться. И мы сможем добиться еще большей эффективности поиска. Кроме того, данные становятся более доступными благодаря тому, что их можно найти в одном месте. Так наш инструмент помогает реализовывать принцип демократизации данных.

СН

Куда дальше будет развиваться корпоративный поисковик?

О.Р.

У нас есть одна идея: мы хотим создать специализированный поиск по структурированной информации. Например, вам нужно получить данные о добыче нефти в ХМАО в 2019 году. Для этого необходимо либо найти соответствующий отчет, либо самостоятельно поработать с базой данных. Мы хотим научить систему работать с базами данных за пользователя. Вы формируете запрос и получаете ответ в виде таблицы, графика или конкретного значения. Все остальное делает поисковик. Пока это только концепт, но мы уже начали работу по приближению к результату: прототипирование и проверку наших гипотез на нескольких датасетах. Задача сложная, но и выигрыш велик. Такой инструмент повысит эффективность работы аналитиков и менеджеров и ускорит трансформацию бизнес-процессов.

ЧИТАЙТЕ ТАКЖЕ