Я профессионально занимаюсь большими данными последние восемь лет, и именно тогда, в начале 2010-х годов зародились споры о том, что же такое Big Data. К сегодняшнему дню об этом написано многое, и те, кто интересуется этим направлением, легко могут найти необходимую информацию. Более того, понятие Big Data постепенно уходит. Человечество всегда именует красивыми, страшными словами явления, которые не может объяснить. И столкнувшись с технологической проблемой, когда не получилось переварить и проанализировать огромные растущие объёмы разнородных данных, оно назвало это понятие большими данными. Помните, в 1920-1930-е годы было такое понятие, как электрифицированные деревни? Но сейчас мы ведь так не говорим, потому что во всех деревнях есть электричество. Выступая на форуме «Открытые инновации» в пленарной сессии «Большие данные для умных городов», я сказал, что через десять лет эти понятия исчезнут: все данные станут большими, а все города — умными. Фактически, Big Data — это огромный поток данных, который нас окружает. Они очень разнообразные, и их тяжело обрабатывать, потому что они представлены в разном формате. Данные поступают к нам из различных источников с разной скоростью. Когда все эти три фактора в моменте пересекаются, обработать такого рода данные становится крайне сложно, также нелегко быстро найти в них что-то полезное. И ту возникшую технологическую сложность люди и назвали Big Data.
— Получается, что большие данные есть везде. Как же они работают?
Большие данные позволяют посмотреть на любой процесс с изнанки. Потому что, используя построенные на них технологии, мы видим какие-то неочевидные вещи в процессах, которые не позволяют описать или измерить привычные инструменты. Приведу вот такой пример: компания Google в 2008 году разработала сервис Google Flu Trends. Когда в 2009 году началась пандемия «свиного» гриппа A/H1N1, Google, опережая на две недели Всемирную организацию здравоохранения (ВОЗ), предсказывал вспышки эпидемии. Компания делала это с помощью анализа поисковых запросов, задаваемых пользователями со всего мира. В них они искали объяснения симптомам, которые испытывали. Таким образом, Google оперативнее и точнее ВОЗ прогнозировал очередную вспышку. Google ничего не знает о здравоохранении и заболеваниях, но компания смогла показать некую изнанку того, как с помощью алгоритмов и сбора большого количества данных можно проанализировать вполне реальную ситуацию и посмотреть на неё с другой стороны.
— Насколько велик риск ошибки, когда машина, пусть даже и умная, что-то прогнозирует?
Риск ошибки есть всегда. И этот фактор стал одной из причин закрытия Google Flu Trends, просуществовавшего до 2015 года. В каких-то случаях сервис давал очень точный прогноз, в каких-то в разы хуже, чем ВОЗ. Потому что для того, чтобы что-то предсказывать, нужно хорошо понимать процесс. Любой учёный, делая измерения, замечает, что какой-то показатель выбивается из нормальной раскладки. Алгоритм может это проигнорировать, так как не понимает логику процесса. Сейчас весь мир движется в направлении цифровых компаний и цифровых предприятий, с которыми неразрывно связаны большие данные. Но недостаточно просто автоматизировать процесс, все хотят исключить человека из момента принятия решения, чтобы быстро реагировать на ситуацию. И действительно, сегодня многие ситуации машина оценивает лучше, чем человек. Но доверить ей исполнение и ответную реакцию пока не все решаются. Потому что это очень большая ответственность.
— Но как машина принимает эти решения?
При помощи алгоритма, разработанного Data Scientist, который запускается на большом объёме данных. Чем больше на входе доступная для анализа выборка данных, тем выше аккуратность алгоритма.
— Какие ещё данные анализирует система?
Сегодня данные есть в любой отрасли. Приведу несколько наглядных примеров. Одними из первых монетизировать и использовать Big Data начали отрасли, работающие с большим количеством клиентов в конкурентной сфере. Это, прежде всего, банки и телеком-компании. И там путь к монетизации данных был весьма прост. Если мы говорим о клиенте банка, то с помощью анализа его транзакций, трат, можно рассчитать размер и срок кредита, который безопасно ему выдавать, предложить новые, но актуальные для него банковские продукты или услуги. В телекоме очень актуальная задача — предсказание оттока абонентов в зависимости от качества трафика. Сейчас ситуация меняется, и практически в любой отрасли научились использовать данные для получения какого-то выигрыша от их анализа.
— Что является основными источниками данных?
Сейчас называют три основных источника данных. Первый — внутренние системы компании. В банках это банковские системы, ABS, CRM. В телекоме — разнообразные биллинговые системы. Второй — различные датчики, контроллеры, которые, например, снимают данные о течении технологического процесса на предприятии. Третий — открытые данные в интернете: прогнозы погоды, прогнозы аналитиков, социальные сети. Сверхидея любого маркетолога или аналитика — соединить все три потока данных. Раньше большинство работавших с клиентами компаний принимали решения о взаимодействии с ними, основываясь лишь на небольшом количестве данных, которые были у них внутри. Но теперь они могут обогатить их данными с датчиков, клиентскими профилями из соцсетей. В итоге получается результат, превосходящий все ожидания, за которым сейчас все гонятся.
— А в каком виде маркетологи получают эту информацию?
Информация приходит к ним в неком агрегированном виде, поскольку маркетологу не нужно иметь доступ ко всем данным. Он получает срезы относительно какие-то групп клиентов, трендов. Эти данные не персонифицированы: маркетолог не знает, что за человек скрывается за ними. Большие компании проводят анализ внутри себя. В той же X5 Retail Group работают 3000 аналитиков. Думаю, не меньше их и в Сбербанке. Компании более скромного масштаба могут приобрести агрегированные и обезличенные данные у провайдеров.
Большие данные в крупном, среднем и малом бизнесе
— Получается, что технологии, основанные на больших данных применимы для любого бизнеса? И малый бизнес — не исключение?Малый бизнес выигрывает от анализа больших данных не так сильно. Потому что Big Data — это всё же про тренды и массовые выборки. Но если смотреть ретроспективно на 5-6 лет назад, то на территории России насчитывались единицы компаний, использовавших большие данные. Причём речь шла именно о больших компаниях. И предполагалось, что это потолок, и больше Big Data никому не потребуется. Прошло время, и мы видим, как технологии больших данных уже опустились на два-три этажа: сейчас от их использования выигрывают компании среднего бизнеса. Потому что они научились различным подходам и методикам использования Big Data. Малые компании, на мой взгляд, тоже могут от этого выиграть, так как способны учитывать при планировании бизнеса информацию, доступную в открытых публикациях. Например, недавно мы столкнулись с примером, когда при помощи больших данных один агрохолдинг пытался построить систему сбора урожая. Пять лет назад это выглядело бы смешно, но сейчас это вполне реально.
— Куда же поступает информация, собираемая, например, теми же датчиками?
Все данные агрегируются в платформе данных, где могут храниться, обогащаться, очищаться, после чего их можно анализировать для создания различных инсайтов. Платформа данных может располагаться как на серверах внутри компании, так и в облаке, ведь облачные технологии набирают сейчас широкую популярность. Особенно часто там хранятся данные в тех случаях, когда проекты предполагают участие разных компаний. Популярный сегодня тренд: строительство экосистем, когда разные партнёры — например, банк, телеком-провайдер и ритейлер — обладают об одном и том же человеке своими знаниями. Объединив их, они получают возможность предлагать клиентам новые услуги, оптимизировать существующие сервисы. Всё чаще появляются проекты с открытыми данными, когда информация о чём-то открывается в публичный доступ, и на её основе можно построить какие-то сервисы, допустим, о движении автобусов или электричек.
— То есть, например, компания, которая открывает торговые точки может получить данные по трафику?
Да, вы можете получить данные по трафику на конкретной улице, собрав их самостоятельно или приобретя в специализированном агентстве. Сейчас всё чаще говорят о необходимости монетизации собираемых данных. И каждая компания, собрав данные о клиентах, с одной стороны, использует их для увеличения собственного бизнеса, оптимизации внутренних процессов. С другой, может влиться в популярный тренд по продаже информации или анализа. Например, компания X5 Retail Group собирает огромное количество данных о том, как ведут себя покупатели. Не так давно она запустила «Портал поставщиков» — сервис, в рамках которого производитель может купить у X5 информацию о том, как раскупаются его новинки, какие возрастные группы наиболее лояльны к его товарам. Таким образом, мы наблюдаем интересную тенденцию: если раньше ритейлеры сами были заинтересованы в приобретении данных о покупателях для их привлечения, то теперь, накопив огромное количество данных, они имеют возможность продавать их производителям.
— Какие задачи Big Data помогает решать бизнесу?
Существует два поля, на которых работают с большими данными. Первое объединяет всё, что касается внешней монетизации, а второе — всё то, что касается внутренней оптимизации процессов. Первое время наибольшую выгоду приносили именно истории, связанные с оптимизацией внутренних процессов, потому что компании хорошо понимают их природу. Например, «Газпром нефть», «Северсталь», НЛМК огромные деньги экономят на оптимизации производственных процессов. Популярный кейс: проведение ремонтов по предсказательной аналитике. Так, автомобильная компания BMW одна из первых отказалась от регулярного ТО: вместо этого владельцы автомобилей этой марки получают информацию о том, когда им нужно заменить тот или иной расходник, произвести необходимый ремонт.
Big Data на службе государства и в социальных проектах
— А как технологии, построенные на больших данных, использует государство?Технологии обработки Big Data присутствуют во всех отраслях, и отрадно, что одним из прорывных сегментов, использующих их становятся государство и госкомпании. Наверняка вы видите огромное количество электронных сервисов, внедряемых как по всей России, так и только в Москве, большинство из которых базируется на анализе того или иного массива данных. Те же Госуслуги, начисление налогов, оплата парковки, предсказание трафика. В качестве примера можно привести создаваемый сейчас концерн «Автонет» и платформу внутри него «Автодата». Предполагается, что со всех автомобилей, оснащённых датчиками ГЛОНАСС, будут собирать телеметрию и на базе неё строить целые программы, которые предоставят полезную информацию производителям автомобилей, дорожным службам. Недавно СМИ сообщили о том, что к платформе «Автодата» будет подключено и МВД РФ. Одна из целей этого: с помощью телеметрических датчиков определять дорожные участки, где автомобили замедляют движение, хотя там можно двигаться с достаточно высокой скоростью. Таким образом, возможно проактивное влияние на ситуацию: например, оперативно устранять повреждения дорожного полотна. Подобных примеров много. Так, Счётная палата РФ активно развивает свою цифровую платформу, оптимизируя рутинные операции, которые её сотрудники выполняют при проверке тех или иных организаций. Думаю, скоро Big Data появится даже в детских садах. В школах она уже есть — достаточно вспомнить про внедрённые там электронные дневники.
— А что касается социальных проектов?
Действительно, очень здорово, что на базе инструментов по анализу больших данных стали появляться замечательные социальные проекты. Например, в 2019 году стартовала работа «МегаФон Поиск» — специальной платформы для поиска пропавших детей и взрослых с использованием технологии анализа больших данных, объединившей «МегаФон» и АНО «Центр поиска пропавших людей». Система «МегаФон Поиск», разработанная совместно с МВД РФ и «Лиза Алерт», анализирует круг людей, которые могли бы рядом с человеком в момент его пропажи, и рассылает им сообщения с ориентировкой на пропавшего. Сейчас проект работает уже в 40 регионах, и всего за 9-10 месяцев он участвовал в поиске более 400 людей. В каждом третьем случае была передана информация о потерявшихся людях, и часть из них удалось найти.
Конкуренция технологий и кадровый голод
— Имеют ли отличия российские и западные технологии Big Data?Технологии едины. Например, мы в Arenadata видим, что направление Big Data — то самое, в котором Россия может конкурировать с другими странами. Пока что выделяется два центра развития технологий хранения больших данных, где они наиболее ярко развиваются: США и Китай. И приятно, что ведущие российские ИТ-компании, такие как Яндекс и Mail.ru, имеют собственные технологии, широко применяемые не только на территории нашей страны, но и за рубежом. А российские разработчики, программисты, аналитики ценятся по всему миру. К сожалению, здесь не хватает поддержки государства, крупного бизнеса, которые бы доверили отечественным разработкам хранить свои данные.
— Есть ли какое-то фундаментальное базовое образование в области Big Data?
Я бы сказал, что нет. Более того, квалифицированных кадров крайне мало. Например, мы создаём программные продукты, но на стороне внедряющих их компаний нет специалистов, которые могли бы их успешно эксплуатировать. Понимая сложившуюся ситуацию и необходимость подготовки кадров, мы начали разрабатывать оригинальные авторские курсы, и в течение 2019 года обучили более 150 внешних специалистов. Планируем, что в 2020 году их число возрастёт до 300-400, так как спрос на знания в области больших данных колоссальный как в России, так и за её пределами. Например, мы преподаём также в Казахстане, где рынок Big Data сейчас активно развивается.