Что подразумевается под термином большие данные. Энциклопедия маркетинга

Позавчера в новостной ленте 3 поста про Big Data. Вчера, коллега прислал заметку про тоже самое. Сегодня позвонили из "Билайна" и пригласили на бизнес-завтрак по Big Data. Не пошел! Я с готовностью и с открытым разумом "за" современные цифровые технологии. Я против профанации экспертности и несущих ее высокообразованных профанов.

Несколько слов адептам "больших данных", совершенно понятных маркетологам.

Что такое Big Data?

Пару слов тем, кто не совсем знаком с этим термином. Big data – это собственно большой проток плохо структурированных и не связанных друг с другом данных, полученных из несвязанных источников; их анализ и построение моделей прогнозирования события на их основе. Термин этот появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года.

Как бы сказать проще? Big Data – это такие данные:

  • которые невозможно обрабатывать в Excel
  • взаимосвязь между которыми не видит человек
  • к тем, что еще вчера не успели обработать,– это еще и постоянно поступающие новые данные за новый период.

Откуда эти данные?

Ежесекундно гигантские мегатонны контента генерируют события в мире, новостные порталы, бренды, их торговые и информационные посредники. В каждом магазине на входе стоит датчик, который фиксирует появление в торговом зале нового посетителя. Платежные онлайн-системы фиксируют транзакции, банки – движение наличных и безналичных денег, магазины считают чеки и анализируют их суммы. Поисковые системы фиксируют количество и частоту интернет-запросов. Социальные сети видят количество упоминаний тех или иных марок, по сопутствующему окружению, понимают характер и причину упоминания, настроение и отношение.

Ну что, маркетологи, у вас еще не загорелись глаза, руки от предвкушения "знать все" не дрожат? Спокойно! Это не для вас! Чтобы получить, собрать воедино, осмыслить все эти беспорядочные данные, нужно использовать ультрасовременную аналитику с привлечением искусственного интеллекта и чудовищные по объему хранилища этих данных. Если с хранилищами все решаемо, то вот искусственный интеллект нужно еще обучить. Впрочем, о сложности этой задачи ниже, а пока сохраним естественное для маркетолога желание "знать все" о потребителях и пойдем разбираться.

С Big Data есть вполне конкретный подвох.

Возьмите детский совочек, нагребите в него побольше песочка, простите, данных и попробуйте проанализировать то, что собрали

Мусор на входе – ошибки на выходе

Любой знакомый с информатикой, IT-технологиями и аналитикой понимает, что качество входящих данных и их достоверность – первейшая вещь. Очень просто черпать и накапливать данные, но вот как быть уверенным в том, что собрали вы то, там и о том?
  • Вы хотите получать данные из интернета? Замечательно. Любой бот способен генерировать трафика и данных на порядки больше, чем это наплодит ваша целевая аудитория! По оценке американской организации Association of National Advertisers, в 2015 году бренды потратили на закупку фальшивого, несуществующего трафика $7,2 млрд, а в прошлом году показатель вырос до $10 млрд.
  • Компания CNBC подсчитала, что в 2016-м до 20% выделяемых на интернет-рекламу бюджетов были потрачены на трафик, который генерировали боты (англ. non-human traffic).
  • Датчики на входе в магазин? Да весь персонал, периодически выходящий курить, нагенерирует посещения вашего магазина столько, что сделает эти данные бессмысленными. Праздно болтающиеся по торговому центру и периодически заходящие в ваш магазин "не покупатели" окончательно добьют идею "подсчитать магазинный трафик". Вы говорите, что эти цифры "праздных" можно спрогнозировать моделью и отсечь? Замечатльно, но как увидеть и отсечь рост "праздных", вызванный ATL-рекламной этого ТЦ или якорного арендатора? А если одновременно с этим идет и ваша массовая реклама?
  • Логичное машинное программирование никак не учтет тот факт, что "лайки" люди ставят не всегда выражая этим одобрение. Делают они это: из жалости, спонтанно, по привычке, из-за одобрения самого автора, а не его конкретного мнения, лайкают и боты и т.п.
Самая большая проблема в "больших данных" - это собственно, данные. Что касается людей, не стоит все ими сгенерированное слишком уж определенно брать на веру. Потребители путаются, сотрудники лгут, подрядчики, замотивированные на результат –– подтасовывают.

Неполнота данных

Давайте рассмотрим такую, в общем-то тривиальную для маркетинга задачу, как мониторинг (пока еще не прогнозирование) поведения целевой группы. И еще более конкретный предмет наблюдения, как социальное взаимодействие членов этой целевой группы. Зачем это нужно? Одной из целей взаимодействия является уменьшения неопределенностей – получение знаний и снятие сомнения при выборе, в отношении вашего предмета маркетинга. Такое уменьшение неопределенности является следствием совместного участия людей в межиндивидуальных или групповых видах деятельности, например, в ходе общения в соцсетях.

Беда же в том, что сколько бы мы не собирали "большие данные", но это общение не ограничивается только соцсетями. Люди общаются в офлайне: коллеги на работе, случайное общение членов ЦА на отдыхе, совместная выпивка в пабе, случайный разговор в общественном транспорте. Такое взаимодействие будет не подконтрольно наблюдателям за Big Data. По настоящему полнота данных может быть обеспечена только:

  • При тотальном контроле за всеми членами целевой группы. Ибо даже в туалете общественного кинотеатра может произойти такое взаимодействие, не учтенное для последующего анализа!
  • В замкнутой системе. Скажем, подсчитать число пользователей, пользующихся многоразовыми проездными билетами в метро и понять, какая же часть этого множества пользуется еще и наземным общественным транспортном. Но как подсчитать сколько же из не воспользовавшихся использовали такси?
Вторая проблема неполноты данных в том, что процесс такого взаимодействия имеет два аспекта: объективный и субъективный. Объективная сторона – это связи, не зависящие от отдельных личностей или групп, но объективно и содержательно способные быть учтенными в Big Data (например, купля/продажа, передача ии прием единицы информации). Это может быть учтено, подсчитано, обработано и на этом можно построить модель.

Субъективная сторона взаимодействия – это сознательное, нередко эмоционально окрашенное отношение индивидов друг к другу, возникающее в процессе взаимодействия: взаимные ожидания определенного поведения или реакции, личная расположенность к партнеру по взаимодействию, приятность внешнего вида и голоса партнера и тому подобное. Все это влияет, как на само взаимодействие, так и на результат такого взаимодействия. Эти же аспекты очень трудно проследить и проанализировать. Суррогатом, позволяющим хоть как-то проследить субъективный аспект взаимодействия являются лайки, смайлики в соцсетях. По их наличию можно попытаться определить степень вовлеченности, настроение и отношение. Но, черт возьми, как это сделать, если взаимодействующие их не используют? И уж конечно же эмоджи люди не используют на улицах, в магазинах, в транспорте – люди не живут в соцсетх и за их пределами общаются иначе!

Анализировать взаимодействия членов целевой группы только по факту взаимодействия (продажа) или только там, где вы хотите наблюдать такое взаимодействие (магазин), не учитывать субъективное качество взаимодействия – это обрекать себя не непонимания того, продолжится ли такое взаимодействие завтра, будут ли еще покупки в этом магазине – понравилось ли покупать, удовлетворены ли предметом маркетинга или нет.

Обезьяна, граната, а в гранате – Big Data

Зачастую, анализируя что-то маркетинговое с рынка, мы наблюдаем два явления, происходящие совместно, однако никак не связанные между собой: падение числа чеков с нашим товаром и рост цен на товары потребительской корзины. Если такие явления происходят параллельно и довольно длительное время, что в голове маркетингового специалиста может возникнуть мало чем обоснованное предположение о том, что это как-то взаимосвязано. Есть такое понятие "эпифеномен" - это ошибка причинно-следственных связей.

Н. Талеб в «Антихрупкости» говорит:

Если птицам читать лекции об теории полета, то они станут летать - вы в это не верите, это же глупо, не так ли? А вот следующий пример: В богатых странах проводится больше научных исследований, поэтому можно предположить, что наука порождает богатство. Это уже более правдоподобно, да? И вполне коррелирует с житейской мудростью - «если ты такой умный, то почему такой бедный?» На самом деле в мире все было наоборот - сначала некоторые страны заполучили богатство, а уж потом стали развивать науки. В бедной стране наука невозможна.

Таргетированная реклама при помощи Big Data - это по прежнему стрельба в темноту, пишет Forbes. Пока нет доказательств, что все эти методики, построенные на анализе cookies, социальных медиа и прочего хитроумного «таргетинга» устойчиво работают. Да и вы сами сто раз с этим сталкивались - когда контекстная реклама бьет мимо, нисколько не отвечая вашим интересам или когда вы уже товару купили, а еще месяц после вам показывают контекстно именно этот товар. Кто-то же в этот момент "палит" на вас деньги!?

Big Data в руках генераторов теорий - это идеальный инструмент для открытия и продвижения эпифеномена, а накопление данных и наблюдение за ними, в отсутствие четких моделей прогнозирования, построенных на анализе реалий, а не гипотез, может породить большое число таких ложных "открытий". Почему не основанные ни на чем гипотезы в науке – благо, а в маркетинге – смерть? Если кто-то из ученых напишет диссертацию и ошибется – не страшно, забыто. Но если эти теории проникнут в маркетинг - из прибыльного получится "monkey business".

Вначале научитесь предсказывать погоду на завтра

Научиться собирать данные и отсеивать "мусор" – это проблема, но она не столь значительная, по сравнению с проблемой отсутствие моделей поведения человека, алгоритмов прогнозирования. Есть такая расхожая шутка: "Пошла за розовой кофточкой, но никак не смогла отказать себе в этой лиловой сумочке" – это про и психологию покупательского поведения, которые попытаться спрогнозировать, так же "просто", как погоду на выходные. Способность предсказывать тренды на основе Big Data сильно преувеличена. Дело даже не в отсутствие способностей у маркетинговых аналитиков.

Ошибки прогнозов – это не математические ошибки, а фундаментальная проблема!

Все дело в пресловутом "человеческом факторе". Вероятность того, что замеченное сейчас изменение в поведении или оценках людей повториться в будущем не так уж и высока. Человек самообучаются быстрее, чем строится прогнозная модель. В любой момент во взглядах человека, в социуме, в рыночном сегменте, в ответной реакции брендов на деятельность конкурентов может появиться новый фактор влияния, который сломает все ваши гипотезы.

Несмотря на сотни компьютеров и целую армию метеорологов, никто не умеет предсказывать погоду на три дня вперед, так почему же вы ждете, что будущее вашего рынка можно предсказать на три года вперед?…
Джек Траут, Эл Райс "22 непреложных закона маркетинга"
ISBN: 5-17-024999-3, 978-5
И в этом своем мнении, мэтр совершенно .

Хотите примеры?

Конечно же любое мнение можно опровергнуть. Если не сейчас, то лет через триста, когда и опыт появится и технологии пойдут дальше. Но сегодня есть примеры, подтверждающие сомнения о возможности прогнозирования на Big Data. Примеры эти довольно убедительны.

Как прогнозировали грипп?

Самым любимым у многих адептов предсказаний на "биг дата" был Google Flu Trends - графики убедительно показывали, что можно предсказывать эпидемии гриппа в интернете, быстрее и надежнее, чем врачи. Достаточно проанализировать запросы пользователей о названии лекарств, их описаний и адресов аптек. Этот пример кочевал из презентации в презентации, из статьи в статью. В результате попал и в серьезные книжки. Раз сработало, а дальше? Все оказалось не точнее, чем у отечественного Гидрометцентра. Первый сигнал об ошибке был в 2009 году, когда он совершенно пропустил мировую эпидемию «свиного» гриппа. В 2012 система вновь дала сбой - Google Flu Trends более чем в два раза переоценил пик очередной эпидемии. (Пишет журнал Nature.)

Прогноз победы

Во время выборов в Конгресс на праймерез в Виргини, по мнению аналитиков, на выборах должен был победить Э. Кантор из Республиканской партии. И действительно, он шел с отрывом в 34% от конкурентов. Однако, сокрушительно проиграл - минус 10% от победившего. Ошибка была в том, что модель ориентировалась на «типичных избирателей», учитывала их историю голосований, поведение и предпочтения. Но в этот раз явка оказалась сильно выше, чем обычно, в игру включились избиратели, которые не вписывались в модель. Но пример победы на выборах президента Трампа и однозначные прогнозы всех аналитиков не в его пользу – это куда более убедительный пример того, что прогнозы на Big Data – дело стрёмное!

Пишите длинные тексты

… учили еще несколько лет назад те, кто наблюдал за алгоритмом ранжирования поисковой системы Google. Две тысячи знаков, цифры и буллиты, ссылки на первоисточники – это то немногое, что сулило успех в ранжировании сайта. В ходе практической реализации этого совета, SEO-специалисты начали повально писать сложные и длинные тексты, даже на главную страницу сайта – если ты знаешь алгоритм, то всегда можешь повлиять на результаты. Если вы знаете алгоритм работы прогноза на основе Big Data вы легко можете обмануть систему.

Ворота МТС

Еще в 2015 году на Форуме "Future of Telecom" руководитель направления Big Data компании "МТС" Виталий Сагинов рассказывал о подходах компании в развитии направления по работе с "большими данными". В своем докладе он отмечал: "в ближайшее время доходы компании от продажи аналитики на данных будут сопоставимы с доходами от меседжинга и SMS". Замечательно, но в мае 2018 года все новостные ленты и ТВ облетела информация о том, что житель Москвы Алексей Надежин клиент этого сотового оператора связи обнаружил, что его ворота, установленные, на въезде в садоводческое товарищество "самостоятельно" подписались на платные SMS-сервисы отвечали на посылаемую им информацию.

В пресс-службе МТС тогда рассказали, что "специалисты провели необходимые работы, чтобы подобный случай не повторился". Означает ли это, что ворота сами что-то набирали в телефоне или подписки были оформлены без согласия абонента, в комментарии компании не уточняется. Вот только на симку, установленную в автоматике ворот приходило множество СМС с коротких номеров, а ворота, оказывается, "сами" им отвечали, отправляя СМС в ответ. Ну и где же результат многолетней работы с "большими данными" для недопущения подобного? Заявлять о умении собирать, анализировать и прогнозировать на Big Data – это еще не означает делать это с адекватным качеством!

А что Procter&Gamble?

На крупнейшей европейской выставки и конференции по вопросам цифрового маркетинга Dmexco’2017, прошедшей в Кельне, Procter&Gamble в своей презентации подробно остановился на том, что компания сильно сократила бюджеты, выделяемые на программатические закупки. Крупнейший транснациональный рекламодатель такого уровня впервые открыто, на публике спорил с тезисом рекламно-технологических компаний (англ. AdTech), до сих пор утверждавших, что охват пользователей гораздо важнее источника прямого рекламного трафика. В результате компания радикально сократила список интернет-площадок на которых готова размещать свою рекламу – нет адекватной прогнозной модели, незачем тратить деньги на формирование чего-либо в будущем.

Как Сбербанк от искусственного интеллекта пострадал

В феврале 2019 года во время своего выступления на «Уроке цифры» в частной школе в Москве глава Сбербанка Герман Греф, отвечая на вопрос о рисках внедрения технологий, сказал: «Искусственный интеллект, как правило, принимает решение в больших системах. Маленькая ошибка, закравшаяся в алгоритм, может приводить к очень большим последствиям». Отвечая на запрос РБК о сути потерь от внедрения искусственного интеллекта, в пресс-службе Сбербанка уточнили, что «речь идет не о прямых убытках, а скорее о недополученной прибыли». Тем не менее, глава банка высказался о потерях определенно, смысл его заявления в том, что Сбербанк в результате ошибок искусственного интеллекта уже потерял миллиарды рублей.

Big Data в маркетинге - пора расстаться с иллюзиями

Сколько бы поколений предсказателей не жило на Земле, сколько бы шаманов и жрецов не перепробовало все возможные инструменты предсказания, результат один, – деньги из кармана озабоченного будущем перекачивали в карман предсказателя. Сегодня вооружившись сверх мощными компьютерами, предсказатели пытаются делать тоже самое, что их достопочтенные основатели этой древнейшей профессии. Представление о человеке, как о предсказуемом и прогнозируемом автомате – ошибочно. Вот сегодня Big Data – очередной фетиш и очередной "хрустальный шар" в длинном многовековом перечне атрибутов предсказателей будущего. Все "убедительные примеры" способности к предсказанию на Big Data разваливаются или будут опровергнуты жестокой реальностью в ближайшие же годы.

Имеющие доступ к статистике: банки, телефонные компании, агрегаторы, вчера еще не знали зачем эти данные им самим нужны, а сегодня непременно хотят заработать на своих клиентах еще раз, перепродав им колонки цифр.

Уставшие от хайпа с Big Data

Разумеется, нельзя сказать, что Google Flu Trends совсем не работает, а предсказание на основе Big Data – мошенничество. Просто молоток можно использовать для создания прекрасного, но большинство его используют для починки убогого, а некоторые – и вовсе не во благо. Сейчас, похоже, что сильно увеличившееся давление предсказателей на Big Data, начало маркетологам мешать. Везде! Кроме как, в России – у нас все, даже самые прогрессивные и быстро набирающие обороты тенденции, наблюдаются с запаздыванием лет на пять.

Что до остального мира, то рекламодатели устали от многолетнего хайпа вокруг Big Data. Вообще же, первое, что тогда на Dmexco’2017 бросилось в глаза в первый же день выставки – из выступлений и презентаций практически стал исчезать термин Big Data. Это было заметно, так как последние четыре года этим словосочетанием пользовался каждый второй выступающий. И причина ослабевания "Big Data давления" на бизнес-сообщество и интернет-сообщество понятна:

Много трафика – много данных, много фальшивого трафика генерирует много фальшивых данных, на основе которых строятся недостоверные модели, на следование которым тратятся многомиллиардные бюджеты.

Что же дальше?

Если до сих пор все мысли IT-специалистов и аналитиков были заняты созданием баз данных, созданием принципов хранения, классификации информации, полученной из разных источников, то теперь, когда подобные хранилища созданы, для многих брендов стала очевидной бессмысленность анализа разных источников, накопления и складирования данных как таковых. Хранение и поверхностный анализ больших объемов информации стоит больших денег и не оправдывает себя, если нет моделей сопоставления данных, если бренд не в состоянии обработать и использовать статистику для повышения эффективности продаж – нет практической ценности.

Результатом переосмысления задачи "получить доступ к данным в маркетинге" стало появление нового термина, который отражает рост спроса на эффективное использование данных. В своих выступлениях на Dmexco’2017, в блогах и на конференциях, докладчики все чаще говорят о технологиях работы с большими данными как части (англ. predictive marketing).

Ну это про маркетинг! А что же с предсказанием на Big Data вообще? Однозначно это сработает в естественных науках, там, где есть накопленные данные за многолетний период, где за это же время откатана строгая математическая модель и понимание протекающих естественных процессов. Это реально сработает если анализировать макро-тенденции, происходящие в макромасштабе – тренды общества. Это реально сработатет, если анализировать замкнутые устойчивые системы микромасштаба (деревня, магазин на станции, на которую никогда не приходят поезда со случайными покупателями). Это применимо для оценки поведения в будущем конкретного человека. Но как только появляется взаимное влияние, вновь возникающие тенденции, "черные лебеди" (Насим Талеб) – исследуемая система предстает "черным ящиком".

К 2015 году несмотря на малый срок существования сектора , уже есть оценки эффективного использования этих технологий, основанные на реальных примерах. Один из самых высоких показателей относится к энергетике – по оценкам аналитиков, аналитические технологии Big Data способны на 99% повысить точность распределения мощностей генераторов.

Анализ неудачных проектов Big data

Big data для операторов связи

  • высокоточный маркетинг (рrecise marketing) - адресное предложение продуктов и услуг тем потребителям, которые наиболее готовы к их приобретению (новые тарифные планы, дополнительные сервисы, платежные терминалы и пр.);
  • управление качеством услуг для клиента (Customer Experience Management) для повышения его удовлетворенности с целью предотвращения оттока пользователей;
  • оптимизация внутренней работы оператора и планирование развития (ROI-based Network Optimization and Planning) на основе учета всех объективных факторов и мнений потребителей с целью максимальных гарантий возврата инвестиций в кратчайшие сроки;
  • монетизация информационных активов (Data Asset Monetization) - продажа в той или иной форме (в том числе в виде долевого участия в проектах) имеющихся у оператора данных своим партнерам, чтобы они могли с их помощью решать свои задачи.

Развернув решение больших данных, мобильный оператор смог начать собирать и анализировать существенно больше информации о поведении и интересах своих клиентов, в том числе об интенсивности использования связи и географическом местоположении. Причем все эти сведения можно было увязывать с данными о работе самой сотовой сети, в том числе о ее загрузке, о возникающих сбоях и пр.

Возможности применения подобных методов видны по полученным результатам. Так, в начале 2013 г. эффективность маркетинговых предложений (для клиентов, которые их приняли) при общей массовой рассылке составляла 0,7%. К концу года за счет простой сегментации абонентов (по возрасту, полу, сроку подписки) эта величина была доведена до 4%, а в течение 2014-го повышена сначала до 11% (учет интенсивности использования услуг и местоположение клиентов) и затем до 24% (учет предпочтительных вариантов получения предложения - голосовые звонки, SMS , э-почта, социальные сети и пр.). За год удалось сократить число нерезультативных обращений к клиентам на 11 млн., существенно снизив затраты на рекламные кампании.

На основе анализа 85 параметров поведения абонентов была выделена «группа риска», потенциально готовая к уходу от услуг оператора. Внутри нее также была проведена определенная сегментация, и для каждой категории клиентов выработан комплекс мероприятий по повышению уровня их лояльности (скидки, другие тарифные планы, подарки и пр.). Заказчик провел исследование, разделив «группу риска» на две подгруппы: с первой проводились специальные действия по удержанию, с другой ничего не делалось. Анализ такой работы за год показал, что компания смогла существенно сократить отток своих действующих потребителей, удержав более 200 тыс. абонентов; при этом нужно учитывать, что стоимость удержания клиента всегда значительно ниже, чем привлечения нового пользователя.

До использования больших данных расширение географической сети оператора фактически выполнялось только на основе информации о плотности застройки и населения, но внедрив это решение, China Unicom перешел к развитию свой деятельности на базе многофакторного анализа, который учитывал такие показатели, как реальная загруженность трафика и востребованность услуг (например, с учетом места работы людей), «ценность» клиентов (по уровню жизни), требования к качеству связи (расстояние между станциями приема), востребованность разных категорий услуг (от этого зависит использование различной аппаратуры) и пр.

В плане монетизации клиентских данных для внешних партнеров были приведены два примера: во-первых, оптимизация размещения наружной рекламы, причем как в географическом плане (место проживания, работа или транспортные коммуникации нужных клиентов), так и с учетом времени для динамической рекламы (в зависимости от времени суток, дней недели и сезонов года состав публики может меняться), а во-вторых, аналогичные предложения по развитию торговых сетей (с учётом местоположения и ассортимента). Кроме того, очень выгодным оказывается целевая рассылка мобильной рекламы в реальном времени в соответствии с графиком занятости человека, его интересов и физического пребывания (например, рассылка информации о фильмах-боевиках, которыми клиент интересуется, именно в его свободное время и с учетом близлежащих кинотеатров). Общий отраслевой опыт показывает, что такие адресные методы позволяют повышать доходы от распространения рекламы в разы.

Big data в банках

«Аналитика позволит банковским организациям лучше контролировать информацию внутри компании и выявлять признаки мошенничества намного быстрее, чем это было возможно раньше», – заявила в начале 2014 года Авива Литан (Avivah Litan), ведущий аналитик и вице-президент Gartner Research.

Массовое внедрение технологий анализа больших данных осложнено тем, что банки зачастую используют разрозненные или просто устаревшие платформы. Тем не менее, уже есть примеры того, как сотрудники, отвечающие за информационную безопасность, предотвращали мошеннические операции. Помимо технологии Big Data эксперты также считают, что бороться с мошенниками позволяет внедрение современных систем идентификации пользователей. Одним из примеров является так называемая непрерывная поведенческая идентификация, анализирующая поведение клиентов на протяжении длительного времени. Это делается при помощи привязки счета к мобильному телефону.

Большие данные способны решать практически все ключевые задачи банков: привлечение клиентов, повышение качества услуг, оценка заемщиков, противодействие мошенничеству и др. Повышая скорость и качество формирования отчетности, увеличивая глубину анализа данных, участвуя в противодействии отмыванию незаконных средств, эти технологии помогают банкам соответствовать требованиям регуляторов .

Основные задачи, для которых банки используют технологии анализа больших данных, – это оперативное получение отчетности, скоринг, недопущение проведения сомнительных операций, мошенничества и отмывания денег, а также персонализация предлагаемых клиентам банковских продуктов.

Технологии больших данных применяются в основном для анализа клиентской среды. Дмитрий Шепелявый, заместитель генерального директора SAP CIS (САП СНГ) , приводит несколько примеров: «Американский банк PNC данные о поведении своих клиентов на сайтах, информацию о покупках и образе жизни конвертирует в политику гибкого начисления процентных ставок, которая в итоге выражается в цифрах роста капитализации. Commonwealth Bank of Australia (CBA) анализирует все транзакции своих вкладчиков, дополняя этот анализ сбором данных о них в социальных сетях. Связав эти потоки данных, банк добился значительного снижения процента неуплаты по кредитам. А в России интересен опыт Уральского банка реконструкции и развития – они стали работать с информацией по клиентской базе для создания кредитных предложений, вкладов и других услуг, которые могут максимально заинтересовать конкретного клиента. Примерно за год применения ИТ-решений розничный кредитный портфель УБРиР вырос примерно на 55%» .

Согласно исследованию, проведенному компанией McKinsey&Company в 2014 г., 75% опрошенных пациентов хотели бы использовать цифровые сервисы – вопреки устоявшемуся мнению о том, что большинство населения неохотно обращается к ним при лечении.

Чтобы удовлетворить потребность пациентов в качественном медицинском обслуживании, во многих странах здравоохранение все больше обращается в сторону smart технологий. В Германии , например, уже сегодня благодаря технологиям Больших данных онкологические заболевания либо предрасположенность к ним выявляются по анализу крови пациентов и доноров. В результате своевременной диагностики существенно снижаются затраты государства и самих людей, а также невероятно повышается эффективность лечения. Ведь один из самых главных врагов пациента, запустившего болезнь – время. Обратимся к упомянутой ранее онкологии. Диагностика и подбор нужной схемы лечения может забрать драгоценные минуты, которые так важны в оперативном реагировании при обнаружении злокачественных образований

Большие данные, помимо уже известных и распространенных задач, можно использовать в том числе для борьбы с заболеваниями и отслеживания роста эпидемий, считают эксперты. Так, еще за девять дней до того, как вспышка вируса Эбола была официально объявлена эпидемией, группа исследователей и ученых из Бостона при помощи больших данных смогла обнаружить распространение геморрагической лихорадки в Гвинее.

Картину движения по Западной Африке эпидемии смертельного вируса составил стартап HealthMap, работающий на базе алгоритма, учитывающего упоминания в социальных медиа, сводки местных новостей и другие данные, доступные в Сети .

Системы больших данных могут оказаться полезными в первую очередь не для обнаружения уже проявившихся вспышек тех или иных заболеваний, а для предсказания потенциально возможных эпидемий такого рода благодаря анализу доступной информации. В этом случае практически те же технологии, которые помогают маркетологам демонстрировать потребителям таргетированную рекламу или предлагать музыку и видео для просмотра, могут быть использованы для борьбы против инфекционных заболеваний, таких как Эбола.

Big data в автомобилестроении

Big data в электронной коммерции

Big data в розничной торговле

Оффлайн-розница использует большие данные, чтобы анализировать поведение покупателей, проектировать маршруты следования по торговому залу, правильно расставить товары, планировать закупки, и, в конечном итоге, повысить продажи. В онлайн-рознице на строится сам механизм продаж: пользователям предлагают товары на базе предыдущих покупок и их персональных предпочтений, информация о которых собирается, например, в соцсетях. В обоих случаях анализ больших данных помогает сократить издержки, повысить лояльность клиентов и охватить большую аудиторию. Все это – лишь базовые возможности, которые можно реализовать с помощью технологий больших данных .

Несмотря на экономический кризис, ожидается рост числа проектов по внедрению больших данных, в том числе и в ритейле. Хотя внедрение новых технологий грозит не только прибылью, но и высокими рисками, компании уже ознакомились с успехами более решительных коллег по бизнесу. В сложной экономической ситуации на первый план выходит необходимость экономить и повышать лояльность клиентов. Как раз с этими задачами и призваны справляться решения для работы с большими данными.

В борьбе за клиента ритейлеры все чаще обращаются к инновационным технологиям, таким как анализ больших данных, электронная коммерция, омниканальные сервисы, технологии RFID и т.д. В Корее, например, недавно был открыт первый в мире виртуальный магазин прямо на платформе метрополитена. Сканируя QR-коды с панелей, оклеенных изображениями различных товаров, жители Сеула складывают в свою виртуальную корзину выбранный товар, который затем доставляют им домой в удобное время. Подобные технологии, вероятно, нашли бы отклик у вечно спешащих москвичей .

Значительно выросло проникновение конкретно в этой индустрии флеш-накопителей – до 37% в 2012 году. Флеш-память играет одну из ключевых ролей в распространении контента и пост продакшене, отмечают исследователи. В период с 2012 по 2017 год требования к емкости цифровых хранилищ данных в индустрии развлечений вырастет в 5,6 раз, а требования к задействованному объему хранилищ данных в год – в 4 раза (с 22425 Пб до 87152 Пб).

Выручка от реализации систем хранения в отрасли медиа и развлечений вырастут более чем в 1,4 раза в период с 2012 по 2017 годы с $5,6 млрд до $7,8 млрд. Максимально решения для хранения данных в 2012 году были задействованы для сохранения и архивирования нового контента (98%).

По оценкам Coughlin Associates, в 2012 году от общего объема поставленной памяти 43% пришлось на ленточный формат, 41% на HDD, 16% на оптические диски и 0,2% на флеш (которая используется в основном в цифровых камерах и некоторых системах дистрибуции медиа). К 2017 году на ленты будет приходиться только 38%, а на HDD – уже 59%, на оптические диски – 3% и на флеш – 0,3%.

Общая выручка от реализации носителей и устройств, используемых в медиа и индустрии развлечений, вырастет в период с 2012 по 2017 год в 1,3 раза с $774 млн до $974 млн.

Big data в маркетинге

Когда конкуренция обостряется, для компаний важно предлагать клиентам свои услуги в тот момент, когда они наиболее востребованы, причем делать это быстро. Поэтому роль маркетинга возрастает - это уже не побочная ветвь бизнеса, как было раньше. Согласно данным исследования IBM , 63% главных исполнительных директоров пользуются помощью директоров по маркетингу (CMO) в выработке своей бизнес-стратегии. По уровню вовлеченности в этот процесс CMO опережают только главные финансовые директора с показателем 72%.

Теперь маркетологи могут воспользоваться современными технологиями big data и мощной аналитикой, что многократно усиливает возможности маркетинговых подразделений. Если раньше в их распоряжении были небольшие фрагменты данных, на основном которых приходилось выстраивать картину целого, да и сами данные подчас хранились там, откуда извлечь их было проблематично, то теперь положение дел изменилось.

Директора по маркетингу комбинируют данные из внутренних и внешних источников. Во-первых, люди сами о себе сообщают много информации, например, в социальных сетях. Там можно отслеживать их предпочтения или критику услуг. Анализ таких данных позволяет делать клиентам персонифицированные предложения. Особенно важно это для организаций, относящихся к сектору СМБ. Более того, небольшие компании подчас вынуждены открывать у себя новые направления бизнеса, если это требуется их клиентам.

Корпорация IBM ежегодно, начиная с 2004 года, проводит исследование, в котором опрашиваются директора компаний. В новом исследовании, которое назвали «Принимая вызов: Каким образом CMO могут начать заполнение информационных брешей» приняли участие более пятисот главных директоров по маркетингу компаний из 56 стран и 19 отраслей со всего мира.

Результаты исследования показали, что 94% опрошенных считают, что аналитика будет играть важную роль в достижении поставленных целей. Вместе с тем, возросло число директоров (82% респондентов по сравнению с 71% тремя годами ранее), которые полагают, что их организации недостаточно подготовлены к извлечению реальной экономической выгоды из взрывного роста данных.

Исследование также показало - когда директор по маркетингу тесно взаимодействует с директором по информационным технологиям, предприятие, как правило, функционирует более успешно. Приоритеты директоров по маркетингу сейчас соответствуют потребностям цифровой экономики. В 2013 году впервые на 1 место в числе приоритетов вышел пункт «развитие технологий».

Еще один факт: 94% руководителей отделов маркетинга считают, что ключевым фактором будущего успеха будут мобильные технологии. Три года назад такое мнение высказали 80% респондентов. Многие участники опроса – 58% респондентов заявили, что могут заниматься делами бизнеса независимо от своего местонахождения или используемого устройства.

Большие данные гражданской авиации

Согласно прогнозу аналитиков, 67% компаний из аэрокосмической отрасли реализуют проекты на основе Big Data , ещё 10% планируют такие проекты. Что касается авиакомпаний, то здесь реализация проектов на февраль 2019 года заявлена у 44% компаний, а планы на такие проекты анонсировали 25%.

Это результаты исследования, которое провела в декабре 2017 года компания FlightGlobal относительно роли Big Data для аэрокосмических предприятий и авиакомпаний. Аналитики также выяснили мнение по поводу совместного использования данных по состоянию самолётов с производителями и компаниями, осуществляющими ремонт и техническое обслуживание (ТО) . В исследовании приняли участие 300 профессионалов из аэрокосмической и авиационной отрасли. Большинство из них уверены, что технологии Big Data способны повысить операционную надёжность и эффективность авиакомпаний.

Приблизительно половина респондентов ответила, что их компании используют массивы данных о состоянии самолётов, что помогает им принимать более выверенные решения. В ближайшей перспективе доля таких компаний вырастет до 75%.

Совместное использование данных с OEM/MRO всё ещё остаётся проблематичным. Однако 38% авиакомпаний полагают, что такая модель может обеспечить им значительные бизнес-преимущества.

Согласно данным из опубликованного в мае 2018 года обзора компании Honeywell "Connected Aircraft" , 47% опрошенных авиакомпаний планируют потратить в целях подключения воздушных судов к Сети до 1 млн. долларов в течение следующего года на каждый самолёт, эксплуатируемый ими. Большинство этих компаний планирует уложиться в суммы от 0.1 до 0.5 млн. долларов. Однако, в пятилетней перспективе 38% авиаперевозчиков анонсировали инвестиции уже в размере 1-10 млн. долларов на каждый самолёт.

До февраля 2019 года при инвестировании авиакомпаниями в смежные к авиации технологии (connected technologies) речь шла, прежде всего, об обеспечении спутниковой связи и Wi-Fi . Теперь же компании готовы извлекать выгоду из тех данных, которые они могут получать путем использования оборудования непосредственно на борту самолётов. Например, такие данные могут обеспечить им экономию в размере 1% от потребляемого топлива, что эквивалентно 50 000 долларов на самолёт в год, подсчитали аналитики Honeywell. Подробнее .

Любое действие пользователя в интернете — давно не тайна за семью печатями. Вы можете отслеживать буквально всё — от онлайн-покупок до лайков — благодаря концепции Big Data. Результат — вы узнаёте больше о целевой аудитории и делаете персонализированные предложения. Точнее, всё делает за вас машина: и проанализирует, и даже оптимальное решение примет.

Скажете, это фантастика? Конечно, механизм пока не так распространен, особенно в России, и не полностью отлажен, но первые шаги на пути к этому точно сделаны.

Если речь идет о больших данных, важно не то, сколько вы их собрали, а то, как вы их используете. Вообще Big Data — это универсальная методика. В этой статье мы рассмотрим её применение в маркетинге и продажах.

Что такое Big Data

Крупные транспортные компании, интернет-магазины, телеком-провайдеры, SaaS-сервисы, банки — одним словом, компании с большой клиентской базой собирают огромный объем информации.

Это не только персональные данные (имя, email, телефон, пол, возраст, география), а также IP-адрес, время посещения сайта, количество визитов, запросы на сайте, история покупок и т.д. У каждой фирмы — своя специфика и свои уникальные данные, которые доступны только ей.

Например, сервис такси «знает» каждый шаг и секунду, которую пользователь провел в поездке. Банковский онлайн-сервис — за что, когда и какой суммой расплачивался. Интернет-магазин — какие товары смотрел, положил в корзину или добавил в избранное и т.д.

То есть это не только те данные, которые накапливает каждый бизнес в CRM-системе. Это всё, что компании может быть известно о клиентах, и это может измеряться терабайтами информации в отдельных случаях. Обычные базы не могут обрабатывать такие объемы. Хотя бы потому, что данные регулярно меняются и прибывают — вертикально (+ новый клиент) и горизонтально (+ дополнительная информация о клиенте).

Кроме того, они разноплановые и неструктурированные, так как представлены в абсолютно разных источниках, например:

  • Блоги и соцсети;
  • Аудио- и видеофайлы;
  • Корпоративные базы данных;
  • Датчики, измерительные устройства и сенсорные сети.

Это и есть Big Data. Нечто более абстрактное, чем физические документы, поэтому и управлять ими человеку не под силу. На помощь приходят машинные алгоритмы.

Data Mining или как собираются и обрабатываются большие данные

Откуда берутся большие данные?

Во-первых, это ваш сайт и все точки захвата контактных данных.

Во-вторых, счетчики и системы аналитики (Яндекс.Метрика, Google Analytics).

Как обрабатываются большие данные? Вот основные решения рынка Big Data:

Системы управления базами данных (Sap, Oracle, Microsoft, IBM и другие), которые хранят и обрабатывают информацию, анализируют динамику показателей и предоставляют результаты в статистических отчетах;

  • Сервисы управления закупками RTB-рекламы, которые предсказывают действия целевых пользователей и таргетируют рекламу в онлайн-каналах (например, Segmento, RTB-Media);
  • Сервисы товарных рекомендаций, которые показывают на сайте товары, максимально интересные для конкретного пользователя (RetailRocket, 1С-Битрикс BigData);
  • Сервисы персонализации контента, которые показывают пользователям наиболее подходящие версии страниц ресурса (Personyze, Monoloop, Crosss);
  • Сервисы персонализации рассылок, которые отправляют таргетированные письма (например, Vero, Personyze);

Эти системы активно сотрудничают между собой, совершенствуются и обновляют функционал.

Как работает технология Big Data и что такое Data Science

Практическая суть такого подхода — в минимизации вовлеченности человека в процесс принятия решения. На этом основана концепция Data Science (дословно — «наука о данных»).

Согласно этой концепции, большими данными управляет статистическая модель. Она находит скрытые взаимосвязи в данных и максимально точно (благодаря объективности и широкой выборке данных) предсказывает поведение конкретного пользователя — купит ли он продукт, подпишется ли на рассылку, заинтересуется ли статьей.

При этом происходит непрерывный процесс самообучения. То есть машина сама учится (принцип Machine Learning) в реальном времени и создает алгоритмы для оптимизации бизнес-процессов.

Она самостоятельно определяет и подсказывает:

  • Что, где и когда предложить пользователю для максимальной вероятности конверсии;
  • Как увеличить кросс-продажи и дополнительные продажи;
  • Какие товары самые популярные и почему;
  • Как улучшить продукт / сервис под потребности ЦА.

В ритейле машины могут принимать следующие решения:

  • Где открыть следующий магазин;
  • Какие маркетинговые акции проводить;
  • Как прогнозировать продажи в будущем периоде;
  • Как выделить «ядро» аудитории;
  • Насколько повысить / снизить цены в следующем месяце;
  • Как оптимизировать маркетинговый бюджет;
  • Как определить клиентов, которые уйдут в будущем месяце.

В маркетинге это позволяет сегментировать целевую аудиторию, разрабатывать креативы и персональные предложения для каждого сегмента. К сожалению, на данный момент этот процесс автоматизирован лишь частично.

Вот вам пример.

Компания Target решила нестандартную задачу — таргетироваться на беременных женщин до того, как они будут вводить тематические запросы, поделятся новостью в соцсетях или другими способами расскажут об этом в интернете.

Как это удалось? Помогли знания о покупательских привычках. А именно Target обнаружил в ходе исследования, что будущие мамы покупают много лосьона без запаха, хлопчатобумажных салфеток и махровых мочалок.

Другой пример.

Российский сервис электронных книг Bookmate мало знал о реальных интересах своих пользователей. Они заходили в приложение, но предлагаемые книги их не интересовали. Ситуация улучшилась благодаря использованию информации из соцсетей. Просмотры рекомендаций выросли в 2,17 раза, а конверсия в платящих пользователей — в 1,4 раза.

Авиакомпания British Airways вывела персонализацию на абсолютно новый уровень. В рамках программы Know Me она распознает лица клиентов с помощью сервиса Google Images. Персонал узнает пассажиров в терминалах аэропортов или на борту самолета и лично приветствует их по имени.

Помимо этого, персональные данные пассажиров о предыдущих рейсах позволяют авиакомпании принести личные извинения тем, чем рейс в прошлом был задержан или чей багаж потерялся.

Эта и другая информация о базе (например, предпочтения в еде) есть в доступе у бортпроводников British Airways на специальных рабочих планшетах.

Big Data в e-commerce: кейс Нетологии

Цель — оптимизировать маркетинговые коммуникации для 3 интернет-магазинов косметики и средств ухода с ассортиментом более 500 товаров.

Что для этого сделали специалисты «Нетологии»?

Начали со сбора всех доступных данных о потребительском поведении клиентской базы — около 100 тысяч потребителей — из популярных ecommerce-систем Magento и Shopify.

  • Информация о покупках, корзинах, среднем чеке, времени заказов и т.д.;
  • Обратная связь подписчиков email-рассылки: данные об открытии писем и переходов по ссылкам из сервисов типа Mailchimp и Dotmailer, а также о последующей активности на сайте (просмотр карточек товаров, категорий, покупки после рассылки);
  • Активность повторных посещений постоянных клиентов по данным о просмотрах товаров до совершения покупки.

Из этих данных получили следующие показатели:

  • Оптимальный размер скидки;
  • Время жизни клиента и его общую ценность (LTV);
  • Вероятность повторных покупок.

Таким образом получился полноценный образ каждого клиента с уникальным набором предпочтений, привычек и особенностей.

Допустим:

Клиент А. Покупает каждый месяц один и тот же шампунь для волос. Нет причин делать дополнительные акции на этот товар для этого клиента. Лучше предложить ему через месяц купить дополнительно кондиционер или маску того же бренда.

Клиент B. Один раз купил туалетную воду и духи и после ничего не покупал. Однако просматривает рассылки от интернет-магазина и интересуется декоративной косметикой. Есть вероятность, что клиент В совершает покупки в другом месте. Предложение набора теней со скидкой может послужить решающим стимулом совершения покупки.

На основе этой информации система сформировала сегменты для запуска кампаний через email и Facebook — за неделю получилось от 40 до 100 автоматизированных кампаний для каждого бренда.

В ходе сбора данных исследователи выявили ряд триггеров. Например, некоторая группа пользователей просматривают почту по утрам, а вечером возвращаются домой и покупают увиденный товар. Есть смысл продублировать им товарное предложение вечером через дополнительный канал.

Результат: удалось утроить повторные продажи, повысить open rate писем в среднем на 70%, а конверсия из получивших письмо — на 83%.

«Очеловечивание» данных: кейс Яндекс.Такси

У Яндекс.Такси есть уникальные данные обо всех поездках. На основе них можно маркетинговые коммуникации сделать более эмоциональными. Основная идея — по-дружески «общаться» с клиентами и ненавязчиво напоминать о себе. Реализовать её помогла персональная статистика в виде историй и характеров.

Медиафасады

Маркетологи Яндекс.Такси выяснили самые популярные места в городе и маршруты. Для этого подсчитали количество заказов к самым значимым местам: паркам, театрам, музеям, памятникам. Эти данные не такие персональные и никого не обижают, но показывают, чем живет город.

Такие наблюдения позволили реализовать идею личного общения с аудиторией посредством медиафасадов. Дизайн оформили в виде дружеских сообщений в чате. Для каждого города — свои фразы.

Компания как будто перекидывается с человеком фразой, которую поймет только он. Ему приятно, так как это внимание и участие, а Яндекс.Такси рассчитывает на повышение узнаваемости бренда в городе.

При составлении текста использовали следующие приемы:

  • Городской сленг — местные слова, которые понимают все жители. Искали их в городских пабликах и форумах, а также уточняли у региональных менеджеров и краеведов. Например, в Казани загс называют «Чаша», набережную в Екатеринбурге — «Драма»;
  • Игра слов. Вот примеры:

3 090 человек, которые доехали до Мадрида на такси. А вы знаете толк в путешествиях! («Мадрид» — гостиница в Екатеринбурге).

958 человек, которые умчались к Юпитеру. Вы просто космос! («Юпитер» — название компании).

Это был тестовый эксперимент, сейчас Яндекс разрабатывает более комплексную кампанию с привлечением разных онлайн- и офлайн-источников.

Новогодние ролики

По итогам 2017 года Яндекс.Такси хотели рассказать клиентам, сколько времени они провели вместе и поблагодарить за это — сколько поездок, минут ожидания и утренних заказов.

Чтобы сделать это интересно, придумали вероятный сюжет для одной из миллиона поездок и сняли ролик на эту тему с цифрами из статистики.

Получилось следующее:


764 миллиона минут ожидания — влюбленная пара прощается у такси.


56 миллионов утренних поездок за год — мама с дочкой едут на утренник.


122 тысячи поездок с животными.

По результатам первой попытки выяснили, что ролики выглядят так, будто бренд хвастается большими числами. Чтобы точнее донести посыл «посмотрите, сколько времени в этом году мы провели вместе», статистику поменяли, чтобы сместить фокус на персонажей истории.


Сами по себе цифры ни о чём не говорят. Сложно понять, большая эта цифра или маленькая, и что ею хотели показать. Яндекс использовал данные не как самоцель, а как способ рассказать историю.

Пасхалки в приложении

Компания также придумала характеры для своих клиентов — «такситипы» — в зависимости от количества поездок, их длительности и минут ожидания. Механизм определения учитывал три этих характеристики, складывал из них образ клиента и относил к одной из категорий:


Данные оценивались по тому городу, где человек сделал свыше 70% поездок.

Алгоритм находил медиану по городу и относительно неё оценивал метрики — «много» или «мало» поездок, минут поездки и ожидания.

Узнать свой «такситип» мог каждый пользователь, который совершил больше 4 поездок за год, в приложении по кнопке:


Например:


Черная пума: ездил много, поездки короткие, редко выходил вовремя


Дальновидный странник: ездил много, долго и выходил к автомобилю вовремя

20% из тех, кто просматривал, заскринивали результаты и делились ими в соцсетях — это в два раза больше, чем предвещали прогнозы!

Статистика для водителей


Будущее Big Data

Эксперименты с большими данными продолжаются.

Яндекс — одна из компаний-пионеров, которые не только обучают концепции Data Science, но и активно используют её в разработке собственных продуктов.

Возьмем блоговую платформу Яндекс.Дзен. Она доступна в разных странах. Не нужно сортировать материал по темам и другим параметрам и настраивать показ на определенные категории пользователей. Каждый будет читать статьи, которые ему интересны и получать новую подборку похожих. Система просто предлагает то, что ему вероятнее всего понравится.

Дело в том, что машинный интеллект направлен не на усреднение. Он не стремится создать ограниченное количество сегментов, так как его возможности позволяют предлагать персонализированный контент каждому из нескольких миллиардов пользователей.

Зарубежным аналогом можно назвать alexa.com - это рейтинг наиболее посещаемых сайтов во всем мире и в разных странах по отдельности (выборки по странам платные и стоят денег).

Автоматический сбор данных (через свои сервисы, такие как «Яндекс.Браузер» и др.) и статистические модели позволяют включать в список сайты, которые в других рейтингах не принимают участия.

Даже в текущем виде это дает возможность в различных нишах выявлять лидеров и с помощью других сервисов моделировать их стратегии продвижения и источники трафика.

Допустим, вы отбираете 5-10 пользователей — а машина находит тысячи похожих и настраивает на них таргетинг. Преимущество машинного интеллекта в том, что он учитывает факторы, которые даже опытный специалист может упустить из виду, не догадаться о них.

  • Научитесь отличать, какие решения лучше принимает человек, а какие — машина, и не путайте два этих класса. Если с однотипными задачами (выбрать дизайн кнопки) алгоритмы справляются лучше, более творческие (сконструировать сайт с нуля) сможет только человек.
  • Обучайте не только людей, но и алгоритмы;
  • Учитывайте, что хотя алгоритмы великолепно отвечают на вопросы, но сами задавать вопросы не умеют. Хотя возможно, это тоже вопрос времени.

Кстати, вопрос о «противостоянии» человека и машинного интеллекта поднимается всё чаще. По этому поводу посмотрите баттл Андрей Себрант vs Антон Буланов (директор ИНВИТРО — крупнейшей частной медицинской компании).

Про сегментацию, маркетологов с топорами, прожигание бюджетов и появится ли в скором будущем кнопка «Приведите мне клиентов».

Смотрится на одном дыхании.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации , быстродействие ее обработки и разнообразие сведений , хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value , что обозначает ценность информации . То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

К основным методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

  1. Краудсорсинг.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

  1. А/В-тестирование.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

  1. Прогнозная аналитика.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

  1. Сетевой анализ.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

  • Облачные хранилища.

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

  • Использование Dark Data.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

Предисловие

“Big data” - модный нынче термин, фигурирующий почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM. Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, веб-аналитике, медицине и др.

Вместе со стремительным накоплением информации быстрыми темпами развиваются и технологии анализа данных. Если еще несколько лет назад было возможно, скажем, лишь сегментировать клиентов на группы со схожими предпочтениями, то теперь возможно строить модели для каждого клиента в режиме реального времени, анализируя, например, его перемещение по сети Интернет для поиска конкретного товара. Интересы потребителя могут быть проанализированы, и в соответствии с построенной моделью выведена подходящая реклама или конкретные предложения. Модель также может настраиваться и перестраиваться в режиме реального времени, что было немыслимо еще несколько лет назад.

В области телекоммуникации, например, развиты технологии для определения физического расположения сотовых телефонов и их владельцев, и, кажется, в скором времени станет реальностью идея, описанная в научно-фантастическом фильме «Особое мнение», 2002 года, где отображение рекламной информации в торговых центрах учитывала интересы конкретных лиц, проходящих мимо.

В то же время, существуют ситуации, когда увлечение новыми технологиями может привести и к разочарованию. Например, иногда разреженные данные (Sparse data ), дающие важное понимание действительности, являются гораздо более ценными, чем Большие данные (Big Data), описывающие горы, зачастую, не существенной информации.

Цель данной статьи - прояснить и обдумать новые возможности Big Data и проиллюстрировать, как аналитическая платформа STATISTICA компании StatSoft может помочь в эффективном использовании Big Data для оптимизации процессов и решения задач.

Насколько большие Big Data?

Конечно, правильный ответ на данный вопрос должен звучать - «это зависит…»

В современных обсуждениях понятие Big Data описывают как данные объема в порядках терабайт.

На практике (если речь идет о гигабайтах или терабайтах), такие данные легко хранить и управлять ими с помощью «традиционных» баз данных и стандартного оборудования (сервера баз данных).

Программное обеспечение STATISTICA использует многопоточную технологию для алгоритмов доступа к данным (чтения), преобразования и построения прогностических (и скоринговых) моделей, поэтому такие выборки данных могут быть легко проанализированы, и не требуют специализированных инструментов.

В некоторых текущих проектах StatSoft обрабатываются выборки порядка 9-12 миллионов строк. Умножим их на 1000 параметров (переменных), собранных и организованных в хранилище данных для построения рисковых или прогностических моделей. Такого рода файл будет иметь объем “только” около 100 гигабайт. Это, конечно, не маленькое хранилище данных, но его размеры не превышают возможностей технологии стандартных баз данных.

Линейка продуктов STATISTICA для пакетного анализа и построения скоринговых моделей (STATISTICA Enterprise ), решения, работающие в режиме реального времени (STATISTICA Live Score ), и аналитические инструменты для создания и управления моделями (STATISTICA Data Miner , Decisioning ) легко масштабируются на несколько серверов с многоядерными процессорами.

На практике это означает, что достаточная скорость работы аналитических моделей (например, прогнозы в отношении кредитного риска, вероятности мошенничества, надежности узлов оборудования, и т.д.) позволяющая принимать оперативные решения, почти всегда может быть достигнута с помощью стандартных инструментов STATISTICA .

От больших объемов данных к Big Data

Как правило, обсуждение Big Data сосредоточено вокруг хранилищ данных (и проведении анализа, основанных на таких хранилищах), объемом намного больше, чем просто несколько терабайт.

В частности, некоторые хранилища данных могут вырасти до тысячи терабайт, т.е., до петабайт (1000 терабайт = 1 петабайт).

За пределами петабайт, накопление данных может быть измерено в эксабайтах, например, в производственном секторе по всему миру в 2010 году, по оценкам, накоплено в общей сложности 2 эксабайта новой информации (Manyika et al., 2011 г.).

Существуют отрасли, где данные собираются и накапливаются очень интенсивно.

Например, в производственной сфере, такой как электростанции, непрерывный поток данных генерируется иногда для десятков тысяч параметров каждую минуту или даже каждую секунду.

Кроме того, за последние несколько лет, внедряются так называемые “smart grid” технологии, позволяющие коммунальным службам измерять потребление электроэнергии отдельными семьями каждую минуту или каждую секунду.

Для такого рода приложений, в которых данные должны храниться годами, накопленные данные классифицируются как Extremely Big Data.

Растет и число приложений Big Data среди коммерческих и государственных секторов, где объем данных в хранилищах, может составлять сотни терабайт или петабайт.

Современные технологии позволяют «отслеживать» людей и их поведение различными способами. Например, когда мы пользуемся интернетом, делаем покупки в Интернет-магазинах или крупных сетях магазинов, таких как Walmart (согласно Википедии, хранилище данных Walmart оценивается более чем в 2 петабайт), или перемещаемся с включенными мобильными телефонами - мы оставляем след наших действий, что приводит к накоплению новой информации.

Различные способы связи, от простых телефонных звонков до загрузки информации через сайты социальных сетей, таких как Facebook (согласно данным Википедии, обмен информацией каждый месяц составляет 30 млрд. единиц), или обмен видео на таких сайтах, как YouTube (Youtube утверждает, что он загружает 24 часа видео каждую минуту; см. Wikipedia), ежедневно генерируют огромное количество новых данных.

Аналогичным образом, современные медицинские технологии генерируют большие объемы данных, относящиеся к оказанию медицинской помощи (изображения, видео, мониторинг в реальном времени).

Итак, классификацию объемов данных можно представить так:

Большие наборы данных: от 1000 мегабайт (1 гигабайт) до сотен гигабайт

Огромные наборы данных: от 1000 гигабайт (1терабайт) до нескольких терабайт

Big Data: от нескольких терабайт до сотен терабайт

Extremely Big Data: от 1000 до 10000 терабайт = от 1 до 10 петабайт

Задачи, связанные с Big Data

Существуют три типа задач связанных с Big Data:

1. Хранение и управление

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных.

2. Неструктурированная информация

Большинство всех данных Big Data являются неструктурированными. Т.е. как можно организовать текст, видео, изображения, и т.д.?

3. Анализ Big Data

Как анализировать неструктурированную информацию? Как на основе Big Data составлять простые отчеты, строить и внедрять углубленные прогностические модели?

Хранение и управление Big Data

Big Data обычно хранятся и организуются в распределенных файловых системах.

В общих чертах, информация хранится на нескольких (иногда тысячах) жестких дисках, на стандартных компьютерах.

Так называемая «карта» (map) отслеживает, где (на каком компьютере и/или диске) хранится конкретная часть информации.

Для обеспечения отказоустойчивости и надежности, каждую часть информации обычно сохраняют несколько раз, например - трижды.

Так, например, предположим, что вы собрали индивидуальные транзакции в большой розничной сети магазинов. Подробная информация о каждой транзакции будет храниться на разных серверах и жестких дисках, а «карта» (map) индексирует, где именно хранятся сведения о соответствующей сделке.

С помощью стандартного оборудования и открытых программных средств для управления этой распределенной файловой системой (например, Hadoop ), сравнительно легко можно реализовать надежные хранилища данных в масштабе петабайт.

Неструктурированная информация

Большая часть собранной информации в распределенной файловой системе состоит из неструктурированных данных, таких как текст, изображения, фотографии или видео.

Это имеет свои преимущества и недостатки.

Преимущество состоит в том, что возможность хранения больших данных позволяет сохранять “все данные”, не беспокоясь о том, какая часть данных актуальна для последующего анализа и принятия решения.

Недостатком является то, что в таких случаях для извлечения полезной информации требуется последующая обработка этих огромных массивов данных.

Хотя некоторые из этих операций могут быть простыми (например, простые подсчеты, и т.д.), другие требуют более сложных алгоритмов, которые должны быть специально разработаны для эффективной работы на распределенной файловой системе.

Один топ-менеджер однажды рассказал StatSoft что он «потратил целое состояние на IT и хранение данных, но до сих пор не начал получать денег», потому что не думал о том, как лучше использовать эти данные для улучшения основной деятельности.

Итак, в то время как объем данных может расти в геометрической прогрессии, возможности извлекать информацию и действовать на основе этой информации, ограничены и будут асимптотически достигать предела.

Важно, чтобы методы и процедуры для построения, обновления моделей, а также для автоматизации процесса принятия решений были разработаны наряду с системами хранения данных, чтобы гарантировать, что такие системы являются полезными и выгодными для предприятия.

Анализ Big Data

Это действительно большая проблема, связанная с анализом неструктурированных данных Big Data: как анализировать их с пользой. О данном вопросе написано гораздо меньше, чем о хранении данных и технологиях управления Big Data.

Есть ряд вопросов, которые следует рассмотреть.

Map-Reduce

При анализе сотни терабайт или петабайт данных, не представляется возможным извлечь данные в какое-либо другое место для анализа (например, в STATISTICA Enterprise Analysis Server ).

Процесс переноса данных по каналам на отдельный сервер или сервера (для параллельной обработки) займет слишком много времени и требует слишком большого трафика.

Вместо этого, аналитические вычисления должны быть выполнены физически близко к месту, где хранятся данные.

Алгоритм Map-Reduce представляет собой модель для распределенных вычислений. Принцип его работы заключается в следующем: происходит распределение входных данных на рабочие узлы (individual nodes) распределенной файловой системы для предварительной обработки (map-шаг) и, затем, свертка (объединение) уже предварительно обработанных данных (reduce-шаг).

Таким образом, скажем, для вычисления итоговой суммы, алгоритм будет параллельно вычислять промежуточные суммы в каждом из узлов распределенной файловой системы, и затем суммировать эти промежуточные значения.

В Интернете доступно огромное количество информации о том, каким образом можно выполнять различные вычисления с помощью модели map-reduce, в том числе и для прогностической аналитики.

Простые статистики, Business Intelligence (BI)

Для составления простых отчетов BI, существует множество продуктов с открытым кодом, позволяющих вычислять суммы, средние, пропорции и т.п. с помощью map-reduce.

Таким образом, получить точные подсчеты и другие простые статистики для составления отчетов очень легко.

Прогнозное моделирование, углубленные статистики

На первый взгляд может показаться, что построение прогностических моделей в распределенной файловой системой сложнее, однако это совсем не так. Рассмотрим предварительные этапы анализа данных.

Подготовка данных. Некоторое время назад StatSoft провел серию крупных и успешных проектов с участием очень больших наборов данных, описывающих поминутные показатели процесса работы электростанции. Цель проводимого анализа заключалась в повышении эффективности деятельности электростанции и понижении количества выбросов (Electric Power Research Institute, 2009).

Важно, что, несмотря на то, что наборы данных могут быть очень большими, информация, содержащаяся в них, имеет значительно меньшую размерность.

Например, в то время как данные накапливаются ежесекундно или ежеминутно, многие параметры (температура газов и печей, потоки, положение заслонок и т.д.) остаются стабильными на больших интервалах времени. Иначе говоря, данные, записывающиеся каждую секунду, являются в основном повторениями одной и той же информации.

Таким образом, необходимо проводить “умное” агрегирование данных, получая для моделирования и оптимизации данные, которые содержат только необходимую информацию о динамических изменениях, влияющих на эффективность работы электростанции и количество выбросов.

Классификация текстов и предварительная обработка данных. Проиллюстрируем ещё раз, как большие наборы данных могут содержать гораздо меньше полезной информации.

Например, StatSoft участвовал в проектах, связанных с анализом текстов (text mining) из твитов, отражающих, насколько пассажиры удовлетворены авиакомпаниями и их услугами.

Несмотря на то, что ежечасно и ежедневно было извлечено большое количество соответствующих твитов, настроения, выраженные в них, были довольно простыми и однообразными. Большинство сообщений - жалобы и краткие сообщения из одного предложения о “плохом опыте”. Кроме того, число и “сила” этих настроений относительно стабильны во времени и в конкретных вопросах (например, потерянный багаж, плохое питание, отмена рейсов).

Таким образом, сокращение фактических твитов до скора (оценки) настроения, используя методы text mining (например, реализованные в STATISTICA Text Miner ), приводит к гораздо меньшему объему данных, которые затем могут быть легко сопоставлены с существующими структурированными данными (фактические продажи билетов, или информация о часто летающих пассажирах). Анализ позволяет разбить клиентов на группы и изучить их характерные жалобы.

Существует множество инструментов для проведения такого агрегирования данных (например, скор настроений) в распределенной файловой системе, что позволяет легко осуществлять данный аналитический процесс.

Построение моделей

Часто задача состоит в том, чтобы быстро построить точные модели для данных, хранящихся в распределенной файловой системе.

Существуют реализации map-reduce для различных алгоритмов data mining/прогностической аналитики, подходящих для масштабной параллельной обработки данных в распределенной файловой системе (что может быть поддержано с помощью платформы STATISTICА StatSoft).

Однако, именно из-за того, что вы обработали очень большое количество данных, уверенны ли вы, что итоговая модель является действительно более точной?

На самом деле, скорее всего, удобнее строить модели для небольших сегментов данных в распределенной файловой системе.

Как говорится в недавнем отчете Forrester: «Два плюс два равняется 3,9 - это обычно достаточно хорошо» (Hopkins & Evelson, 2011).

Статистическая и математическая точность заключается в том, что модель линейной регрессии, включающая, например, 10 предикторов, основанных на правильно сделанной вероятностной выборке из 100 000 наблюдений, будет так же точна, как модель, построенная на 100 миллионах наблюдений.

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то