Что не входит в характеристики больших данных. Анализ данных в масштабах планеты

По материалам research&trends

Big Data, «Большие данные» вот уже несколько лет как стали притчей во языцех в IT-и маркетинговой прессе. И понятно: цифровые технологии пронизали жизнь современного человека, «все пишется». Объем данных о самых разных сторонах жизни растет, и одновременно растут возможности хранения информации.

Глобальные технологии для хранения информации

Источник: Hilbert and Lopez, `The world"s technological capacity to store, communicate, and compute information,`Science, 2011 Global.

Большинство экспертов сходятся во мнении, что ускорение роста объема данных является объективной реальностью. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – вот лишь несколько видов источников, способных генерировать гигантские объемы информации. По данным исследования IDC Digital Universe , опубликованного в 2012 году, ближайшие 8 лет количество данных в мире достигнет 40 Зб (zettabytes) что эквивалентно 5200 Гб на каждого жителя планеты.

Рост собираемой цифровой информации в США


Источник: IDC

Значительную часть информации создают не люди, а роботы, взаимодействующие как друг с другом, так и с другими сетями данных – такие, как, например, сенсоры и интеллектуальные устройства. При таких темпах роста количество данных в мире, по прогнозам исследователей, будет ежегодно удваиваться. Количество виртуальных и физических серверов в мире вырастет десятикратно за счет расширения и создания новых data-центров. В связи с этим растет потребность в эффективном использовании и монетизации этих данных. Поскольку использование Big Data в бизнесе требует немалых инвестиций, то надо ясно понимать ситуацию. А она, в сущности, проста: повысить эффективность бизнеса можно сокращая расходы или/и увеличивая объем продаж.

Для чего нужны Big Data

Парадигма Big Data определяет три основных типа задач.

  • Хранение и управление объемом данных в сотни терабайт или петабайт, которые обычные реляционные базы данных не позволяют эффективно использовать.
  • Организация неструктурированной информации, состоящей из текстов, изображений, видео и других типов данных.
  • Анализ Big Data, который ставит вопрос о способах работы с неструктурированной информацией, генерацию аналитических отчетов, а также внедрение прогностических моделей.

Рынок проектов Big Data пересекается с рынком бизнес-аналитики (BA), объем которого в мире, по оценкам экспертов, в 2012 году составил около 100 млрд. долларов. Он включает в себя компоненты сетевых технологий, серверов, программного обеспечения и технических услуг.

Также использование технологий Big Data актуально для решений класса гарантирования доходов (RA), предназначенных для автоматизации деятельности компаний. Современные системы гарантирования доходов включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно обнаружить возможные потери, либо искажение информации, способные привести к снижению финансовых результатов. На этом фоне российские компании, подтверждающие наличие спроса технологий Big Data на отечественном рынке, отмечают, что факторами, которые стимулируют развитие Big Data в России, являются рост данных, ускорение принятия управленческих решений и повышение их качества.

Что мешает работать с Big Data

Сегодня анализируется только 0,5% накопленных цифровых данных, несмотря на то, что объективно существуют общеотраслевые задачи, которые можно было бы решить с помощью аналитических решений класса Big Data. Развитые IT-рынки уже имеют результаты, по которым можно оценить ожидания, связанные с накоплением и обработкой больших данных.

Одним из главных факторов, который тормозит внедрение Big Data - проектов, помимо высокой стоимости, считается проблема выбора обрабатываемых данных : то есть определение того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Многие представители бизнеса отмечают, что сложности при внедрении Big Data-проектов связаны с нехваткой специалистов – маркетологов и аналитиков. От качества работы сотрудников, занимающихся глубинной и предикативной аналитикой, напрямую зависит скорость возврата инвестиций в Big Data. Огромный потенциал уже существующих в организации данных часто не может быть эффективно использован самими маркетологами из-за устаревших бизнес-процессов или внутренних регламентов. Поэтому часто проекты Big Data воспринимаются бизнесом как сложные не только в реализации, но и в оценке результатов: ценности собранных данных. Специфика работы с данными требует от маркетологов и аналитиков переключения внимания с технологий и создания отчетов на решение конкретных бизнес-задач.

В связи с большим объемом и высокой скоростью потока данных, процесс их сбора предполагает процедуры ETL в режиме реального времени. Для справки: ETL – от англ. Extract , Transform , Load - дословно «извлечение, преобразование, загрузка») - один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников, их трансформацию и очистку с целью соответствия нуждам ETL следует рассматривать не только как процесс переноса данных из одного приложения в другое, но и как инструмент подготовки данных к анализу.

И тогда вопросы обеспечения безопасности данных, поступающих из внешних источников, должны иметь решения, соответствующие объемам собираемой информации. Так как методы анализа Big Data развиваются пока только вслед за ростом объема данных, большую роль играет свойство аналитических платформ использовать новые методы подготовки и агрегирования данных. Это говорит о том, что, например, данные о потенциальных покупателях или массивное хранилище данных с историей кликов на сайтах online-магазинов могут быть интересны для решения разных задач.

Трудности не останавливают

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. Как следует из данных Gartner , в 2013 году 64% крупнейших мировых компаний уже инвестировали, либо имеют планы инвестировать в развертывание технологий в области Big Data для своего бизнеса, тогда, как в 2012 году таких было 58%. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа компании, телеком, банковский сектор и сервисные компании. Успешные результаты внедрения Big Data уже достигнуты многими крупными игроками в сфере розничной торговли в части использования данных, полученных с помощью инструментов радиочастотной идентификации, систем логистики и репленишмента (от англ. replenishment - накопление, пополнение – R&T), а также из программ лояльности. Удачный опыт ритейла стимулирует другие отрасли рынка находить новые эффективные способы монетизации больших данных, чтобы превратить их анализ в ресурс, работающий на развитие бизнеса. Благодаря этому, по прогнозам экспертов, в период до 2020 года инвестиции в управление, хранение снизятся на каждый гигабайт данных с 2$ до 0,2$, а вот на изучение и анализ технологических свойств Big Data вырастут всего на 40%.

Расходы, представленные в различных инвестиционных проектах в области Big Data, имеют разный характер. Статьи затрат зависят от видов продуктов, которые выбираются, исходя из определенных решений. Наибольшая часть затрат в инвестиционных проектах, по мнению специалистов, приходится на продукты, связанные со сбором, структурированием данных, очисткой и управлением информацией.

Как это делается

Существует множество комбинаций программного и аппаратного обеспечения, которые позволяют создавать эффективные решения Big Data для различных бизнес дисциплин: от социальных медиа и мобильных приложений, до интеллектуального анализа и визуализации коммерческих данных. Важное достоинство Big Data – это совместимость новых инструментов с широко используемыми в бизнесе базами данных, что особенно важно при работе с кросс-дисциплинарными проектами, например, такими как организация мульти-канальных продаж и поддержки покупателей.

Последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов (dashboard), создания инсайтов и контекстов, а также формулирования рекомендаций к действию. Так как работа с Big Data подразумевает большие затраты на сбор данных, результат обработки которых заранее неизвестен, основной задачей является четкое понимание, для чего нужны данные, а не то, как много их есть в наличии. В этом случае сбор данных превращается в процесс получения исключительно нужной для решения конкретных задач информации.

Например, у телекоммуникационных провайдеров агрегируется огромное количество данных, в том числе о геолокации, которые постоянно пополняются. Эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков. Подобные данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей. Есть пример измерения эффективности рекламы на outdoor-щитах в Лондоне. Сейчас охват подобной рекламы можно измерить лишь поставив возле рекламных конструкций людей со специальным устройством, подсчитывающим прохожих. По сравнению с таким видом измерения эффективности рекламы, у мобильного оператора куда больше возможностей – он точно знает местонахождение своих абонентов, ему известны их демографические характеристики, пол, возраст, семейное положение, и т.д.

На основе таких данных, в будущем открывается перспектива менять содержание рекламного сообщения, используя предпочтения конкретного человека, проходящего мимо рекламного щита. Если данные показывают, что проходящий мимо человек много путешествует, то ему можно будет показать рекламу курорта. Организаторы футбольного матча могут оценить количество болельщиков только когда те придут на матч. Но если бы они имели возможность запросить у оператора сотовой связи информацию, где посетители находились за час, день или месяц до матча, то это дало бы организаторам возможность планировать места для размещения рекламы следующих матчей.

Другой пример – как банки могут использовать Big Data для предотвращения мошенничества. Если клиент заявляет об утере карты, а при совершении покупки с ее помощью банк видит в режиме реального времени месторасположение телефона клиента в зоне покупки, где происходит транзакция, банк может проверить информацию по заявлению клиента, не пытался ли он обмануть его. Либо противоположная ситуация, когда клиент совершает покупку в магазине, банк видит, что карта, по которой происходит транзакция, и телефон клиента находятся в одном месте, банк может сделать вывод, что картой пользуется ее владелец. Благодаря подобным преимуществам Big Data, расширяются границы, которыми наделены традиционные хранилища данных.

Для успешного принятия решения о внедрении решений Big Data компании необходимо рассчитать инвестиционный кейс и это вызывает большие трудности из-за множества неизвестных составляющих. Парадоксом аналитики в подобных случаях становится прогнозирование будущего на основе прошлого, данные о котором зачастую отсутствуют. В этом случае важным фактором является четкое планирование своих первоначальных действий:

  • Во-первых, необходимо определить одну конкретную задачу бизнеса, для решения которой будут использоваться технологии Big Data, эта задача станет стержнем определения верности выбранной концепции. Необходимо сосредоточиться на сборе данных, связанных именно с этой задачей, а в ходе проверки концепции вы сможете использовать различные инструменты, процессы и методы управления, которые позволят принимать более обоснованные решения в будущем.
  • Во-вторых, маловероятно, что компания без навыков и опыта аналитики данных сможет успешно реализовать проект Big Data. Необходимые знания всегда вытекают из предыдущего опыта аналитики, что является основным фактором, влияющим на качество работы с данными. Важную роль играет культура использования данных, так как часто анализ информации открывает суровую правду о бизнесе, и чтобы принять эту правду и работать с ней, необходимы выработанные методы работы с данными.
  • В третьих, ценность технологий Big Data заключается в предоставлении инсайтов Хорошие аналитики остаются дефицитом на рынке. Ими принято называть специалистов, имеющих глубокое понимание коммерческого смысла данных и знающих, как правильно их применять. Анализ данных является средством для достижения целей бизнеса, и чтобы понять ценность Big Data, необходима соответствующая модель поведения и понимание своих действий. В этом случае большие данные дадут массу полезной информации о потребителях, на основе которой можно принять полезные для бизнеса решения.

Несмотря на то, что российский рынок Big Data только начинает формироваться, отдельные проекты в этой области уже реализуются достаточно успешно. Некоторые из них успешны в области сбора данных как, например, проекты для ФНС и банка «Тинькофф Кредитные Системы», другие - в части анализа данных и практического применения его результатов: это проект Synqera.

В банке «Тинькофф Кредитные Системы» был реализован проект по внедрению платформы EMC2 Greenplum, которая является инструментом для массивно-параллельных вычислений. В течение последних лет у банка выросли требования к скорости обработки накопленной информации и анализа данных в режиме реального времени, вызванные высокими темпами роста количества пользователей кредитных карт. Банк объявил о планах расширения использования технологий Big Data, в частности для обработки неструктурированных данных и работы с корпоративной информацией, получаемой из разных источников.

В ФНС России в настоящий момент идет создание аналитического слоя федерального хранилища данных. На его основе создается единое информационное пространство и технология доступа к налоговым данным для статистической и аналитической обработки. В ходе реализации проекта выполняются работы по централизации аналитической информации с более чем 1200 источниками местного уровня ИФНС.

Еще одним интересным примером анализа больших данных в режиме реального времени является российский стартап Synqera, который разработал платформу Simplate. Решение основано на обработке больших массивов данных, программа анализирует информацию о покупателях, историю их покупок, возраст, пол и даже настроение. На кассах в сети косметических магазинов были установлены сенсорные экраны с датчиками, распознающими эмоции покупателей. Программа определяет настроение человека, анализирует информацию о нем, определяет время суток и сканирует базу скидок магазина, после чего отправляет покупателю таргетированные сообщения об акциях и специальных предложениях. Это решение повышает покупательскую лояльность и увеличивает продажи ритейлеров.

Если говорить об иностранных успешных кейсах, то в этом плане интересен опыт применения технологий Big Data в компании Dunkin`Donuts, использующей данные в режиме реального времени для продажи продукции. Цифровые дисплеи в магазинах отображают предложения, сменяющие друг друга каждую минуту, в зависимости от времени суток и наличия продукции. По кассовым чекам компания получает данные, какие именно предложения получили наибольший отклик у покупателей. Данный подход обработки данных позволил увеличить прибыль и оборачиваемость товаров на складе.

Как показывает опыт внедрения Big Data-проектов, эта область призвана успешно решать современные бизнес-задачи. При этом важным фактором достижения коммерческих целей при работе с большими данными является выбор правильной стратегии, которая включает в себя аналитику, выявляющую запросы потребителей, а также использование инновационных технологий в области Big Data.

По данным глобального опроса, ежегодно проводимого Econsultancy и Adobe с 2012 года среди маркетологов компаний, «большие данные», характеризующие действия людей в Интернете, могут многое. Они способны оптимизировать оффлайновые бизнес-процессы, помочь понять как владельцы мобильных девайсов пользуются ими для поиска информации или просто «сделать маркетинг лучше», т.е. эффективнее. Причем, последняя функция год от года все популярнее, как это следует из приведенной нами диаграммы.

Основные области работы интернет-маркетологов с точки зрения отношений с покупателями


Источник : Econsultancy and Adobe, опубликовано – emarketer.com

Заметим, что национальность респондентов большого значения не имеет. Как показывает опрос, проведенный KPMG в 2013 году, доля «оптимистов», т.е. тех, кто использует Big Data при разработке бизнес-стратегии, составляет 56%, причем, колебания от региона к региону невелики: от 63% в североамериканских странах до 50% в EMEA.

Использование Big Data в различных регионах мира


Источник : KPMG, опубликовано – emarketer.com

Между тем, отношение маркетологов к подобным «модным трендам» в чем-то напоминает известный анекдот:

Скажи, Вано, ты помидоры любишь?
- Поесть люблю, а так – нет.

Несмотря на то, что маркетологи на словах «любят» Big Data и вроде бы даже их используют, на самом деле, «все сложно», как пишут о своих сердечных привязанностях в соцсетях.

По данным опроса, проведенного компанией Circle Research в январе 2014 года среди европейских маркетологов, 4 из 5 опрошенных не используют Big Data (при том, что они их, конечно, «любят»). Причины разные. Закоренелых скептиков немного – 17% и ровно столько же, сколько и их антиподов, т.е. тех, кто уверенно отвечает: «Да». Остальные – это колеблющиеся и сомневающиеся, «болото». Они уходят от прямого ответа под благовидными предлогами в духе того, что «пока нет, но скоро» или «подождем, пока остальные начнут».

Использование Big Data маркетологами, Европа, январь 2014


Источник: dnx, опубликовано – emarketer. com

Что же их смущает? Сущие пустяки. Некоторые (их ровно половина) попросту не верят этим данным. Другие (их тоже немало – 55%) затрудняются в соотнесении между собой множеств «данных» и «пользователей». У кого-то просто (выразимся политкорректно) внутрикорпоративный беспорядок: данные бесхозно гуляют между маркетинговыми отделами и IT структурами. У других софт не справляется с наплывом работы. И так далее. Поскольку суммарные доли существенно превышают 100%, понятно, что ситуация «множественных барьеров» встречается нередко.

Барьеры, препятствующие использованию Big Data в маркетинге


Источник: dnx, опубликовано – emarketer. com

Таким образом, приходится констатировать, что пока «Большие данные» - это большой потенциал, которым еще надо суметь воспользоваться. Кстати говоря, именно это может быть и стало причиной того, что Big Data утрачивают ореол «модного тренда», как об этом свидетельствуют данные опроса, проведенного уже упомянутой нами компании Econsultancy.

Самые значимые тренды в диджитал-маркетинге 2013-2014


Источник : Econsultancy and Adobe

На смену им выходит другой король – контент-маркетинг. Надолго ли?

Нельзя сказать, что Большие Данные – это какое-то принципиально новое явление. Большие источники данных существуют уже много лет: базы данных по покупкам клиентов, кредитным историям, образу жизни. И в течение многих лет ученые использовали эти данные, чтобы помогать компаниям оценивать риск и прогнозировать будущие потребности клиентов. Однако сегодня ситуация изменилась в двух аспектах:

Появились более сложные инструменты и методы для анализа и сочетания различных наборов данных;

Эти аналитические инструменты дополнены целой лавиной новых источников данных, вызванной переходом на цифровые технологии практически всех методов сбора и измерения данных.

Диапазон доступной информации одновременно и вдохновляет, и пугает исследователей, выросших в структурированной исследовательской среде. Потребительские настроения фиксируются сайтами и всевозможными разновидностями социальных медиа. Факт просмотра рекламы фиксируется не только телевизионными приставками, но и с помощью цифровых тегов и мобильных устройств, общающихся с телевизором.

Поведенческие данные (такие как число звонков, покупательские привычки и покупки) теперь доступны в режиме реального времени. Таким образом, многое из того, что раньше можно было получить с помощью исследований, сегодня можно узнать с помощью источников больших данных. И все эти информационные активы генерируются постоянно, независимо от каких бы то ни было исследовательских процессов. Эти изменения и заставляют нас задаться вопросом: смогут ли большие данные заменить собой классические исследования рынка.

Дело не в данных, дело в вопросах и ответах

Прежде чем заказывать похоронный звон по классическим исследованиям, мы должны напомнить себе, что решающее значение имеет не наличие тех или иных активов данных, а нечто иное. Что именно? Наша способность отвечать на вопросы, вот что. У нового мира больших данных есть одна забавная черта: результаты, полученные на основе новых информационных активов, приводят к появлению еще большего количества вопросов, а на эти вопросы, как правило, лучше всего отвечают традиционные исследования. Таким образом, по мере роста больших данных мы видим параллельный рост наличия и потребности в «маленьких данных» (small data), которые могут дать ответы на вопросы из мира больших данных.

Рассмотрим ситуацию: крупный рекламодатель проводит постоянный мониторинг трафика в магазинах и объемов продаж в режиме реального времени. Существующие исследовательские методики (в рамках которых мы опрашиваем участников исследовательских панелей об их мотивациях к покупке и поведении в точках продаж) помогают нам лучше нацелиться на определенные сегменты покупателей. Эти методики могут быть расширены – они могут включать в себя более широкий диапазон активов больших данных вплоть до того, что большие данные становятся средством пассивного наблюдения, а исследования – методом постоянного узкоцелевого исследования изменений или событий, требующих изучения. Именно так большие данные могут освободить исследования от лишней рутины. Первичные исследования уже не должны фокусироваться на том, что происходит (это сделают большие данные). Вместо этого первичные исследования могут сосредоточиться на объяснении того, почему мы наблюдаем те или иные тенденции или отклонения от тенденций. Исследователь сможет меньше думать о получении данных, и больше – о том, как их проанализировать и использовать.

В то же время мы видим, что большие данные позволяют решать одну из наших самых больших проблем – проблему чрезмерно длинных исследований. Изучение самих исследований показало, что чрезмерно раздутые исследовательские инструменты оказывают негативное воздействие на качество данных. Хотя многие специалисты в течение длительного времени признавали наличие этой проблемы, они неизменно отвечали на это фразой: «Но ведь эта информация нужна мне для высшего руководства», и длинные опросы продолжались.

В мире больших данных, где количественные показатели можно получить с помощью пассивного наблюдения, этот вопрос становится спорным. Опять же, давайте вспомним обо всех этих исследованиях, касающихся потребления. Если большие данные дают нам инсайты о потреблении с помощью пассивного наблюдения, то первичным исследованиям в форме опросов уже не надо собирать такого рода информацию, и мы сможем, наконец, подкрепить свое видение коротких опросов не только благими пожеланиями, но и чем-то реальным.

Big Data нуждаются в вашей помощи

Наконец, «большие» - это лишь одна из характеристик больших данных. Характеристика «большие» относится к размеру и масштабу данных. Конечно, это основная характеристика, поскольку объем этих данных выходит за рамки всего того, с чем мы работали прежде. Но другие характеристики этих новых потоков данных также важны: они зачастую плохо форматированы, неструктурированны (или, в лучшем случае, структурированы частично) и полны неопределенности. Развивающаяся область управления данными, метко названная «анализ сущностей» (entity analytics), призвана решить проблему преодоления шума в больших данных. Ее задача – проанализировать эти наборы данных и выяснить, сколько наблюдений относится к одному и тому же человеку, какие наблюдения являются текущими, и какие из них – пригодны для использования.

Такой вид очистки данных необходим для того, чтобы удалить шум или ошибочные данные при работе с активами больших или небольших данных, но этого недостаточно. Мы также должны создать контекст вокруг активов больших данных на основе нашего предыдущего опыта, аналитики и знания категории. На самом деле, многие аналитики указывают на способность управлять неопределенностью, присущей большим данным, как источник конкурентного преимущества, так как она позволяет принимать более эффективные решения.

И вот тут-то первичные исследования не только оказываются освобожденными от рутины благодаря большим данным, но и вносят свой вклад в создание контента и анализ в рамках больших данных.

Ярким примером этого может служить приложение нашей новой принципиально иной рамочной модели капитала бренда к социальным медиа (речь идет о разработанном в Millward Brown новом подходе к измерению ценности бренда The Meaningfully Different Framework – «Парадигма значимых отличий » - R & T ). Эта модель проверена на поведении в рамках конкретных рынков, реализована на стандартной основе, и ее легко применить в других маркетинговых направлениях и информационных системах для поддержки принятия решений. Другими словами, наша модель капитала бренда, опирающаяся на исследования методом опросов (хотя и не только на них) обладает всеми свойствами, необходимыми для преодоления неструктурированного, несвязного и неопределенного характера больших данных.

Рассмотрим данные по потребительским настроениям, предоставляемые социальными медиа. В сыром виде пики и спады потребительских настроений очень часто минимально коррелируют с параметрами капитала бренда и поведения, полученными в оффлайне: в данных просто слишком много шума. Но мы можем уменьшить этот шум, применяя наши модели потребительского смысла, дифференциации брендов, динамики и отличительных черт к сырым данным потребительских настроений – это способ обработки и агрегации данных социальных медиа по этим измерениям.

После того, как данные организованы в соответствии с нашей рамочной моделью, выявленные тренды обычно совпадают с параметрами капитала бренда и поведения, полученными в оффлайне. По сути, данные социальных медиа не могут говорить сами за себя. Чтобы использовать их для указанной цели требуется наш опыт и модели, выстроенные вокруг брендов. Когда социальные медиа дают нам уникальную информацию, выраженную на том языке, который потребители используют для описания брендов, мы должны использовать этот язык при создании своих исследований, чтобы сделать первичные исследования гораздо более эффективными.

Преимущества освобожденных исследований

Это возвращает нас к тому, что большие данные не столько заменяют исследования, сколько освобождают их. Исследователи будут освобождены от необходимости создавать новое исследование по каждому новому случаю. Постоянно растущие активы больших данных могут быть использованы для разных тем исследований, что позволяет последующим первичным исследованиям углубиться в тему и заполнить имеющиеся пробелы. Исследователи будут освобождены от необходимости полагаться на чрезмерно раздутые опросы. Вместо этого они смогут использовать краткие опросы и сосредоточиться на самых важных параметрах, что повышает качество данных.

Благодаря такому освобождению исследователи смогут использовать свои отработанные принципы и идеи, чтобы добавить точности и смысла активам больших данных, что приведет к появлению новых областей для исследований методом опроса. Этот цикл должен привести к более глубокому пониманию по целому ряду стратегических вопросов и, в конечном счете, к движению в сторону того, что всегда должно быть нашей главной целью - информировать и улучшать качество решений, касающихся бренда и коммуникаций.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации , быстродействие ее обработки и разнообразие сведений , хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value , что обозначает ценность информации . То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

К основным методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

  1. Краудсорсинг.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

  1. А/В-тестирование.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

  1. Прогнозная аналитика.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

  1. Сетевой анализ.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

  • Облачные хранилища.

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

  • Использование Dark Data.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

  • Blockchain.

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

  • Самообслуживание и снижение цен.

В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.

К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.

Чем выгодно применение технологий больших данных в маркетинге и бизнесе?

  1. С их помощью можно гораздо быстрее создавать новые проекты, которые с большой вероятностью станут востребованными среди покупателей.
  2. Они помогают соотнести требования клиента с существующим или проектируемым сервисом и таким образом подкорректировать их.
  3. Методы больших данных позволяют оценить степень текущей удовлетворенности всех пользователей и каждого в отдельности.
  4. Повышение лояльности клиентов обеспечивается за счет методов обработки больших данных.
  5. Привлечение целевой аудитории в интернете становится более простым благодаря возможности контролировать огромные массивы данных.

Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон. Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.

Примеры использования Big Data

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.

Рынок технологий больших данных в России и мире

По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.

Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.

Результаты внедрения технологий больших данных:

  • рост качества клиентского сервиса;
  • оптимизация интеграции в цепи поставок;
  • оптимизация планирования организации;
  • ускорение взаимодействия с клиентами;
  • повышение эффективности обработки запросов клиентов;
  • снижение затрат на сервис;
  • оптимизация обработки клиентских заявок.

Лучшие книги по Big Data



Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.

«Introduction to Data Mining», Панг-Нинг Тан, Майкл Стейнбах и Випин Кумар

Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.

Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.

«Hadoop for Dummies», Дирк Дерус, Пол С. Зикопулос, Роман Б. Мельник

Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.

Moscow_Exchange 6 мая 2015 в 20:38

Аналитический обзор рынка Big Data

  • Блог компании Московская Биржа ,
  • Big Data

«Big Data» - тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие - напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard », показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной.

ЧТО ТАКОЕ BIG DATA?

Ключевые характеристики
Большие Данные, на сегодняшний момент, являются одним из ключевых драйверов развития информационных технологий. Это направление, относительно новое для российского бизнеса, получило широкое распространение в западных странах. Связано это с тем, что в эпоху информационных технологий, особенно после бума социальных сетей, по каждому пользователю интернета стало накапливаться значительное количество информации, что в конечном счете дало развитие направлению Big Data.

Термин «Большие Данные» вызывает множество споров, многие полагают, что он означает лишь объем накопленной информации, но не стоит забывать и о технической стороне, данное направление включает в себя технологии хранения, вычисления, а также сервисные услуги.

Следует отметить, что к данной сфере относится обработка именно большого объема информации, который затруднительно обрабатывать традиционными способами*.

Ниже представлена сравнительная таблица традиционной и базы Больших Данных.

Сфера Больших Данных характеризуется следующими признаками:
Volume – объем, накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты.
Velocity – скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных, в последнее время стали более востребованы технологии обработки данных в реальном времени.
Variety – многообразие, т.е. возможность одновременной обработки структурированной и неструктурированной разноформатной информации. Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях.
Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей. На сегодняшний день 80% информации входит в группу неструктурированной. Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки.
Veracity – достоверность данных, все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных.
Value – ценность накопленной информации. Большие Данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов.

При соблюдении указанных выше 5 условий, накопленные объемы данных можно относить к числу больших.

Сферы применения Больших Данных

Сфера использования технологий Больших Данных обширна. Так, с помощью Больших Данных можно узнать о предпочтениях клиентов, об эффективности маркетинговых кампаний или провести анализ рисков. Ниже представлены результаты опроса IBM Institute, о направлениях использования Big Data в компаниях.

Как видно из диаграммы, большинство компаний используют Большие Данные в сфере клиентского сервиса, второе по популярности направление – операционная эффективность, в сфере управления рисками Большие Данные менее распространены на текущий момент.

Следует также отметить, что Big Data являются одной из самых быстрорастущих сфер информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1,2 года.
За период с 2012 по 2014 год количество данных, ежемесячно передаваемых мобильными сетями, выросло на 81%. По оценкам Cisco, в 2014 году объем мобильного трафика составил 2,5 эксабайта (единица измерения количества информации, равная 10^18 стандартным байтам) в месяц, а уже в 2019 году он будет равен 24,3 эксабайтам.
Таким образом, Большие Данные – это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний.

Технологии Больших Данных
Технологии, используемые для сбора и обработки Больших Данных, можно разделить на 3 группы:
  • Программное обеспечение;
  • Оборудование;
  • Сервисные услуги.

К наиболее распространенным подходам обработки данных (ПО) относятся:
SQL – язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных.
NoSQL – термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях.
MapReduce – модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты* и более). В программном интерфейсе не данные передаются на обработку программе, а программа – данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их.
Hadoop – используется для реализации поисковых и контекстных механизмов высоконагруженных сайтов – Facebook, eBay, Amazon и др. Отличительной особенностью является то, что система защищена от выхода из строя любого из узлов кластера, так как каждый блок имеет, как минимум, одну копию данных на другом узле.
SAP HANA – высокопроизводительная NewSQL платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что SAP HANA упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем.

К технологическому оборудованию относят:

  • серверы;
  • инфраструктурное оборудование.
Серверы включают в себя хранилища данных.
К инфраструктурному оборудованию относят средства ускорения платформ, источники бесперебойного питания, комплекты серверных консолей и др.

Сервисные услуги.
Сервисные услуги включают в себя услуги по построению архитектуры системы базы данных, обустройству и оптимизации инфраструктуры и обеспечению безопасности хранения данных.

Программное обеспечение, оборудование, а также сервисные услуги вместе образуют комплексные платформы для хранения и анализа данных. Такие компании, как Microsoft, HP, EMC предлагают услуги по разработке, развертыванию решений Больших Данных и управления ими.

Применение в отраслях
Большие Данные получили широкое распространение во многих отраслях бизнеса. Их используют в здравоохранении, телекоммуникациях, торговле, логистике, в финансовых компаниях, а также в государственном управлении.
Ниже представлено несколько примеров применения Больших Данных в некоторых из отраслей.

Розничная торговля
В базах данных розничных магазинов может быть накоплено множество информации о клиентах, системе управления запасами, поставками товарной продукции. Данная информация может быть полезна во всех сферах деятельности магазинов.

Так, с помощью накопленной информации можно управлять поставками товара, его хранением и продажей. На основании накопленной информации можно прогнозировать спрос и поставки товара. Также система обработки и анализа данных может решить и другие проблемы ритейлера, например, оптимизировать затраты или подготовить отчетность.

Финансовые услуги
Большие Данные дают возможность проанализировать кредитоспособность заемщика, также они полезны для кредитного скоринга* и андеррайтинга**. Внедрение технологий Больших Данных позволит сократить время рассмотрения кредитных заявок. С помощью Больших Данных можно проанализировать операции конкретного клиента и предложить подходящие именно ему банковские услуги.

Телеком
В телекоммуникационной отрасли широкое распространение Большие Данных получили у сотовых операторов.
Операторы сотовой связи наравне с финансовыми организациями имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента.

Помимо использования Big Data в маркетинговых целях, технологии применяются для предотвращения мошеннических финансовых операций.

Горнодобывающая и нефтяная промышленности
Большие Данные используются как при добыче полезных ископаемых, так и при их переработке и сбыте. Предприятия могут на основании поступившей информации делать выводы об эффективности разработки месторождения, отслеживать график капитального ремонта и состояния оборудования, прогнозировать спрос на продукцию и цены.

По данным опроса Tech Pro Research, наибольшее распространение Большие Данные получили в телекоммуникационной отрасли, а также в инжиниринге, ИТ, в финансовых и государственных предприятиях. По результатам данного опроса, менее популярны Большие Данные в образовании и здравоохранении. Результаты опроса представлены ниже:

Примеры использования Big Data в компаниях
На сегодняшний день Big Data активно внедряются в зарубежных компаниях. Такие компании, как Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca Cola, Starbucks и Netflix уже используют ресурсы Больших Данных.

Сферы применения обработанной информации разнообразны и варьируются в зависимости от отрасли и задач, которые необходимо выполнить.
Далее будут представлены примеры применения технологий Больших Данных на практике.

HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.

Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.

Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера.

Procter & Gamble с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы Business Spheres, где можно просматривать информацию в реальном времени.
Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании.

Ритейлер офисных принадлежностей OfficeMax с помощью технологий Больших Данных анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B выручку на 13%, уменьшить затраты на 400 000 долларов США в год.

По мнению Caterpillar , ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. Big Data позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах.

На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.

Luxottica group является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате Big Data Luxottica group выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.

С помощью Yandex Data Factory разработчики игры World of Tanks анализируют поведение игроков. Технологии Больших Данных позволили проанализировать поведение 100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока пользователей. Данная информация позволяет уменьшить уход пользователей и работать с участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее стандартных инструментов анализа игровой индустрии.

Министерство труда Германии использует Большие Данные в работе, связанной с анализом поступающих заявок на выдачу пособий по безработице. Так, проанализировав информацию, стало понятно, что 20% пособий выплачивалось незаслуженно. С помощью Big Data министерство труда сократило расходы на 10 млрд евро.

Детская больница Торонто внедрила проект Project Artemis. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка. Project Artemis позволяет прогнозировать нестабильное состояние ребенка и начать профилактику заболеваний у детей.

ОБЗОР МИРОВОГО РЫНКА БОЛЬШИХ ДАННЫХ

Текущее состояние мирового рынка
В 2014 г. Большие Данные, по мнению Data Collective, стали одними из приоритетных направлений инвестирования в сфере венчурной индустрии. Согласно данным информационного портала Компьютерра, связано это с тем, что разработки из данного направления начали приносить значительные результаты для их пользователей. За прошедший год количество компаний с реализованными проектами в сфере управления большими данными увеличилось на 125%, объем рынка вырос на 45% по сравнению с 2013 годом.

Большую часть выручки рынка Big Data, по мнению Wikibon, в 2014 году составили сервисные услуги, их доля была равно 40% в общем объеме выручки (см. диаграмму ниже):

Если рассматривать Big Data за 2014 год по подтипам, то рынок будет выглядеть следующим образом:

Согласно данным Wikibon, приложения и аналитика составляет 36% выручки Big Data в 2014 году принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных. Меньше всего выручки было сгенерировано NoSQL технологиями, инфраструктурным оборудованием и обеспечением сетью компаний (корпоративные сети).

Наибольшей популярностью пользуются такие технологии Big Data, как in-memory платформы компаний SAP, HANA, Oracle и др. Результаты опроса T-Systems показали, что их выбрали 30% опрошенных компаний. Вторыми по популярности стали NoSQL платформы (18% пользователей), также компании использовали аналитические платформы компаний Splunk и Dell, их выбрало 15% компаний. Наименее полезными для решения проблем Больших Данных, по результатам опроса оказались продукты Hadoop/MapReduce.

По данным опроса Accenture, в более чем 50% компаниях, использующих технологии Больших Данных, затраты на Big Data составляют от 21% до 30%.
Согласно следующими анализу Accenture, 76% компаний, считают, что данные расходы увеличатся в 2015 году, а 24% компаний не изменят своего бюджета на технологии Больших Данных. Это говорит о том, что в данных компаниях Big Data стали уже устоявшимся направлением ИТ, ставшим неотъемлемой частью развития компании.

Результаты опроса Economist Intelligence Unit survey подтверждают положительный эффект от внедрения Big Data. 46% компаний заявляют, что с помощью технологий Больших Данных они улучшили клиентский сервис более, чем на 10%, 33% компаний оптимизировали запасы и улучшили продуктивность основных активов, 32% компаний улучшили процессы планирования.

Большие Данные в разных странах мира
На сегодняшний день технологии Больших Данных чаще всего внедряются в компаниях США, но уже сейчас и другие страны мира начали проявлять интерес. В 2014 году, по данным IDC, на страны Европы, Ближнего Востока, Азии (за исключением Японии) и Африки пришлось 45% рынка ПО, услуг и оборудования в сфере Big Data.

Также, согласно опросу CIO, компании из стран Азиатско-Тихоокеанского региона быстрыми темпами осваивают новые решения в области анализа Больших Данных, безопасного хранения и облачных технологий. Латинская Америка находится на втором месте по количеству инвестиций в развитие технологий Больших Данных, опережая страны Европы и США.
Далее будет представлено описание и прогнозы развития рынка Больших Данных нескольких стран.

Китай
Объем информации Китая составляет 909 эксабайт, что равно 10% общего объема информации в мире, к 2020 году объем информации достигнет 8060 эксабайт, увеличится и доля информации в общемировой статистике, через 5 лет она будет равна 18%. Потенциальный рост Big Data Китая имеет одну из самых быстрорастущих динамик.

Бразилия
Бразилия по итогам 2014 года накопила информации на 212 эксабайт, что составляет 3% от общемирового объема. К 2020 году объем информации вырастет до 1600 эксабайт, что составит 4% информации всего мира.

Индия
По данным EMC, объем накопленных данных Индии по итогам 2014 года составляет 326 эксабайт, что составляет 5% от общего объема информации. К 2020 году объем информации вырастет до 2800 эксабайт, что составит 6% информации всего мира.

Япония
Объем накопленных данных Японии по итогам 2014 года составляет 495 эксабайт, что составляет 8% от общего объема информации. К 2020 году объем информации вырастет до 2200 эксабайт, но уменьшится доля рынка Японии и составит 5% об общего объема информации всего мира.
Таким образом, объем рынка Японии уменьшится на более, чем 30%.

Германия
По данным EMC, объем накопленных данных в Германии по итогам 2014 года составляет 230 эксабайт, что составляет 4% от общего объема информации в мире. К 2020 году объем информации вырастет до 1100 эксабайт и составит 2%.
На рынке Германии большую долю выручки, по прогнозам Experton Group, будет генерировать сегмент сервисных услуг, доля которых в 2015 году составит 54%, а в 2019 году увеличится до 59%, доли программного обеспечения и оборудования, наоборот, уменьшатся.

В целом, объем рынка вырастет с 1, 345 млрд евро в 2015 году до 3,198 млрд евро в 2019 году, средний темп роста составит 24%.
Таким образом, на основании аналитики CIO и EMC, можно сделать вывод о том, что развивающиеся страны мира в ближайшие годы станут рынками активного развития технологий Больших Данных.

Основные тенденции рынка
По мнению IDG Enterprise, в 2015 расходы компаний на сферу Больших Данных составят в среднем 7,4 млн долл. США на компанию, крупные компании намерены потратить примерно 13,8 млн долл. США, малые и средние – 1,6 млн долл. США.
Больше всего будет инвестировано в такие области, как анализ и визуализация данных и их сбор.
Согласно текущим тенденциям и спросу на рынке, инвестиции в 2015 году будут использованы на улучшение качества данных, совершенствование планирования и прогнозирования, а также на увеличение скорости обработки данных.
Компаниями финансового сектора, по данным Bain Company’s Insights Analysis, будут произведены значительные инвестиции, так в 2015 году планируется потратить 6,4 млрд долл. США на технологии Big Data, средний темп роста инвестиций составит 22% до 2020 года. Интернет-компании планируют потратить 2,8 млрд долл. США, средний темп роста увеличения затрат на Большие Данные составит 26%.
При проведении опроса Economist Intelligence Unit survey, были выявлены приоритетные направления развития Big Data в 2014 году и в ближайшие 3 года, распределение ответов выглядит следующим образом:

По прогнозам IDC тенденции развития рынка выглядят следующим образом:

  • В следующие 5 лет затраты на облачные решения в сфере технологий Больших Данных будут расти в 3 раза быстрее, чем затраты на локальные решения. Станут востребованными гибридные платформы для хранения данных.
  • Рост приложений с использованием сложной и прогнозной аналитики, включая машинное обучение, ускорится в 2015 году, рынок таких приложений будет расти на 65% быстрее, чем приложения, не использующие прогнозную аналитику.
  • Медиа аналитика утроится в 2015 году и станет ключевым драйвером роста рынка технологий Больших Данных.
  • Ускорится тенденция внедрения решений для анализа постоянного потока информации, которая применима для интернета вещей.
  • К 2018 году 50% пользователей будут взаимодействовать с сервисами, основанными на когнитивном вычислении.
Драйверы и ограничители рынка
Эксперты IDC, выделили 3 драйвера рынка Больших Данных 2015 года:

Согласно опросу Accenture, вопросы безопасности данных являются сейчас главным барьером на пути внедрения технологий Больших Данных, более 51% респондентов подтвердили, что беспокоятся за обеспечение защиты данных и их конфиденциальности. 47% компаний сообщили, о невозможности внедрения Big Data в связи с ограниченным бюджетом, 41% компаний в качестве проблемы указали нехватку квалифицированных кадров.

Wikibon прогнозирует, что объем рынка Big Data вырастет в 2015 году до 38,4 млрд долл. США и увеличится по сравнению с предыдущим годом на 36%. В ближайшие годы будет наблюдаться спад темпов роста до 10% в 2017 году. С учетом данных прогнозов, объем рынка в 2020 году будет равен 68,7 млрд долл. США.

Распределение общемирового рынка Больших Данных по бизнес-категориям будет выглядеть следующим образом:

Как видно из диаграммы, большую часть рынка будет занимать технологии из сферы улучшения клиентского сервиса. Точечный маркетинг будет на втором месте по приоритетности у компаний вплоть до 2019 года, в 2020 году, по прогнозу Heavy Reading, он уступит место решениям по улучшению операционной эффективности.
Самый высокий темп роста также будет у сегмента «улучшение клиентского сервиса», прирост - 49% ежегодно.
Прогноз рынка по подтипам Big Data будет выглядеть следующим образом:

Преобладающую долю рынка, как видно из диаграммы, занимают профессиональные услуги, самый высокий темп рост будет у приложений с аналитикой, их доля вырастет с нынешних 12% до 18% в 2020 году и объем данного сегмента будет равен 12,3 млрд долл. США, доля вычислительного оборудования, наоборот, упадет с 20% до 14% и составит порядка 9,3 млрд долл. США в 2020 году, рынок облачных технологий будет постепенно увеличиваться и в 2020 году достигнет 6,3 млрд долл. США, доля рынка решений для хранения данных, наоборот, уменьшится с 15% в 2014 году до 13% в 2020 году и в денежном выражении будет равна 8,9 млрд долл. США.
Согласно прогнозу Bain & Company’s Insights Analysis, распределение рынка Big Data по отраслям в 2020 году будет выглядеть следующим образом:

  • Финансовая отрасль будет осуществлять затраты на Big Data в размере 6,4 млрд долл. США со средним темпом роста 22% в год;
  • Интернет-компании потратят 2,8 млрд долл. США и средний темп роста затрат составит 26% за следующие 5 лет;
  • Затраты госсектора будут соразмерны затратам интернет-компаний, но темп роста будет ниже – 22%;
  • Сектор телекоммуникаций будет расти со средним темпом роста 40% и достигнет 1,2 млрд долл. США в 2020 году;

Энергетические компании будут инвестировать в данные технологии сравнительно небольшую сумму - 800 млн долл. США, но темп роста будет одним из самых высоких – 54% ежегодно.
Таким образом, большую долю рынка Big Data в 2020 году займут компании финансовой отрасли, а самым быстрорастущим сектором будет энергетика.
Следуя прогнозам аналитиков, общий объем рынка в ближайшие годы будет увеличиваться. Рост рынка будет обеспечен за счет внедрения технологий Больших Данных в развивающихся странах мира, как видно из представленного ниже графика.

Прогнозируемый объем рынка будет зависеть от того, как развивающиеся страны воспримут технологии Больших Данных, будет ли они также популярны как в развитых странах. В 2014 году развивающиеся страны мира занимали 40% от объема накопленной информации. По прогнозу EMC, нынешняя структура рынка, с преобладанием развитых стран, изменится уже в 2017 году. Согласно аналитике EMC, в 2020 году доля развивающихся стран будет более 60%.
По мнению Cisco и EMC, развивающиеся страны мира будут достаточно активно работать с Big Data, во многом это будет связано с доступностью технологий и накоплением достаточного объема информации до уровня Big Data. На карте мира, представленной на следующей странице, будет показан прогноз увеличения объема и темп роста Больших Данных по регионам.

АНАЛИЗ РОССИЙСКОГО РЫНКА

Текущее состояние российского рынка

Согласно результатам исследования CNews Analytics и Oracle, уровень зрелости российского рынка Big Data за последний год повысился. Респонденты, представляющие 108 крупных предприятий из разных отраслей, продемонстрировали более высокую степень осведомленности об этих технологиях, а также сложившееся понимание потенциала подобных решений для своего бизнеса.
По состоянию на 2014 год, по данным IDC, в России накоплено 155 эксабайт информации, что составляет всего лишь 1,8% мировых данных. Объем информации к 2020 году достигнет 980 эксабайт и займет 2,2%. Таким образом, средний темп роста объема информации составит 36% в год.
Компания IDC оценивает рынок России в 340 млн долл. США, из них 100 млн долл. США – решения SAP, примерно 240 млн долл. США – аналогичные решения Oracle, IBM, SAS, Microsoft и др.
Темп роста российского рынка Больших Данных составляет не менее, чем 50% в год.
Прогнозируется сохранение позитивной динамики в этом секторе российского рынка ИТ, даже в условиях общей стагнации экономики. Это связано с тем, что бизнес по-прежнему предъявляет спрос на решения, позволяющие повысить эффективность работы, а также оптимизацию расходов, улучшение точности прогнозирования и минимизировать возможные риски компании.
Основными провайдерами услуг в сфере Больших Данных на российском рынке являются:
  • Oracle
  • Microsoft
  • Cloudera
  • Hortonworks
  • Teradata.
Обзор рынка по отраслям и опыт применения Больших Данных в компаниях
По данным CNews, в России лишь 10% компаний начали использовать технологии Больших Данных, когда в мире доля таких компаний составляет порядка 30%. Готовность к проектам Big Data растет во многих отраслях экономики России - свидетельствует отчет СNews Analytics и Oracle. Более трети опрошенных компаний (37%) приступили к работе с технологиями Big Data, среди которых 20% уже используют такие решения, а 17% начинают экспериментировать с ними. Вторая треть респондентов в настоящий момент рассматривают такую возможность.

В России большей популярностью технологии Больших Данных пользуются в банковской сфере и телекоме, но они также востребованы в сфере добывающей промышленности, энергетике, ритейле, в логистических компаниях и госсекторе.
Далее будут рассмотрены примеры применения Больших Данных в российских реалиях.

Телеком
Телеком-операторы имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Одной из сфер применения технологии Больших Данных является управление лояльностью абонентов.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента. Помимо использования информации в маркетинговых целях, в телекоме технологии применяются для предотвращения мошеннических финансовых операций.
Одним из ярких примеров данной отрасли является Вымпелком. Компания применяет Большие Данные для повышения качества обслуживания на уровне каждого абонента, составления отчетности, анализа данных для развития сети, борьбы со спамом и персонализации услуг.

Банки
Значительную долю пользователей Big Data занимают специалисты из финансовой отрасли. Одним из успешных опытов был проведен в Уральском банке реконструкции и развития, где информационную базу стали использовать для анализа клиентов, банк начал предлагать специализированные кредитные предложения, вклады и другие услуги. За год использования данных технологий розничный кредитный портфель компании вырос на 55%.
В Альфа-Банке анализируют информацию из социальных сетей, обрабатывают заявки на получение кредита, анализируют поведение пользователей сайта компании.
Сбербанк также приступил к обработке массива данных с целью сегментации клиентов, предотвращения мошеннических действий, перекрестных продаж и управления рисками. В дальнейшем планируется усовершенствовать сервис и анализировать действия клиентов в режиме реального времени.
Всероссийский банк развития регионов анализирует поведение владельцев пластиковых карт. Это позволяет выявить нетипичные для конкретного клиента операции, тем самым повышается вероятность выявления воровства денежных средств с пластиковых карточек.

Розничная торговля
В России технологии Больших Данных были внедрены компаниями как онлайн, так и офлайн торговли. На сегодняшний день, по данным CNews Analytics, Big Data используют 20% ритейлеров. 75% специалистов розничной торговли считают Большие Данные необходимыми для развития конкурентоспособной стратегии продвижения компании. По статистике Hadoop после внедрения технологии Больших Данных прибыль в торговых организациях вырастает на 7-10%.
Специалисты М.Видео говорят об улучшении логистического планирования после внедрения SAP HANA, также, в результате ее внедрения, подготовка годовой отчетности сократилась с 10 дней до 3, скорость ежедневной загрузки данных сократилась с 3 часов до 30 минут.
Wikimart используют данные технологии для формирования рекомендаций посетителям сайта.
Одним из первых офлайн-магазинов внедривших анализ Больших Данных в России, была «Лента». С помощью Big Data ритейл стал изучать информацию о покупателях из кассовых чеков. Ритейлер собирает информацию для составления поведенческих моделей, что дает возможность более обоснованно принимать решения на уровне операционной и коммерческой деятельности.

Нефтегазовая отрасль
В данной отрасли сфера применения Больших Данных достаточно широка. Технологии Больших Данных могут быть применены при добычи полезных ископаемых из недр. С их помощью можно анализировать сам процесс добычи и наиболее эффективные способы его извлечения, отслеживать процесс бурения, анализ качества сырья, а также обработку и сбыт конечной продукции. В России данными технологиями стали уже пользоваться Транснефть и Роснефть.

Государственные органы
В таких странах, как Германия, Австралия, Испания, Япония, Бразилия и Пакистан технологии Больших Данных используются для решения вопросов национального масштаба. Данные технологии помогают органам государственной власти более эффективно предоставлять услуги населению, оказывать адресную социальную поддержку.
В России данные технологии стали осваивать такие государственные органы, как Пенсионный Фонд, Федеральная Налоговая Служба и Фонда обязательного медицинского страхования. Потенциал реализации проектов с использованием Big Data большой, данные технологии могли бы помочь в улучшении качества сервисов, и, как следствие, уровня жизни населения.

Логистика и транспорт
Big Data также могут быть использованы транспортными компаниями. С помощью технологий Больших Данных можно отслеживать парк автомобилей, учитывать расходы на топливо, проводить мониторинг заявок клиентов.
РЖД внедрили технологии Big Data совместно с компанией SAP. Данные технологии помогли сократить срок подготовки отчетности в 43,5 раза (с 14,5 часов до 20 минут), повысить точность распределения затрат в 40 раз. Также Big Data были внедрены в процессы планирования и тарифного регулирования. Всего компаний используется более 300 систем на базе решений SAP, задействовано 4 дата-центра, а количество пользователей составило 220 000.

Основные драйверы и ограничители рынка
Драйверами развития технологий Больших Данных на российском рынке являются:
  • Повышенный интерес со стороны пользователей к возможностям Больших Данных, как к способу увеличения конкурентоспособности компании;
  • Развитие методов обработки медиа-файлов на общемировом уровне;
  • Перенос серверов, обрабатывающих персональную информацию на территорию России, согласно принятому закону о хранении и обработке персональных данных;
  • Осуществление отраслевого плана по импортозамещению программного обеспечения. Данный план включает в себя государственную поддержку отечественных производителей ПО, а также предоставление преференций отечественной ИТ-продукции при осуществлении закупок за государственный счет.
  • В новой экономической ситуации, когда курс доллара вырос практически в 2 раза, будет наблюдаться тренд по все большему использованию услуг российских провайдеров облачных услуг, нежели зарубежных.
  • Создание технопарков, способствующих развитию рынка информационных технологий, в том числе рынка Больших Данных;
  • Государственная программа по внедрению грид-систем, основой которым служат технологии Больших Данных.

Основными барьерами для развития Big Data на российском рынке являются:

  • Обеспечение безопасности и конфиденциальности данных;
  • Нехватка квалифицированных кадров;
  • Недостаточность накопленных информационных ресурсов до уровня Big Data в большинстве российских компаний;
  • Сложности внедрения новых технологий в устоявшиеся информационные системы компаний;
  • Высокая стоимость технологий Больших Данных, что приводит к ограниченному кругу предприятий, имеющих возможность внедрить данные технологии;
  • Политическая и экономическая неопределенность, приведшая к оттоку капитала и заморозке инвестиционных проектов на территории России;
  • Рост цен на импортную продукцию и всплеск инфляции, по мнению IDC, тормозят развитие всего рынка ИТ.
Прогноз российского рынка
По состоянию на сегодняшний день, российский рынок Больших Данных не настолько популярен как в развитых странах. Большинство российских компаний проявляют интерес к нему, но воспользоваться их возможностями не решаются.
Примеры крупных компаний, которые уже извлекли выгоду от использования технологий Больших Данных, расширяют осознание возможностей данных технологий.
У аналитиков также достаточно оптимистичные прогнозы относительно российского рынка. IDC считает, что доля российского рынка за следующие 5 лет увеличится, в отличии от рынка Германии и Японии.
К 2020 году объем Big Data России вырастет с нынешних 1,8% до 2,2% от общемирового объема данных. Количество информации вырастет, по данным EMC, с нынешних 155 эксабайт до 980 эксабайт в 2020 году.
В настоящий момент в России продолжается накопление объема информации до уровня Больших Данных.
Согласно опросу CNews Analytics, 44% опрошенных компаний работают с данными не более 100 терабайт* и лишь 13% работают с объемами выше 500 терабайт.

Тем не менее российский рынок, следуя мировым тенденциям, будет увеличиваться. По состоянию на 2014 год объем рынка компания IDC оценивает в 340 млн долл. США.
Темп роста рынка за предыдущие годы составлял 50% в год, если он останется на прежнем уровне, то уже в 2018 году объем рынка достигнет 1,7 млрд долл. США. Доля российского рынка в мировом составит около 3%, увеличившись с нынешних 1,2%.

К наиболее восприимчивым отраслям к использованию Big Data в России относятся:

  • Ритейл и банки, для них прежде всего важен анализ клиентской базы, оценка эффекта маркетинговых кампаний;
  • Телеком – сегментация клиентской базы и монетизация трафика;
  • Госсектор – ведение отчетности, анализ заявок от населения и др.;
  • Нефтяные компании – мониторинг работ и планирование добычи и сбыта;
  • Энергетические компании – создание интеллектуальных электроэнергетических систем, оперативный мониторинг и прогнозирование.
В развитых странах Big Data получила широкое распространение в сферах здравоохранения, страховании, металлургии, интернет-компаниях и на производственных предприятиях, скорее всего в ближайшем будущем российские компании из данных сфер также оценят эффект внедрения Big Data и будут приспосабливать данные технологии в своих отраслях.
В России также, как и в мире, в ближайшем будущем будет наблюдаться тренд на визуализацию данных, анализ медиа файлов и развитию интернета вещей.
Несмотря на общую стагнацию экономики, в ближайшие годы аналитики прогнозируют дальнейший рост рынка Больших Данных, в первую очередь это связано с тем, что использование технологий Больших Данных дает конкурентное преимущество ее пользователям в части повышения операционной эффективности бизнеса, привлечения дополнительного потока клиентов, минимизации рисков и внедрения технологий прогнозирования данных.
Таким образом, можно заключить, что сегмент Big Data в России находится на стадии формирования, но спрос на данные технологии с каждым годом увеличивается.

Основные результаты анализа рынка

Мировой рынок
По итогам 2014 года рынок Больших Данных характеризуется следующими параметрами:
  • объем рынка составил 28,5 млрд долл. США, увеличившись на 45% по сравнению с предыдущим годом;
  • большую часть выручки рынка Big Data составили сервисные услуги, их доля была равно 40% в общем объеме выручки;
  • 36% выручки принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных;
  • наибольшей популярностью для решения проблем Больших Данных пользуются in-memory платформы таких компаний, как SAP, HANA и Oracle.
  • на 125% увеличилось количество компаний с реализованными проектами в сфере управления Большими Данными;
Прогноз рынка на следующие годы выглядит следующим образом:
  • в 2015 году объем рынка достигнет 38,4 млрд долл. США, в 2020 году – 68,7 млрд долл. США;
  • средний темп роста будет равен 16% ежегодно;
  • средние затраты компании на технологии Больших Данных составят 13,8 млн долл. США для крупных компаний и 1,6 млн долл. США для малого и среднего бизнеса;
  • технологии будут иметь наибольшую распространенность в сферах клиентского сервиса и точечного маркетинга;
  • в 2017 году изменится общемировая структура рынка в сторону преобладания компаний-пользователей из развивающихся стран.
Российский рынок
Российский рынок Больших Данных находится на стадии формирования, результаты 2014 года выглядят следующим образом:
  • объем рынка достиг 340 млн долл. США;
  • средний темп роста рынка в предыдущие годы составил 50% ежегодно;
  • общий объем накопленной информации составил 155 эксабайт;
  • 10% российских компаний начали использовать технологии Больших Данных;
  • большей популярностью технологии Больших Данных пользовались в банковской сфере, телекоме, интернет-компаниях и ритейле.
Прогноз российского рынка на ближайшие годы выглядит следующим образом:
  • объем рынка России в 2015 году достигнет 500 млн долл. США, а в 2018 году – 1,7 млрд долл. США;
  • доля российского рынка в мировом составит около 3% в 2018 году;
  • количество накопленных данных в 2020 году составит 980 эксабайт;
  • объем данных вырастет до 2,2% от общемирового объема данных в 2020 году;
  • наибольшую популярность приобретут технологии визуализации данных, анализа медиа файлов и интернета вещей.
По результатам анализа можно сделать вывод о том, что рынок Big Data все еще находится на ранних стадиях развития, и в ближайшем будущем мы будем наблюдать его рост и расширение возможностей данных технологий.

Спасибо, что уделили время прочтению этой объемной работы, подписывайтесь на наш блог - обещаем много новых интересных публикаций!

Только ленивый не говорит о Big data, но что это такое и как это работает - понимает вряд ли. Начнём с самого простого - терминология. Говоря по-русски, Big data - это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные - это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также:

Сегодня под этим простым термином скрывается всего два слова - хранение и обработка данных.

Big data - простыми словами

В современном мире Big data - социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также:

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще - кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные - лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также:

Фактически, Big data - это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Краудсорсинг;

    Смешение и интеграция данных;

    Машинное обучение;

    Искусственные нейронные сети;

    Распознавание образов;

    Прогнозная аналитика;

    Имитационное моделирование;

    Пространственный анализ;

    Статистический анализ;

  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных - базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Аппаратные решения.

Читайте также:

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V »:

  1. Volume - величина физического объёма.
  2. Velocity - скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety - возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни - от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента - забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных - Rapidminer и Python.

Читайте также:

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы - сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы - биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность - критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Рынок Big data в России

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Постоянное ускорение роста объема данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – это лишь несколько видов источников, способных генерировать гигантские массивы данных.

В настоящее время термин Big Data (Большие данные) стал довольно распространенным. Далеко не все еще осознают то, насколько быстро и глубоко технологии обработки больших массивов данных меняют самые различные аспекты жизни общества. Перемены происходят в различных сферах, порождая новые проблемы и вызовы, в том числе и в сфере информационной безопасности, где на первом плане должны находиться такие важнейшие ее аспекты, как конфиденциальность, целостность, доступность и т. д.

К сожалению, многие современные компании прибегают к технологии Big Data, не создавая для этого надлежащей инфраструктуры, которая смогла бы обеспечить надежное хранение огромных массивов данных, которые они собирают и хранят. С другой стороны, в настоящее время стремительно развивается технология блокчейн, которая призвана решить эту и многие другие проблемы.

Что такое Big Data?

По сути, определение термина лежит на поверхности: «большие данные» означают управление очень большими объемами данных, а также их анализ. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине ее больших объемов.

Сам термин Big Data (большие данные) появился относительно недавно. Согласно данным сервиса Google Trends , активный рост популярности термина приходится на конец 2011 года:

В 2010 году уже стали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. К 2011 году большинство крупнейших IT-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин Big Data в своих деловых стратегиях. Постепенно аналитики рынка информационных технологий начинают активные исследования данной концепции.

В настоящее время этот термин приобрел значительную популярность и активно используется в самых различных сферах. Однако нельзя с уверенностью сказать, что Big Data – это какое-то принципиально новое явление – напротив, большие источники данных существуют уже много лет. В маркетинге ими можно назвать базы данных по покупкам клиентов, кредитным историям, образу жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помогать компаниям прогнозировать будущие потребности клиентов, оценивать риски, формировать потребительские предпочтения и т. д.

В настоящее время ситуация изменилась в двух аспектах:

— появились более сложные инструменты и методы для анализа и сопоставления различных наборов данных;
— инструменты анализа дополнились множеством новых источников данных, что обусловлено повсеместным переходом на цифровые технологии, а также новыми методами сбора и измерения данных.

Исследователи прогнозируют, что технологии Big Data активнее всего будут использоваться в производстве, здравоохранении, торговле, госуправлении и в других самых различных сферах и отраслях.

Big Data – это не какой-либо определенный массив данных, а совокупность методов их обработки. Определяющей характеристикой для больших данных является не только их объем, но также и другие категории, характеризующие трудоемкие процессы обработки и анализа данных.

В качестве исходных данных для обработки могут выступать, например:

— логи поведения интернет-пользователей;
— Интернет вещей;
— социальные медиа;
— метеорологические данные;
— оцифрованные книги крупнейших библиотек;
— GPS-сигналы из транспортных средств;
— информация о транзакциях клиентов банков;
— данные о местонахождении абонентов мобильных сетей;
— информация о покупках в крупных ритейл-сетях и т.д.

Со временем объемы данных и количество их источников непрерывно растет, а на этом фоне появляются новые и совершенствуются уже имеющиеся методы обработки информации.

Основные принципы Big Data:

— Горизонтальная масштабируемость – массивы данных могут быть огромными и это значит, что система обработки больших данных должна динамично расширяться при увеличении их объемов.
— Отказоустойчивость – даже при сбое некоторых элементов оборудования, вся система должна оставаться работоспособной.
— Локальность данных. В больших распределенных системах данные обычно распределяются по значительному числу машин. Однако по мере возможности и в целях экономии ресурсов данные часто обрабатываются на том же сервере, что и хранятся.

Для стабильной работы всех трех принципов и, соответственно, высокой эффективности хранения и обработки больших данных необходимы новые прорывные технологии, такие как, например, блокчейн.

Для чего нужны большие данные?

Сфера применения Big Data постоянно расширяется:

— Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только опираясь на данные анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы.
— Технологии Big Data могут использоваться для организации движения беспилотного транспорта.
— Обрабатывая большие массивы данных можно распознавать лица на фото- и видеоматериалах.
— Технологии Big Data могут быть использованы ритейлерами – торговые компании могут активно использовать массивы данных из социальных сетей для эффективной настройки своих рекламных кампаний, которые могут быть максимально ориентированы под тот или иной потребительский сегмент.
— Данная технология активно используется при организации предвыборных кампаний, в том числе для анализа политических предпочтений в обществе.
— Использование технологий Big Data актуально для решений класса гарантирования доходов (RA) , которые включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно выявить вероятные потери, либо искажения информации, способные привести к снижению финансовых результатов.
— Телекоммуникационные провайдеры могут агрегировать большие данные, в том числе о геолокации; в свою очередь эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков.
— Большие данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей.

Таким образом наиболее очевидное практическое применение технологии Big Data лежит в сфере маркетинга. Благодаря развитию интернета и распространению всевозможных коммуникационных устройств поведенческие данные (такие как число звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.

Технологии больших данных могут также эффективно использоваться в финансах, для социологических исследований и во многих других сферах. Эксперты утверждают, что все эти возможности использования больших данных являются лишь видимой частью айсберга, поскольку в гораздо больших объемах эти технологии используются в разведке и контрразведке, в военном деле, а также во всем том, что принято называть информационными войнами.

В общих чертах последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов, а также последующего формулирования рекомендаций к действию.

Рассмотрим вкратце возможности использования технологий Big Data в маркетинге. Как известно, для маркетолога информация – главный инструмент для прогнозирования и составления стратегии. Анализ больших данных давно и успешно применяется для определения целевой аудитории, интересов, спроса и активности потребителей. Анализ больших данных, в частности, позволяет выводить рекламу (на основе модели RTB-аукциона - Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

— лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
— оценивать степень удовлетворенности клиентов;
— понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
— находить и внедрять новые способы, увеличивающие доверие клиентов;
— создавать проекты, пользующиеся спросом и т. д.

Например, сервис Google.trends может указать маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Если сопоставить эти сведения со статистическими данными, собираемыми соответствующим плагином на собственном сайте, то можно составить план по распределению рекламного бюджета с указанием месяца, региона и других параметров.

По мнению многих исследователей, именно в сегментации и использовании Big Data заключается успех предвыборной кампании Трампа. Команда будущего президента США смогла правильно разделить аудиторию, понять ее желания и показывать именно тот месседж, который избиратели хотят видеть и слышать. Так, по мнению Ирины Белышевой из компании Data-Centric Alliance, победа Трампа во многом стала возможной благодаря нестандартному подходу к интернет-маркетингу, в основу которого легли Big Data, психолого-поведенческий анализ и персонализированная реклама.

Политтехнологи и маркетологи Трампа использовали специально разработанную математическую модель, которая позволила глубоко проанализировать данные всех избирателей США систематизировать их, сделав сверхточный таргетинг не только по географическим признаками, но также и по намерениям, интересам избирателей, их психотипу, поведенческим характеристикам и т. д. После этого маркетологи организовали персонализированную коммуникацию с каждой из групп граждан на основе их потребностей, настроений, политических взглядов, психологических особенностей и даже цвета кожи, используя практически для каждого отдельного избирателя свой месседж.

Что касается Хиллари Клинтон, то она в своей кампании использовала «проверенные временем» методы, основанные на социологических данных и стандартном маркетинге, разделив электорат лишь на формально гомогенные группы (мужчины, женщины, афроамериканцы, латиноамериканцы, бедные, богатые и т. д.).

В результате выиграл тот, кто по достоинству оценил потенциал новых технологий и методов анализа. Примечательно, что расходы на предвыборную кампанию Хиллари Клинтон были в два раза больше, чем у ее оппонента:

Данные: Pew Research

Основные проблемы использования Big Data

Помимо высокой стоимости, одним из главных факторов, тормозящих внедрение Big Data в различные сферы, является проблема выбора обрабатываемых данных: то есть определения того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Еще одна проблема Big Data носит этический характер. Другими словами возникает закономерный вопрос: можно ли подобный сбор данных (особенно без ведома пользователя) считать нарушением границ частной жизни?

Не секрет, что информация, сохраняемая в поисковых системах Google и Яндекс, позволяет IT-гигантам постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные приложения. Для этого поисковики собирают пользовательские данные об активности пользователей в интернете, IP-адреса, данные о геолокации, интересах и онлайн-покупках, личные данные, почтовые сообщения и т. д. Все это позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в интернете. При этом обычно согласия пользователей на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Из этого вытекает следующая важная проблема, касающаяся обеспечения безопасности хранения и использования данных. Например, безопасна ли та или иная аналитическая платформа, которой потребители в автоматическом режиме передают свои данные? Кроме того, многие представители бизнеса отмечают дефицит высококвалифицированных аналитиков и маркетологов, способных эффективно оперировать большими объемами данных и решать с их помощью конкретные бизнес-задачи.

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа, ритейл, телеком, банковский сектор и сервисные компании.

Перспективы взаимодействия технологий блокчейн и Big Data

Интеграция с Big Data несет в себе синергетический эффект и открывает бизнесу широкий спектр новых возможностей, в том числе позволяя:

— получать доступ к детализированной информации о потребительских предпочтениях, на основе которых можно выстраивать подробные аналитические профили для конкретных поставщиков, товаров и компонентов продукта;
— интегрировать подробные данные о транзакциях и статистике потребления определенных групп товаров различными категориями пользователей;
— получать подробные аналитические данные о цепях поставок и потребления, контролировать потери продукции при транспортировке (например, потери веса вследствие усыхания и испарения некоторых видов товаров);
— противодействовать фальсификациям продукции, повысить эффективность борьбы с отмыванием денег и мошенничеством и т. д.

Доступ к подробным данным об использовании и потреблении товаров в значительной мере раскроет потенциал технологии Big Data для оптимизации ключевых бизнес-процессов, снизит регуляторные риски, раскроет новые возможности монетизации и создания продукции, которая будет максимально соответствовать актуальным потребительским предпочтениям.

Как известно, к технологии блокчейн уже проявляют значительный интерес представители крупнейших финансовых институтов, включая , и т. д. По мнению Оливера Буссманна, IT-менеджера швейцарского финансового холдинга UBS, технология блокчейн способна «сократить время обработки транзакций от нескольких дней до нескольких минут».

Потенциал анализа из блокчейна при помощи технологии Big Data огромен. Технология распределенного реестра обеспечивает целостность информации, а также надежное и прозрачное хранение всей истории транзакций. Big Data, в свою очередь, предоставляет новые инструменты для эффективного анализа, прогнозирования, экономического моделирования и, соответственно, открывает новые возможности для принятия более взвешенных управленческих решений.

Тандем блокчейна и Big Data можно успешно использовать в здравоохранении. Как известно, несовершенные и неполные данные о здоровье пациента в разы увеличивают риск постановки неверного диагноза и неправильно назначенного лечения. Критически важные данные о здоровье клиентов медучреждений должны быть максимально защищенными, обладать свойствами неизменности, быть проверяемыми и не должны быть подвержены каким-либо манипуляциям.

Информация в блокчейне соответствует всем перечисленным требованиям и может служить в роли качественных и надежных исходных данных для глубокого анализа при помощи новых технологий Big Data. Помимо этого, при помощи блокчейна медицинские учреждения смогли бы обмениваться достоверными данными со страховыми компаниями, органами правосудия, работодателями, научными учреждениями и другими организациями, нуждающимися в медицинской информации.

Big Data и информационная безопасность

В широком понимании, информационная безопасность представляет собой защищенность информации и поддерживающей инфраструктуры от случайных или преднамеренных негативных воздействий естественного или искусственного характера.

В области информационной безопасности Big Data сталкивается со следующими вызовами:

— проблемы защиты данных и обеспечения их целостности;
— риск постороннего вмешательства и утечки конфиденциальной информации;
— ненадлежащее хранение конфиденциальной информации;
— риск потери информации, например, вследствие чьих-либо злонамеренных действий;
— риск нецелевого использования персональных данных третьими лицами и т. д.

Одна из главных проблем больших данных, которую призван решить блокчейн, лежит в сфере информационной безопасности. Обеспечивая соблюдение всех основных ее принципов, технология распределенного реестра может гарантировать целостность и достоверность данных, а благодаря отсутствию единой точки отказа, блокчейн делает стабильной работу информационных систем. Технология распределенного реестра может помочь решить проблему доверия к данным, а также предоставить возможность универсального обмена ими.

Информация – ценный актив, а это значит, что на первом плане должен стоять вопрос обеспечения основных аспектов информационной безопасности. Для того, чтобы выстоять в конкурентной борьбе, компании должны идти в ногу со временем, а это значит, что им нельзя игнорировать те потенциальные возможности и преимущества, которые заключают в себе технология блокчейн и инструменты Big Data.

Статьи по теме: