Big data

Что такое Big data?

Большие данные представляют собой определённую базу, которую можно сравнить с обыкновенной, с основным отличием в том, что она умеет хранить и обрабатывать большие объёмы информации

Конечно, это не единственное отличие, стоит принять во внимание и технические различия, требующиеся на реализацию процесса хранения и обработки

Таким образом, традиционная база данных имеет следующие характеристики: объем памяти исчисляется до терабайт, использует централизованный способ хранения; в основе лежит вертикальная модель структурированных данных с сильной взаимосвязью данных.

К основным принципам и характеристикам работы базы Больших Данных можно отнести следующее.

  • Самая главная характеристика — это объем. Большие объёмы накопленных данных затрудняют их обработку и хранение. Big data позволяет решить этот вопрос, предлагая более усовершенствованные инструменты.
  • Скорость обработки информации также имеет немалое значение. На сегодняшний день к этой характеристике выдвигают всё больше требований, многие стремятся реализовать обработку в режиме реального времени. Это также под силу базам Больших данных. Такая разработка позволяет одновременно проводить обработку и анализ разных видов данных: структурированных, полуструктурированных и неструктурированных. А также соответствующей самым разным форматам. На сегодняшний день накоплено гораздо большее количество неструктурированной информации. Она всё больше поступает из социальных сетей и имеет вид разноформатных данные. Такая информация требует совершенно другого подхода, чем структурированная, и прежде чем стать полезной требует комплексного анализа.
  • База Больших данных способна обеспечить достоверность имеющихся данных. У большинства компании возникают затруднения с аналитикой, так как они не могут отличить действия роботов от реального поведения человека. Big data решает этот вопрос.
  • База Больших Данных должна быть полезна и иметь определённую ценность для организации, которая её использует.

Хорошая Big data включает в себя все перечисленные особенности. Благодаря этому сферы использования этой технологии пополняются все новыми направлениями.

Сейчас наиболее распространённой является банковская и маркетинговая сфера. А также много пользы принесёт такая технология в сфере клиентского сервиса.

Зачем использовать Kubernetes для работы с Big Data

Главные преимущества работы с Big Data в Kubernetes — он позволяет построить гибкую автомасштабируемую систему и изолировать рабочие среды для обработки данных, обучения и тестирования моделей. Но самостоятельная установка и обслуживание кластера — нетривиальная задача. Kubernetes удобно арендовать в облаке, потому что кластер можно развернуть за несколько минут, а облачный провайдер предоставляет практически неограниченные ресурсы. Также он возьмет на себя задачи обслуживания: интеграцию новых сервисов, обновление кластера, поддержка и тому подобное. Наконец, облачная инсталляция предполагает большую экономическую эффективность за счёт схемы pay-as-you-go на фоне меняющихся нагрузок.

Cloud-Native подход к работе с большими данными позволяет избавиться от проблем классического Hadoop-кластера, а также получить больше возможностей от других инструментов. На облачных платформах есть разные сервисы, которые помогают в работе с Big Data: объектное хранилище S3, Hadoop aaS, вычисления на базе GPU и другие.

Примеры задач, эффективно решаемых при помощи MapReduce

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Решение:

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, ), reduce суммирует эти единички, возвращая финальный ответ для слова.

Обработка логов рекламной системы

Задача: имеется csv-лог рекламной системы вида:

Решение:

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Как стать специалистом в «отрасли»

Знать о характеристиках больших данных, а также уметь работать с ними должны специально обученные люди. Их так и называют – специалисты по BigData.

Самообразование в данном случае никак не поможет. Это не программирование, которому можно обучиться «с нуля» собственными силами. В ВУЗах России пока тоже не слишком часто предлагают соответствующее направление. Но выход есть.

Для того, чтобы разбираться в Big Data и стать настоящим специалистом, можно выбрать один из следующих вариантов развития событий:

  • пройти обучение за рубежом по большим данным;
  • отдать предпочтение специализированным курсам;
  • найти ВУЗ в РФ, который поможет стать Big Data Engineer.

Выбор не такой уж большой. В основном люди отдают предпочтение курсам. Они бывают как дистанционные, так и «очные». Первый вариант пользуется большим спросом, нежели второй. Для успешного обучения требуются базовые знания информатики и IT-технологий. Проще всего освоиться в соответствующей отрасли будет инженерам, а также «технарям» и «айтишникам».

Теперь ясно, что такое Big Data, для чего и как они применяются. Стать специалистом в этой перспективной сфере может каждый, но для этого придется изрядно постараться. Большой труд окажется вознагражден достойно.

MapReduce

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи. Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce(). Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

О методах работы

При помощи искусственного интеллекта и других высокотехнологичных устройств происходит обработка информации большего размера, нежели при задействовании «обычных гаджетов». Пример – нейро сети.

Всего существуют следующие методы работы с большими «датами»:

  • анализы социальных сетей (отдельно – настроений, правил обучения, дерева классификации);
  • машинное обучение;
  • генетические алгоритмы;
  • регрессионный анализ.

Это – основные варианты развития событий. Далее каждый из них будет рассмотрен более подробно. Тогда за один раз пользователь сможет точно понять, с чем ему предстоит иметь дело.

Машинное обучение

Оно помогает при:

  • обнаружении спама и рекламы;
  • сборе Big Data относительно пользовательских предпочтений и создании рекомендаций;
  • поиске наилучшего контента для того, чтобы привлекать и удерживать новых клиентов (та же контекстная реклама);
  • установке юртарифов;
  • определении вероятности того, насколько конкретное дело является выигрышным/выгодным.

Пример – человек в интернете просматривает новости или ищет информацию в Google. Алгоритм изучает соответствующие сведения и предлагает нечто схожее. Искусственные интеллекты без явных признаков программирования способны создавать прогнозы путем уже известных свойств. Последние извлекаются из «обучающих данных».

Анализ соцсетей и настроений

В случае с настроением метод задействован для:

В случае с социальными сетями анализ используется, чтобы:

прояснить принципы формирования связей между людьми из разных слоев населения;
уточнить важность конкретной личности в обществе;
отыскать минимальные связи для соединения двух человек;
понять структуру социального типа клиентской базы.

Последний вариант особо полезен при телекоммуникациях.

Правила ассоциации

Этот подход необходим для:

  • размещения продуктов так, чтобы увеличивались их продажи;
  • извлечения данных о посетителях веб-страничек;
  • анализа биоданных;
  • отслеживания системных журналов, чтобы вовремя определять потенциальных злоумышленников;
  • определения, стали ли покупатели одного товара покупать другую продукцию чаще.

Использует соответствующих подход обычно каждая торговая точка. Задействуются материалы, получаемые посредством POS-систем.

Дерево классификаций

Этот метод применяется при:

  • автоматическом присваивании документов тем или иным категориям;
  • классификации по различным группам тех или иных организмов;
  • разработке Личный Кабинетов для учащихся в режиме онлайн.

При помощи статистической классификации в Big Data производится определение категорий, к которым можно отнести новое наблюдение.

Генетический алгоритм

Применяется при:

  • составлении расписаний;
  • расчете оптимального сырья для производства;
  • создании «искусственно творческого» контента – игры слов, шуток, анекдотов.

Вдохновляются принципами работы эволюции. Сконцентрированы на наследовании, естественном отборе и мутации.

Регрессия

Регрессионный анализ используется для решения следующих задач:

  • определение степени удовлетворенности посетителей;
  • изучение принципов воздействия погоды на частоту звонков в службы поддержки;
  • определение влияния на стоимость жилья его района и размеров.

Предусматривает прием манипулирование независимыми переменными. Это делается для того, чтобы просмотреть принципы влияния на зависимые сведения.

Советы будущим специалистам

Стать специалистом в рассмотренной области – дело не из простых. Москва и другие регионы России на данный момент предлагают довольно мало ВУЗов, в которых учат на специалистов пор «большим материалам».

Можно воспользоваться следующими вариантами развития событий:

  • отыскать зарубежный ВУЗ, где обучают на BigData Engineer;
  • посетить специализированные курсы с выдачей сертификата по упомянутому направлению.

Чтобы добиться успеха, придется интересоваться IT и математикой, а также информатикой. Знания программирования тоже окажутся не лишними.

Внимание: в России для обучения на BigData Engineer и изучения технологии Big Data чаще всего используются специализированные курсы. Они проводятся как оффлайн, так и онлайн

Вот некоторые из таких профессиональных курсов:

«Промышленный ML на больших данных«;

«Data Engineer«.

Сферы применения больших данных в HR

Однако, Big Data нужны рекрутерам и сотрудникам HR-службы не только для предиктивной аналитики. На сегодняшний день технологии больших данных успешно используются в следующих случаях :


Аналитика больших данных для руководителей – специальный курс для управленцев, менеджеров и HR-специалистов

Это лишь некоторые примеры практического использования технологий Big Data для управления человеческими ресурсами. Конкретные кейсы смотрите в нашей следующей статье.

Хотите узнать больше о HR-аналитике и прямой монетизации данных о своих сотрудниках? Приходите к нам на занятия, где вы узнаете, как обрабатывать разноформатную информацию, строить нетривиальные гипотезы и успешно реализовывать собственные HR-проекты. Управление талантами, безошибочный рекрутинг, безболезненное сокращение штата за счет отказа от неэффективных работников и решение других управленческих задач с помощью Big Data на 3-дневном курсе аналитика больших данных для руководителей.

Смотрите расписание, записывайтесь на обучение и осваивайте современные ИТ-инструменты: большие данные, машинное обучение (Machine Learning) и интернет вещей (Internet Of Things) в нашем образовательном центре. До встречи в классе!

Источники

  1. https://www.hr-director.ru/article/67163-big-data-v-menedjmente-18-m6
  2. https://www.ipm.by/publications/publectors/hr-analytics/
  3. https://vzima.ru/archives/4275

Heineken: оптимизация производства и продаж

Пивоваренная компания из Голландии, первая по продажам в Европе и вторая в мире, использует big data для укрепления своих позиций на отдельных рынках — в частности, в США. Большие данные помогают ей оптимизировать цепочки поставок продукции, планировать совместную работу на заводах, прогнозировать необходимые запасы сырья с учётом сезонных колебаний и спроса. Также big data участвуют в сбыте пива: Heineken заключила соглашение с североамериканской торговой сетью Walmart и теперь анализирует поведение покупателей перед полками со слабоалкогольной продукцией для повышения конверсии. Облачная платформа собирает и хранит большие объёмы данных о том, какой путь проходит каждая банка пива до того, как покинет супермаркет.

Сервисы

Одними из ведущих разработчиков продуктов для Big Data являются ИТ-гиганты, что вполне логично. В силу своей специфики бизнеса они ежедневно сталкиваются с необходимостью обработки огромного количества информации, поэтому нуждаются в собственных решениях. Кроме того, разработка платформ и инструментов для работы с Big Data помогают освоить новые ниши рынка и получить новых клиентов из B2B сектора.

Сказать точно, какие продукты являются самыми лучшими, сложно, так как в каждой конкретной ситуации и с каждой конкретной отраслью будут свои требования к необходимым инструментам. Помимо известных платформ на рынке появляется множество стартапов, которые тоже могут предложить интересные решения. Именно поэтому инструментарий для работы с Big Data нужно подбирать индивидуально для вашего проекта, отрасли и бюджета.

Среди наиболее популярных платформ:

  • 1C-Битрикс BigData
  • Mail.ru Cloud Big Data
  • RTB Media
  • Alytics
  • Crossss

Как готовиться к собеседованиям

Не нужно углубляться только в один предмет. На собеседованиях задают вопросы по статистике, по машинному обучению, программированию. Могут спросить про структуры больших данных, алгоритмы, применение, технологии, про кейсы из реальной жизни: упали сервера, случилась авария — как устранять? Могут быть вопросы по предметной сфере — то, что ближе к бизнесу

И если человек слишком углубился в одну математику, и на собеседовании не сделал простое задание по программированию, то шансы на трудоустройство снижаются. Лучше иметь средний уровень по каждому направлению, чем показать себя хорошо в одном, а в другом провалиться полностью.

Есть список вопросов, которые задают на 80 процентах собеседований. Если это машинное обучение — обязательно спросят про градиентный спуск. Если статистика — нужно будет рассказать про корреляцию и проверку гипотез. По программированию скорее всего дадут небольшую задачу средней сложности. А на задачах можно легко набить руку — просто побольше их решать. 

История вопроса и определение термина

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

И даже такие:

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

«Микрон»: оптимизация производства и повышение качества продукции

Российский производитель микроэлектроники повысил эффективность калибровочных запусков на своём заводе благодаря big data. Решение, которое разработали в МТС, позволило предприятию на треть снизить время, необходимое для настройки оборудования. Контроль за этим этапом работы очень важен — от него зависит частота сбоев и качество итоговой продукции. Технологический процесс на «Микроне» высокоавтоматизирован и включает сотни однотипных операций, которые генерируют большие массивы данных. Теперь при каждом сбое не приходится заново калибровать всю систему, так как на основе собранных ранее данных можно с высокой точностью определить, какой компонент сработал некорректно.

Внедрение технологичных решений на предприятиях и анализ большого массива данных помогает оптимизировать затраты, работать эффективнее и повышать конкурентоспособность. А вопрос хранения информации удобнее всего решать при помощи облачных технологий.

Перейти в облако

Для чего необходимы большие данные

Главная цель работы с большими данными – обуздать их (проанализировать) и направить. Человечество научилось производить и извлекать огромные массивы информации, а с их управлением ещё есть проблемы.

Прямо сейчас большие данные помогают в решении таких задач:

• повышение производительности труда;
• точная реклама и оптимизация продаж;
• прогнозирование ситуаций на внутренних и глобальных рынках;
• совершенствование товаров и услуг;
• улучшение логистики;
• качественное таргетирование клиентов в любой сфере бизнеса.

Большие данные делают услуги удобнее и выгоднее как для продавцов, так и для покупателей. Предприятия могут узнать, какая продукция популярнее, как сформировать ценовую политику, когда лучшее время для продаж, как оптимизировать ресурсы на производстве, чтобы сделать его эффективнее. За счёт этого клиенты получают точное предложение «без воды».

Кто и как собирает данные?

Всю работу можно условно разделить на три этапа: интеграция, управление и анализ.

Этап 1. Интеграция

На первом этапе компания должна определить цели внедрения Big Data, выбрать инструменты сбора информации, а также связать их со своими источниками поступающих данных.

Этап 2. Управление

На этом этапе выбирается платформа для хранения информации. Компании могут использовать локальные хранилища, публичные или частные облачные сервисы.

Этап 3. Аналитика

Большие данные должны работать на бизнес, однако они начинают приносить пользу после анализа. Это заключительный этап взаимодействия с ними.

Superset в Kubernetes для построения дашбордов

Чтобы собранные данные можно было использовать для BI-аналитики, ее нужно обернуть в графики, дашборды и другие понятные способы представления информации. Для этого подходит Superset — инструмент бизнес-аналитики для исследования и визуализации данных, Open Source-аналог Tableau. При этом Superset гибкий и Cloud-Native в плане использования различных сервисов в качестве бэкенда.

Из «коробки» поддерживает интеграцию с Presto, Greenplum, Hadoop и множеством других систем. Плюс в нем уже достаточно много готовых визуализаций, но есть инструменты и для создания собственных. Если интегрировать его с Presto, то можно работать с данными в S3, используя Superset как SQL IDE. Еще есть инструмент, альтернативный Superset, — Metabase, его также можно запустить в Kubernetes.

Преимущество запуска Superset в Kubernetes: Superset разработан для обеспечения высокой доступности. Это Cloud Native-инструмент, который хорошо умеет масштабироваться в больших распределенных средах и одновременно может обслуживать несколько сотен пользователей.

Как запустить Superset в Kubernetes: существует Helm Chart.

Полезные ссылки:

  • Установка и настройка Superset в Kubernetes.
  • Установка драйверов БД в Superset.
  • Metabase в Kubernetes.

Перспективы развития

Для простого анализа Big Data не так необходимы. Но у всех возникает вопрос о том, насколько соответствующая область в ближайшие десятилетия будет востребована. Сейчас она «на высоте», а что будет через 5-10 лет, неизвестно.

Blockchain и Big Data – перспективные и дополняющие друг друга области. Примерно с 2015-2016 года активно появляются в СМИ и набирают обороты. Криптографически безопасные технологии способны обеспечить надежную защиту сведений, сохраняя ее конфиденциальность. Для того, чтобы решить проблемы Big Data, используется Блокчейн.

Также стоит отметить, что почти все отрасли деятельности людей занимаются инвестициями в большие данные. Аналитика рассматриваемых «материалов» поможет отслеживать транзакции и обнаруживать скрытые схемы (при подключении Блокчейна). Все это – весьма перспективно и актуально. А с учетом того, что современный мир активно развивает IT-технологии, Big Data и их ценность с течением времени будет только увеличиваться.

Big data в бизнесе

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали. 

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

Системы больших данных

Основные требования к работе с большими данными такие же, как и к любым другим наборам данных. Однако массовые масштабы, скорость обработки и характеристики данных, которые встречаются на каждом этапе процесса, представляют серьезные новые проблемы при разработке средств. Целью большинства систем больших данных является понимание и связь с большими объемами разнородных данных, что было бы невозможно при использовании обычных методов.

В 2001 году Даг Лэйни (Doug Laney) из Gartner представил «три V больших данных», чтобы описать некоторые характеристики, которые отличают обработку больших данных от процесса обработки данных других типов:

  1. Volume (объем данных).
  2. Velocity (скорость накопления и обработки данных).
  3. Variety (разнообразие типов обрабатываемых данных).

Объем данных

Исключительный масштаб обрабатываемой информации помогает определить системы больших данных. Эти наборы данных могут быть на порядки больше, чем традиционные наборы, что требует большего внимания на каждом этапе обработки и хранения.

Поскольку требования превышают возможности одного компьютера, часто возникает проблема объединения, распределения и координации ресурсов из групп компьютеров. Кластерное управление и алгоритмы, способные разбивать задачи на более мелкие части, становятся в этой области все более важными.

Скорость накопления и обработки

Вторая характеристика, которая существенно отличает большие данные от других систем данных, – это скорость, с которой информация перемещается по системе. Данные часто поступают в систему из нескольких источников и должны обрабатываться в режиме реального времени, чтобы обновить текущее состояние системы.

Этот акцент на мгновенной обратной связи заставил многих специалистов-практиков отказаться от пакетно-ориентированного подхода и отдать предпочтение потоковой системе реального времени. Данные постоянно добавляются, обрабатываются и анализируются, чтобы успевать за притоком новой информации и получать ценные данные на ранней стадии, когда это наиболее актуально. Для этого необходимы надежные системы с высокодоступными компонентами для защиты от сбоев по конвейеру данных.

Разнообразие типов обрабатываемых данных

В больших данных существует множество уникальных проблем, связанных с широким спектром обрабатываемых источников и их относительным качеством.

Данные могут поступать из внутренних систем, таких как логи приложений и серверов, из каналов социальных сетей и других внешних API-интерфейсов, с датчиков физических устройств и из других источников. Целью систем больших данных является обработка потенциально полезных данных независимо от происхождения путем объединения всей информации в единую систему.

Форматы и типы носителей также могут значительно различаться. Медиафайлы (изображения, видео и аудио) объединяются с текстовыми файлами, структурированными логами и т. д. Более традиционные системы обработки данных рассчитывают, что данные попадают в конвейер уже помеченными, отформатированными и организованными, но системы больших данных обычно принимают и сохраняют данные, стараясь сохранить их исходное состояние. В идеале любые преобразования или изменения необработанных данных будут происходить в памяти во время обработки.

Другие характеристики

Со временем специалисты и организации предложили расширить первоначальные «три V», хотя эти нововведения, как правило, описывают проблемы, а не характеристики больших данных.

  • Veracity (достоверность данных): разнообразие источников и сложность обработки могут привести к проблемам при оценке качества данных (и, следовательно, качества полученного анализа).
  • Variability (изменчивость данных): изменение данных приводит к широким изменениям качества. Для идентификации, обработки или фильтрации данных низкого качества могут потребоваться дополнительные ресурсы, которые смогут повысить качество данных.
  • Value (ценность данных): конечная задача больших данных – это ценность. Иногда системы и процессы очень сложны, что затрудняет использование данных и извлечение фактических значений.

Почему блокчейн не нужен во всех проектах Big Data?

Прежде всего следует подчеркнуть принципиальное различие технологий распределенного реестра и больших данных: Big Data предполагает интеграцию информации из различных источников, тогда как в блокчейне, наоборот, копии информационных цепочек хранятся на множестве разных компьютеров . Децентрализованное хранение и последовательный характер записи данных и обусловливает достаточно низкую скорость их считывания. В частности, пропускная способность популярных криптовалют, основанных на блокчейне, не превышает 10 тысяч транзакций в секунду, несмотря множество проектов, направленных на увеличение этого показателя. При этом скорость сети международной платежной системы Visa, работающей через централизованные сервера, составляет 24 тысячи транзакций в секунду . Концепция Big Data подразумевает быструю обработку огромных массивов информации, которую блокчейн не может обеспечить, по крайней мере, пока.

Данные, которые попали в блокчейн, остаются там навсегда. Поэтому применять эту технологию имеет смысл только в тех задачах, где необходимо постоянное хранение неизменяемой информации, в т.ч. устаревшей и уже неиспользуемой . Но такой потребности нет в отраслях с высокой динамикой изменений и достаточно низкой ценностью каждой отдельной записи, таких как, например, сведения о покупках конкретного покупателя в определенный день. Сегодня именно сфера маркетинга наиболее активно использует большие данные для персонализации рекламных предложений, о чем мы уже рассказывали здесь. И в этом случае блокчейн совершенно не нужен решениям Big Data, чтобы составить детальный портрет потребителя или управлять корпоративной репутацией в интернете.

Концепция хранения информации в блокчейне и Big Data противоречат друг другу

Проблемы Big Data

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации

Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы

Перспективы и тенденции развития Big data

В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса

Такой подход планируется реализовать с помощью следующих составляющих:

Облачные хранилища

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

Использование Dark Data

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

Искусственный интеллект и Deep Learning

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

Blockchain

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

Самообслуживание и снижение цен

В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Главный принцип

До биг-даты проектировщики и экономисты исходили из своих предположений: «Наверное, если открыть тут магазин, то люди будут в него заходить. Ведь это логично!» Теперь же у нас есть способы собирать данные о подлинном поведении покупателей. В каком магазине нужно продавать спелые авокадо, а в каком — водку? Где нужен отдел кулинарии, а где нужен акцент на сырую картошку и тушёнку? Где люди перестали заходить в магазины, а где просто кассиры воруют? Теперь не нужно гадать — можно просто посмотреть в данные.

В следующей части увидим, как магазины работают с ассортиментом и выкладкой товара, чтобы получить больше прибыли. Вкратце: ещё больше биг-даты и анализа поведения покупателей.