Что такое big data простыми словами? применение и перспективы больших данных

IT-консультанты

Системные интеграторы разворачивают систему анализа больших данных на стороне клиента. Они выступают посредниками между технологиями и бизнесом. Это вариант для тех, кому не подходят готовые решения и облачные вычисления. «Преимущество интегратора в том, что он может комбинировать продукты разных вендоров, дополняющие друг друга», — говорил директор IBS по технологиям Сергей Кузнецов в интервью изданию Computeworld.«Форс»Направлением big data компания занялась в 2013 году. Они разрабатывают и развертывают аналитические системы для телекома, ритейла, банковского сектора, здравоохранения, госорганов и муниципальных служб. Кроме того, «Форс» предлагает готовый софт для анализа аудитории с помощью данных из соцсетей (ForSMedia) и формирования досье контрагента. Компания является официальным дистрибутором и платиновым партнером корпорации Oracle.«Крок»Интегратор плотно сотрудничает с EMC, HP, Oracle и Microsoft, Intel — с их решениями работает центр компетенций «Крок». Проекты в сфере больших данных компания начала реализовывать с 2013 года. Специалисты «Крок» строили модель по уменьшению оттока абонентов для крупного телеком-оператора, прогнозировали пассажиропотоки для «Центральной пригородной пассажирской компании», а сейчас реализуют проект в некой крупной страховой компании. В 2014 году объем направления big data достиг 1% в выручке «Крок».

СУБД типа ключ-значение

Наверное один из самых простых типов СУБД. В упрощенном виде, это некая таблица с уникальным ключом и собственно связанным с ним значением, в котором может быть что угодно. Чаще всего такие СУБД используют для кэширования, т.к. они очень быстро работают, а это и не сложно, когда есть уникальный ключ, и запрос возвращает только одно значение. У некоторых представителей данных СУБД есть возможность работать полностью в памяти, а так же есть возможность задавать срок жизни записи, после истечения которого, записи будут автоматически удаляться.

Наиболее известные СУБД такого типа — Redis и Memcached.

Когда выбирать СУБД ключ-значение

Если СУБД будет использоваться для кэширования данных или для брокеров сообщений, то это очень подходящий тип. Так же, такая СУБД хорошо подходит для баз где нужно хранить достаточно простые структуры, и иметь к ним очень быстрый доступ.

Когда не выбирать СУБД ключ-значение

Если вы предполагаете хранить в базе данных много сущностей (таблиц), а у сущностей будут сложные структуры с разными типами данных. Так же, если вы предполагаете делать из этой таблицы сложные запросы которые возвращают множества строк.

История появления и развития Big Data

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь  проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

VVV — признаки больших данных

Чтобы уменьшить размытость определений в сфере Big Data, разработаны признаки, которым они должны соответствовать. Все начинаются с буквы V, поэтому система носит название VVV:

• Volume – объём. Объём информации измерим.

• Velocity – скорость. Объём информации не статичен – он постоянно увеличивается, и инструменты обработки должны это учитывать.

• Variety – многообразие. Информация не обязана иметь один формат. Она может быть неструктурированной, частично или полностью структурированной.

К этим трём принципам, с развитием отрасли, добавляются дополнительные V. Например, veracity – достоверность, value – ценность или viability – жизнеспособность.

Но для понимания достаточно первых трёх: большие данные измеримые, прирастающие и неоднообразные.

Системы больших данных

Основные требования к работе с большими данными такие же, как и к любым другим наборам данных. Однако массовые масштабы, скорость обработки и характеристики данных, которые встречаются на каждом этапе процесса, представляют серьезные новые проблемы при разработке средств. Целью большинства систем больших данных является понимание и связь с большими объемами разнородных данных, что было бы невозможно при использовании обычных методов.

В 2001 году Даг Лэйни (Doug Laney) из Gartner представил «три V больших данных», чтобы описать некоторые характеристики, которые отличают обработку больших данных от процесса обработки данных других типов:

  1. Volume (объем данных).
  2. Velocity (скорость накопления и обработки данных).
  3. Variety (разнообразие типов обрабатываемых данных).

Объем данных

Исключительный масштаб обрабатываемой информации помогает определить системы больших данных. Эти наборы данных могут быть на порядки больше, чем традиционные наборы, что требует большего внимания на каждом этапе обработки и хранения.

Поскольку требования превышают возможности одного компьютера, часто возникает проблема объединения, распределения и координации ресурсов из групп компьютеров. Кластерное управление и алгоритмы, способные разбивать задачи на более мелкие части, становятся в этой области все более важными.

Скорость накопления и обработки

Вторая характеристика, которая существенно отличает большие данные от других систем данных, – это скорость, с которой информация перемещается по системе. Данные часто поступают в систему из нескольких источников и должны обрабатываться в режиме реального времени, чтобы обновить текущее состояние системы.

Этот акцент на мгновенной обратной связи заставил многих специалистов-практиков отказаться от пакетно-ориентированного подхода и отдать предпочтение потоковой системе реального времени. Данные постоянно добавляются, обрабатываются и анализируются, чтобы успевать за притоком новой информации и получать ценные данные на ранней стадии, когда это наиболее актуально. Для этого необходимы надежные системы с высокодоступными компонентами для защиты от сбоев по конвейеру данных.

Разнообразие типов обрабатываемых данных

В больших данных существует множество уникальных проблем, связанных с широким спектром обрабатываемых источников и их относительным качеством.

Данные могут поступать из внутренних систем, таких как логи приложений и серверов, из каналов социальных сетей и других внешних API-интерфейсов, с датчиков физических устройств и из других источников. Целью систем больших данных является обработка потенциально полезных данных независимо от происхождения путем объединения всей информации в единую систему.

Форматы и типы носителей также могут значительно различаться. Медиафайлы (изображения, видео и аудио) объединяются с текстовыми файлами, структурированными логами и т. д. Более традиционные системы обработки данных рассчитывают, что данные попадают в конвейер уже помеченными, отформатированными и организованными, но системы больших данных обычно принимают и сохраняют данные, стараясь сохранить их исходное состояние. В идеале любые преобразования или изменения необработанных данных будут происходить в памяти во время обработки.

Другие характеристики

Со временем специалисты и организации предложили расширить первоначальные «три V», хотя эти нововведения, как правило, описывают проблемы, а не характеристики больших данных.

  • Veracity (достоверность данных): разнообразие источников и сложность обработки могут привести к проблемам при оценке качества данных (и, следовательно, качества полученного анализа).
  • Variability (изменчивость данных): изменение данных приводит к широким изменениям качества. Для идентификации, обработки или фильтрации данных низкого качества могут потребоваться дополнительные ресурсы, которые смогут повысить качество данных.
  • Value (ценность данных): конечная задача больших данных – это ценность. Иногда системы и процессы очень сложны, что затрудняет использование данных и извлечение фактических значений.

Колоночные СУБД

Колоночные СУБД очень похожи на реляционные. Они так же состоят из строк, которые имеют атрибуты, а строки группируются в таблицах. Различия в логических моделях несущественные, а вот на уровне физического хранения данных различия значительные.

В реляционных СУБД данные хранятся «построчно», это означает что для считывания значения определенной колонки, придется прочитать практически всю строку, как минимум от первой до нужной колонки. В колоночной СУБД данные хранятся «поколоночно», т.е. колонка — это как отдельная таблица. Соответственно чтение будет происходить из конкретного столбца сразу. На практике это реально работает очень быстро (проверено мной на нескольких реализованных хранилищах данных).

Основные преимущества колоночных СУБД – эффективное выполнения сложных аналитических запросов на больших объемах, и легкое, практически мгновенное, изменение структуры таблиц с данными, плюс существенная компрессия и сжатие, которое позволяет значительно экономить место.

Яркие представители колоночных СУБД — Sybase IQ (ныне SAP IQ), Vertica, ClickHouse, Google BigTable, InfoBright, Cassandra.

Когда выбирать колоночные СУБД

Один из весомых аргументов за использование именно колоночной СУБД — это если вы хотите построить хранилище данных, и планируете делать выборки со сложными аналитическими вычислениями. Косвенный признак, который так же может сигнализировать о том, что имеет смысл, хотя бы посмотреть в сторону колоночных СУБД — это если количество строк, из которых делаются выборки, превышает сотни миллионов.

Когда не выбирать колоночные СУБД

Учитывая специфику колоночных СУБД, будет не эффективно ее использовать, если выборки достаточно простые, параметры выборки статичны, и если преобладают выборки по ключевым значениям. Так же, если количество строк в таблице, из которой делается выборка, меньше сотен миллионов строк, то скорее всего не будет большого преимущества, по сравнению с реляционной СУБД.

Нужно так же иметь ввиду, что в колоночных СУБД могут быть и другие ограничения. Например, может отсутствовать поддержка транзакций, а язык запросов может отличаться от классического SQL, и прочее.

Онлайн-кассы как эталонный источник больших данных

Онлайн-касса — это с виду обыкновенный кассовый аппарат, формирующий чеки для выдачи покупателям в целях подтверждения оплаты. Но это далеко не только так: соответствующий инновационный тип ККТ формирует очень емкую подборку данных — «фискальные данные». Которые в цифровом и удобном для обработки (стандартизованном — в соответствии с принятыми форматами) виде могут аккумулироваться различными заинтересованными сторонами.

Например — ФНС, которой интересны выручка и расходы торгового предприятия как налогоплательщика. Налоговая получает эти данные с онлайн-касс автоматически, хочет этого магазин или нет: все онлайн-кассы по закону передают сведения в ФНС через интернет.

Например — Оператор фискальных данных, обязательный по закону же посредник между предприятием и ФНС. Именно ОФД «собирает» данные с онлайн-касс, преобразовывает в нужный формат и направляет налоговикам. По пути — в законном же порядке, «обрабатывает» их, не нарушая ничьих интересов.

И на основании этой обработки (которую может при желании делать и ФНС тоже — как и иное любое заинтересованное лицо, у кого, разумеется, есть доступ к фискальным данным) ОФД может вырабатывать прогнозы и предикативные данные — в интересах бизнеса.

В фискальные данные входит куча информации. Это не только выручка, но и, к примеру, состав каждого чека — буквально по единичной бутылке. Полный перечень реквизитов фискального чека можно почитать, заглянув в статью 4.7 Закона № 54-ФЗ (), который регулирует применение контрольно-кассовой техники. И можно увидеть, что в этих реквизитах много чего интересного.

На основании фискальных данных с одного кассового аппарата можно отследить, почем и кем (на каком месте) была продана одна бутылка (пусть минеральной воды определенного бренда). Это «просто данные», simple, если угодно, data. На основании фискальных данных (ФД) с миллиона кассовых аппаратов — обстоятельства продажи миллиона бутылок. А если представить, что разных брендов? Это уже «большие данные», Big Data.

И совершенно очевидно, что анализ данных «по бутылкам» — это совершенно незначительная область обработки Big Data по фискальным данным. Это огромный, попросту невообразимо огромный ресурс. Еще недавно недоступный бизнесу. А сегодня — способный дать заинтересованному лицу крутейшие конкурентные преимущества.

Практические инструменты для извлечения такого преимущества уже есть — ознакомимся с ними далее.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг

говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

Немного истории

Определение Биг Data – это только «верхушка айсберга». Разбираться с соответствующим понятием на самом деле весьма трудно. Особенно если не понимать, как проводить дальнейший анализ материалов.

Первые упоминания Биг Data появились в 60-70-х годах прошлого века. Тогда начался активный рост и развитие информационных технологий. И продолжается подобный прогресс по сей день. Это не может не отражаться на «дате» — то, что еще 10 лет назад казалось огромным объемом, теперь является «мелочью». Чтобы убедиться в этом, достаточно посмотреть на размеры памяти современных девайсов или «вес» выпускаемого софта.

С 2005 года организации начали потихоньку разбираться в масштабах софта пользовательских интернет сервисов – YouTube, OK, VK и так далее. Тогда же появилась одна из первых платформ для работы с большими объемами данных. Она получила названием Hadoop. Сегодня так называют суперкомпьютер, стек, предназначенный для Big Дата. Чуть позже мир узнал об еще одной технологии – NoSQL, которая представлена связью методов, которыми создаются системы управления Big Data.

VLDB проблемы

Ключевые области, в которых VLDB может представлять проблемы, включают конфигурацию, хранение, производительность, обслуживание, администрирование, доступность и ресурсы сервера.

Конфигурация

Тщательная настройка баз данных, находящихся в сфере VLDB, необходима для устранения или уменьшения проблем, возникающих в базах данных VLDB.

Администрация

Сложность управления VLDB может экспоненциально возрастать для администратора базы данных по мере увеличения размера базы данных.

Доступность и обслуживание

При работе с VLDB-операциями, связанными с обслуживанием и восстановлением, такими как реорганизация базы данных и копирование файлов, которые были весьма практичными для не-VLDB, для базы данных VLDB требуется очень много времени и ресурсов. В частности, обычно невозможно достичь типичного целевого времени восстановления (RTO), максимального ожидаемого времени, в течение которого база данных будет недоступна из-за прерывания, методами, которые включают копирование файлов с диска или других архивов хранилища. Для решения этих проблем методы, такие как кластеризация, клонированные / реплицированные / резервные базы данных, моментальные снимки файлов, моментальные снимки хранилища или диспетчер резервного копирования, могут помочь достичь RTO и доступности, хотя отдельные методы могут иметь ограничения, оговорки, требования к лицензии и инфраструктуре, в то время как некоторые может привести к потере данных и не достичь целевой точки восстановления (RPO). Для многих систем приемлемы только географически удаленные решения.

Резервное копирование и восстановление

Лучшая практика состоит в том, чтобы архитектура резервного копирования и восстановления строилась с точки зрения общей доступности и решения для обеспечения непрерывности бизнеса.

Спектакль

При той же инфраструктуре обычно может происходить снижение производительности, то есть увеличение времени отклика при увеличении размера базы данных. Некоторые обращения просто будут иметь больше данных для обработки (сканирования), что займет пропорционально больше времени ( линейное время ); в то время как индексы, используемые для доступа к данным, могут немного вырасти в высоту, что, возможно, потребует дополнительного доступа к хранилищу для доступа к данным ( сублинейное время ). Другие эффекты могут заключаться в том, что кеширование становится менее эффективным, потому что может быть кэшировано пропорционально меньше данных, и хотя некоторые индексы, такие как B +, автоматически поддерживают рост, другие, такие как хэш-таблица, могут нуждаться в перестройке.

Если увеличение размера базы данных приводит к увеличению количества средств доступа к базе данных, может потребоваться больше серверных и сетевых ресурсов, и возрастет риск конкуренции . Некоторые решения для восстановления производительности включают секционирование , кластеризацию , возможно, с сегментированием или использование машины базы данных .

Разбиение

Секционирование может помочь в выполнении массовых операций над VLDB, включая резервное копирование и восстановление, массовых перемещений за счет управления жизненным циклом информации (ILM), уменьшая конкуренцию, а также позволяя оптимизировать обработку некоторых запросов.

Место хранения

Чтобы удовлетворить потребности VLDB, базы должно иметь низкую задержку доступа и конкуренцию , высокую пропускную способность и высокую доступность .

Увеличивающийся размер VLDB может оказать давление на серверные и сетевые ресурсы, и может появиться узкое место, для устранения которого могут потребоваться инвестиции в инфраструктуру.

Как работает технология Big-Data?

Пользователи социальной сети Facebook загружают фото, видео и выполняют действия каждый день на сотни терабайт. Сколько бы человек не участвовало в разработке, они не справятся с постоянным потоком информации. Чтобы дальше развивать сервис и делать сайты комфортнее — внедрять умные рекомендации контента, показывать актуальную для пользователя рекламу, сотни тысяч терабайт пропускают через алгоритм и получают структурированную и понятную информацию.

Сравнивая огромный объем информации, в нем находят взаимосвязи. Эти взаимосвязи с определенной вероятностью могут предсказать будущее. Находить и анализировать человеку помогает искусственный интеллект.

Нейросеть сканирует тысячи фотографий, видео, комментариев — те самые сотни терабайт больших данных и выдает результат: сколько довольных покупателей уходит из магазина, будет ли в ближайшие часы пробка на дороге, какие обсуждения популярны в социальной сети и многое другое.

Методы работы с большими данными:

  • Машинное обучение
  • Анализ настроений
  • Анализ социальной сети
  • Ассоциация правил обучения
  • Анализ дерева классификации
  • Генетические алгоритмы
  • Регрессионный анализ

Машинное обучение

Вы просматриваете ленту новостей, лайкаете посты в Instagram, а алгоритм изучает ваш контент и рекомендует похожий. Искусственный интеллект учится без явного программирования и сфокусирован на прогнозировании на основе известных свойств, извлеченных из наборов «обучающих данных».

Машинное обучение помогает:

  • Различать спам и не спам в электронной почте
  • Изучать пользовательские предпочтения и давать рекомендации
  • Определять лучший контент для привлечения потенциальных клиентов
  • Определять вероятность выигрыша дела и устанавливать юридические тарифы

Анализ настроений

Анализ настроений помогает:

  • Улучшать обслуживание в гостиничной сети, анализируя комментарии гостей
  • Настраивать стимулы и услуги для удовлетворения потребностей клиента
  • Определить по мнениям в социальной сети о чем думают клиенты.

Анализ социальных сетей

Анализ социальных сетей впервые использовали в телекоммуникационной отрасли. Метод  применяется социологами для анализа отношений между людьми во многих областях и коммерческой деятельности.

Этот анализ используют чтобы:

Увидеть, как люди из разных групп населения формируют связи с посторонними лицами  
Выяснить важность и влияние конкретного человека в группе
Найти минимальное количество прямых связей  для соединения двух людей
Понять социальную структуру клиентской базы

Изучение правил ассоциации

Люди, которые не покупают алкоголь, берут соки чаще, чем любители горячительных напитков?

Изучение правил ассоциации — метод обнаружения интересных взаимосвязей между переменными в больших базах данных. Впервые его использовали крупные сети супермаркетов для обнаружения интересных связей между продуктами, используя информацию из систем торговых точек супермаркетов (POS).

С помощью правил ассоциации:

  • Размещают продукты в большей близости друг к другу, чтобы увеличились продажи
  • Извлекают информацию о посетителях веб-сайтов из журналов веб-сервера
  • Анализируют биологические данные
  • Отслеживают системные журналы для обнаружения злоумышленников
  • Определяют чаще ли покупатели чая берут газированные напитки

Анализ дерева классификации

Статистическая классификация определяет категории, к которым относится новое наблюдение.

Статистическая классификация используется для:

  • Автоматического присвоения документов категориям
  • Классификации организмов по группам
  • Разработки профилей студентов, проходящих онлайн-курсы

Генетические алгоритмы

Генетические алгоритмы вдохновлены тем, как работает эволюция, то есть с помощью таких механизмов, как наследование, мутация и естественный отбор.

Генетические алгоритмы используют для:

  • Составления расписания врачей для отделений неотложной помощи в больницах 
  • Расчет оптимальных материалов для разработки экономичных автомобилей
  • Создания «искусственно творческого» контента, такого как игра слов и шутки

Регрессионный анализ

Как возраст человека влияет на тип автомобиля, который он покупает?

На базовом уровне регрессионный анализ включает в себя манипулирование некоторой независимой переменной (например, фоновой музыкой) чтобы увидеть, как она влияет на зависимую переменную (время, проведенное в магазине).

Регрессионный анализ используют для определения:

  • Уровней удовлетворенности клиентов
  • Как прогноз погоды за предыдущий день влияет на количество полученных звонков в службу поддержки
  • Как район и размер домов влияют на цену жилья

Как работает технология Big-Data?

Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.

Бил Гейтс висит над бумажным содержимым одного компакт диска

До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.

Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.

«Микрон»: оптимизация производства и повышение качества продукции

Российский производитель микроэлектроники повысил эффективность калибровочных запусков на своём заводе благодаря big data. Решение, которое разработали в МТС, позволило предприятию на треть снизить время, необходимое для настройки оборудования. Контроль за этим этапом работы очень важен — от него зависит частота сбоев и качество итоговой продукции. Технологический процесс на «Микроне» высокоавтоматизирован и включает сотни однотипных операций, которые генерируют большие массивы данных. Теперь при каждом сбое не приходится заново калибровать всю систему, так как на основе собранных ранее данных можно с высокой точностью определить, какой компонент сработал некорректно.

Внедрение технологичных решений на предприятиях и анализ большого массива данных помогает оптимизировать затраты, работать эффективнее и повышать конкурентоспособность. А вопрос хранения информации удобнее всего решать при помощи облачных технологий.

Перейти в облако