На данный момент, число устройств и гаджетов, подключенных к сети, стремительно растет. Все устройства, включая фитнес-трекеры, смартфоны и даже умные кофеварки, создают данные, нуждающиеся в сохранении. С ростом объема данных в мире, необходимость в увеличении вычислительной мощности и свободного пространства для хранения информации также возрастает.
Большие данные (англ. Big Data) — комплекс подходов, инструментов и методов обработки организованных и неорганизованных данных больших объемов и значительного разнообразия для получения воспринимаемых пользователем результатов, эффективных в условиях беспрерывного роста, распространения среди значительных узлов компьютерной сети, альтернативной традиционным системам управления базами данных.
Когда говорят о термине Big Data, то употребляют более популярное объяснение трех V, означающие Volume — объем данных, Velocity — необходимость обработки информации с высокой скоростью, а Variety — разнообразие и зачастую недостаточная структура данных. Например, время операции по проверке остатка на карте при снятии наличных вычисляется в мс. Третья сторона вопроса — это множество информации и ее неорганизованность. Все чаще мы имеем дело с медиа-контентом, записями в блогах, плохо структурированными документами и т.д.
Big Data хранится и организуется в распределенных файловых системах. Информация сохраняется на нескольких (иногда тысячах) жестких дисках, на стандартных ПК. Так называемая, ”карта» (тар) мониторит, где (на каком компьютере и / или диске) хранится определенный фрагмент информации. В целях обеспечения отказоустойчивости и надежности, каждый фрагмент информации хранится несколько раз, например три раза. Допустим, что вы объединяете отдельные операции в крупной розничной сети магазинов. Детальная информация о каждой будет содержаться на разных серверах и жестких дисках, а “карта” (тар) будет индексировать, где хранится информация о соответствующей транзакции. Используя типовое оборудование и ПО с открытым исходным кодом для контроля данной распределенной файловой системой (например, Hadoop), относительно просто создавать надежные хранилища данных размером с петабайт.
Методы и приемы анализа Big Data
Основные методы и приемы анализа, применимые сегодня к Big Data:
- методы класса Data Mining: обучение ассоциативным правилам (англ. association rule learning), классификация (методы классификации новых данных на базе принципов, ранее применявшихся к уже существующим данным), кластерный, регрессионный анализ;
- краудсорсинг-категоризация и обогащение данных силами широкого, неопределенного круга лиц, привлеченных на основе публичной оферты, без вступления в трудовые отношения;
- смешивание и объединение данных (англ. data fusion and integration) — совокупность приемов, позволяющих объединять разнообразные данные из многообразных источников для возможности углубленного анализа, цифровой обработки сигналов и естественной, в качестве примеров таких техник, образующих этот класс методов, приводятся цифровая обработка сигналов и естественного языка (включая тональный анализ);
- машинное обучение, в том числе, обучение с учителем и без него, а также обучение в ансамбле (англ. Ensemble learning)- эксплуатация моделей, построенных на базе статистического анализа или машинного обучения для получения сложных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
- искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
- идентификация образов;
- прогнозная аналитика;
- моделирование;
- пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных; как пример методов, можно привести статистический анализ, а / в тестирование и анализ временных рядов;
- визуализация аналитических данных-представление информации в виде чертежей, диаграмм, с применением интерактивных объектов и анимаций, как для получения результатов, так и для эксплуатации в качестве начальных данных для будущего анализа.
Следует отметить — количество создаваемых Интернетом вещей и подлежащих хранению данных может быть значительно сокращено за счет продуманного подхода к разработке алгоритмов обработки этих данных, в которых должны храниться только обработанные данные, имеющие реальную практическую ценность.