January 15, 2021

Что такое Big Data

Общепринятое и наиболее ёмкое определение Больших данных предложила исследовательская компания Gartner в 2001 году. Большие данные — это данные, которые содержат в себе большое разнообразие (Variety) информации, поступающей в постоянно увеличивающихся объемах (Volumes) и с постоянно увеличивающейся скоростью (Velocity). Разнообразие, объемы и скорость (Variety, Volumes, Velocity) — три кита, на которых основываются Большие данные. В последнее время к этим трем китам стали причислять еще два — ценность и достоверность (Value, Veracity). Поэтому, если вы где-то столкнетесь с аббревиатурой 5Vs, то знайте, что речь о Больших данных.

Можно считать, что первые Большие данные появились в 60-х и 70-х годах прошлого столетия, когда цифровую информацию стали хранить в первых дата-центрах. С распространением интернета и увеличением числа пользовательских устройств (компьютеры, планшеты, смартфоны), которые имеют к нему доступ, скорость, объем и разнообразие больших данных стали серьезно увеличиваться. История поиска пользователей, данные о посещении сайтов, карты кликов, геолокационные данные, лайки в социальных сетях, виртуальные контакты, голосовые и видеозвонки через мессенджеры, скачивания приложений, покупки в интернет-магазинах, просмотры видео и даже сами публикуемые тексты пользователями — все это ложится в основу огромного пласта информации о людях, их привычках, поведении, предпочтениях и других особенностях. Объемы этой информации исчисляются в сотнях петабайт (1 петабайт равен 1 миллиону гигабайт). Для удешевления хранения Больших данных и упрощения работы с ними были разработаны фреймворки с открытым исходным кодом, первым из которых стал Hadoop, а в настоящее время наиболее популярным является Spark.

Продолжая увеличиваться в объеме, Большие данные со временем стали генерировать не только люди, но и сами устройства. Этому способствовало развитие Интернета вещей (IoT). Помимо того, что устройства передавали информацию о моделях их использования пользователями, технологии машинного обучения тоже сформировали отдельные информационные потоки для Больших данных. И главной задачей на сегодня является организовать возможность все эти данные обрабатывать. Облачные решения сейчас позволяют разработчикам создавать отдельные кластеры, чтобы работать с отдельными типами данных для достижения поставленных целей, в том числе и бизнес-целей.

Всегда было известно, что знания — сила. Большие данные как раз и являются знаниями. Их используют для анализа, прогнозирования, создания сценариев и принятия взвешенных решений. Для самых разных компаний и предприятий Большие данные являются инструментом в работе. Например, Netflix использует Большие данные для того, чтобы прогнозировать потребительский спрос на новые проекты компании. Даже актеров для новых шоу Netflix выбирает на основе Больших данных. Проведя анализ аудитории британской версии сериала «Карточный домик» и выяснив, что его зрителям нравятся фильмы с участием Кевина Спейси, у компании не осталось сомнений, что главную роль в Карточном домике от Netflix должен сыграть именно он. И результат говорит сам за себя, потому что этот многосерийный фильм стал одним из самых популярных на платформе.

С появлением Больших данных веб-сервисы и приложения тоже серьезно улучшили подход к своим продуктам. Анализ того, как, когда и где пользователи обращаются к сервисам дает четкое понимание того, что нужно изменить, чтобы улучшить пользовательский опыт. Для создания роботов, которые способны принимать собственные решения, большие данные используются для машинного обучения. То есть роботы уже не программируются, а обучаются. В сфере финансов Большие данные помогают выявлять закономерности в действиях мошенников и предотвращать мошеннические операции. Данные о геолокационных передвижениях, интересах и потребностях людей могут стать инструментом для принятия решений об открытии новых компаний или даже муниципальных и образовательных учреждений. В маркетинге Большие данные позволяют создавать таргетированные и персонализированные предложения для аудитории бизнеса и точно попадать в потребности и интересы аудитории.

И несмотря на кажущуюся простоту обработки Больших данных, возникает сложность в определении того, какие данные имеют ценность, и какие из них достоверны. С развитием технологий отвечать на эти вопросы станет легче, но уже текущее развитие Больших данных позволяет бизнесу стремительно развиваться и значительно улучшать свои финансовые показатели без ущерба личной информации пользователей, потому что Большие данные — обезличенная информация.