Logo ru.artbmxmagazine.com

Большое количество данных. анализ данных и архитектура

Оглавление:

Anonim

Большие данные - это термин, который описывает большой объем данных, как структурированных, так и неструктурированных, которые ежедневно наводняют предприятия. Но важен не объем данных. Что касается больших данных, важно то, что организации делают с данными. Большие данные могут быть проанализированы, чтобы получить идеи, которые приведут к лучшим решениям и стратегическим деловым движениям. (PowerData, 2015).

биг-управление данными, информация Итай

Большие данные описывают целостную стратегию управления информацией, которая включает и интегрирует множество новых типов данных и управление данными наряду с традиционными данными (ORACLE, 2014).

В рамках гораздо более широкого определения необходимо учитывать 4 V, чтобы лучше понять суть концепции:

объем

Это относится к объему данных, следует отметить, что больший объем не является синонимом большего объема данных, поэтому в больших данных необходимо, чтобы обработка больших объемов информации была низкой плотности. ORACLE сообщает данные HadoopОни должны быть неструктурированными (с неизвестными значениями), например, клики на веб-страницах, сообщения в социальных сетях и даже мобильные приложения, существующий трафик в сети и другие. Задача Big Data - преобразовать эти данные в полезную информацию. Ссылаясь на размер хранилища может варьироваться от десятков терабайт сотни петабайтв зависимости от каждой организации.

Hadoop

Система Hadoop имеет функцию облегчения работы разработчиков из-за сложности параллельного программирования, обеспечивая экосистему, которая помогает пользователю, распространяя файл в узлах, позволяющий выполнять несколько процессов параллельно. Система Hadoop имеет модули управления для мониторинга данных, позволяет интегрировать дополнения, которые служат для облегчения работы, манипулирования, мониторинга и консультации по хранимой информации.

Стоимость

Нередко говорят, что в настоящее время данные или информация имеют ценность, однако их наличие не создает никакой утилиты, но должно быть обнаружено какое-то приложение для них. Существует множество количественных и исследовательских методов, которые позволяют извлекать ценность из этих данных. Ярким примером этого является анализ предпочтений клиентов, проведенный многими компаниями, который позволяет сделать соответствующее предложение, которое включает данные, такие как местоположение.

Возможность хранить и обрабатывать всю информацию имеет свою стоимость, однако из-за растущего спроса на онлайн-анализ поведения цены с точки зрения вычислений и хранения данных снизились, так что статистический анализ большого объема объем информации без необходимости сегментировать ее или использовать только образец.

Возможность обрабатывать всю информацию вместе предполагает инновации для принятия решений, позволяя им быть более точными. Процесс поиска ценной информации требует участия аналитиков или специалистов в этой области, пользователей и руководителей. Таким образом, большие данные должны научиться предсказывать поведение человека, распознавать закономерности, чтобы предложить прогноз поведения.

разнообразие

Этот аспект относится к неструктурированным данным и к тем, которые могут быть классифицированы как полуструктурированные, среди которых тексты, аудио и видео. Все эти данные требуют дополнительной обработки, чтобы придать смысл, а также использовать метаданные.служба поддержки. Другими словами, этот аспект пытается количественно оценить сложность информации и уменьшить ее.

Когда они понятны, неструктурированные данные могут быть обработаны как структурированные данные, то есть они могут быть обобщены, выровнены и нанесены на график для аудитов. Тем не менее, существует большая сложность, когда данные, полученные из известного источника, изменяются без предварительного уведомления, что создает нагрузку для анализа.

скорость

Это скорость, с которой данные принимаются и с которой применяются некоторые действия, такие как анализ или обработка. Чтобы получить более высокую скорость, требуется большой объем памяти, причем не только в байтах, но и в мощности чтения, поэтому важное значение имеют такие технологии, как облачное хранилище и скорость интернета.

Например, некоторые приложения Интернета вещей (Интернет вещей), они имеют агрегаты состояния и безопасности, для них требуются действия в реальном времени, а также оценки.

Другим примером являются умные продукты, которые готовы к использованию Интернета, они работают в режиме реального времени, предоставляя соответствующую информацию, такую ​​как статистика использования, безопасность, местоположение, среди прочего. Вот как приложения электронной коммерции пытаются использовать эти переменные, смешивая местоположение смартфона с личными предпочтениями, чтобы делать предложения с помощью рекламы. С оперативной точки зрения приложения, разработанные для мобильных телефонов, имеют огромную пользовательскую базу и более широкий сетевой трафик, поэтому опыт и ожидания ответа должны быть незамедлительными.

Описание

Когда все эти принципы ясны, следует указать, что Большие данные - это набор данных, которые, в свою очередь, представляют собой комбинации этих наборов данных, объем, ценность, разнообразие и скорость которых затрудняют сбор, запись, управление и обработку. и анализ с использованием обычных технологий и инструментов, таких как базы данных отношений, статистика и пакеты визуализации, в течение времени, необходимого для их использования.

Не определено, какой размер должен быть определенным набором данных, чтобы считаться большими данными, так как он продолжает меняться с течением времени, в настоящее время большинство аналитиков и специалистов в этой области говорят, что это наборы данных, которые начинаются от 30 терабайт. Поэтому он чрезвычайно сложен по своей природе из-за неструктурированного характера большей части данных, генерируемых используемыми в настоящее время технологиями, такими как поиск информации в Интернете, социальные сети и взаимодействия, которые в них происходят (Facebook, Twitter, Google и другие), записи страниц, датчики устройств (измерения, местоположение GPS), ноутбуки, смартфоны и записи в колл-центре, включая машины и транспортные средства.

Чтобы иметь возможность эффективно использовать большие данные, они должны сочетаться со структурированными данными (реляционной базой данных) обычного коммерческого приложения, такого как ERP или CRM.

значение

Тот факт, что Big Data предоставляет ответы на многие вопросы, на которые компании иногда не знали, что им следует отвечать, делает этот инструмент чрезвычайно полезным на бизнес-уровне, поскольку он дает ориентир. Объем необходимой информации позволяет формировать данные любым способом, который требуется компаниям. Тем самым они могут выявлять проблемы более понятным способом.

Возможность собирать большие объемы данных и позволять обнаруживать в них конкретные тенденции, позволяет компаниям принимать гибкие, эффективные и плавные решения. Крайне важно подчеркнуть, что это позволяет устранять проблемные области задолго до того, как проблемы влияют на репутацию компании или наносят ущерб ее преимуществам.

Большие данные помогают организациям использовать свою информацию в процессе анализа, используя ее для определения возможностей для роста или улучшения. Это обеспечивает разумное движение бизнеса, более эффективные операции, более высокую прибыль и удовлетворенность клиентов. С помощью этого инструмента следует учитывать преимущества, такие как:

Снижение затрат Ускоренное принятие решений Генерировать продукты и

Сервисы

Снижение затрат

Наиболее мощные и потенциальные технологии передачи данных, такие как система Hadoop и облачная аналитика, должны быть задействованы. Это создает экономическое преимущество, поскольку, когда речь идет о хранении больших объемов данных, имеется большой объем предложения, который демонстрирует экспоненциальный рост в последующие годы, что также позволяет определить более эффективные способы маркетинга.

Ускоренное принятие решений

Ссылаясь на систему Hadoop, ее скорость и аналитика информации в сочетании с возможностью анализа новых источников данных служат компаниям для немедленного доступа к информации (либо в виде сводных данных, либо в качестве конкретных данных, которые требуются).) и таким образом принимать решения на основе того, чему они научились (искусственный интеллект).

Генерация новых продуктов / услуг

Большие данные предоставляют возможность анализировать и измерять потребности клиентов, поэтому их удовлетворенность дается путем анализа их информации, с помощью которой можно точно знать, что они хотят или нуждаются. С помощью аналитики компании создают новые продукты и услуги для удовлетворения потребностей своих клиентов. Они могут даже создавать новые потребности, которые они не знали, что у них были.

заявка

Как можно было заметить ранее, охват «больших данных» невообразим, на самом деле ограничения устанавливаются одними и теми же компаниями, поскольку они сами должны делать с информацией. Ниже приведены способы использования этого инструмента в различных секторах:

Здоровье

Большие данные содержат большое количество информации в сфере здравоохранения. В первую очередь часть истории болезни пациентов, общих и специализированных планов медицинского страхования, информация о страховке и объеме, а также трудно управляемая информация. Все эти данные предоставляют информацию, которая является ключевой при применении анализа. Вот почему технология анализа данных жизненно важна для здравоохранения. Анализируя эти большие объемы информации, диагнозы пациентов и варианты лечения могут быть предоставлены практически сразу, создавая тем самым возможность атаковать заболевания до того, как они станут непоправимыми.

администрация

Одной из основных проблем, с которыми сталкивается руководство, является обеспечение качества и повышение производительности операций, как правило, с ограниченным бюджетом. Большие данные позволяют оптимизировать операции с помощью технологий, предоставляя руководству гораздо более широкое представление о деятельности.

реклама

Растущее использование смартфонов, а также устройств с интеграцией GPS позволяет рекламодателям ориентироваться на потребителей, когда они находятся рядом с конкретным магазином, таким как ресторан, книжный магазин или кафе. Это создает возможности для поставщиков услуг, таких как получение большего дохода, получение новых перспектив, позиционирование и достижение успеха.

Продажи

Обслуживание клиентов стало чрезвычайно важным для всех предприятий, и клиенты стали требовательны к мельчайшим деталям, поэтому продажи развивались так, как умные покупатели ожидают розничных продавцов. понять, что именно им нужно и когда им это нужно.

Большие данные могут позволить ритейлерам удовлетворить эти требования. Располагая бесконечным количеством данных из программ лояльности клиентов, покупательских привычек и других источников, ритейлеры не только глубоко понимают своих клиентов, но и могут прогнозировать тенденции, рекомендовать новые продукты и повышать прибыльность.

туризм

Он должен позволять получать удовлетворение клиента, поскольку это является ключевым фактором для туристической индустрии, но эту характеристику трудно измерить, особенно в нужное время. Например, курорты и казино имеют лишь небольшой шанс обойти плохое качество обслуживания клиентов. Аналитика больших данных дает этим компаниям возможность собирать данные о клиентах, применять аналитику и немедленно выявлять потенциальные проблемы, пока не стало слишком поздно.

Проблемы больших данных

Особые характеристики больших данных делают качество данных перед лицом многих проблем:

объем Стоимость разнообразие скорость правдивость

Разнообразие в источниках данных и типах

С таким большим количеством источников, типов данных и сложных структур сложность интеграции данных возрастает.

Источники больших данных огромны:

  • Интернет и мобильные данные Данные об Интернете Данные сектора, собранные специализированными компаниями  Экспериментальные данные.

И типы данных также:

  1. Неструктурированные типы данных: документы, видео, аудио и т. Д. Полуструктурированные типы данных: программное обеспечение, электронные таблицы, отчеты, структурированные типы данных.

Только 20% информации структурировано, и это может вызвать много ошибок, если мы не предпримем проект по обеспечению качества данных.

Объем данных

Как мы уже видели, объем данных огромен, что усложняет выполнение процесса обеспечения качества данных в разумные сроки.

Трудно быстро собирать, очищать, интегрировать и получать высококачественные данные. Преобразование неструктурированных типов в структурированные типы и обработка этих данных занимает много времени.

летучесть

Данные быстро меняются, и это делает их очень короткими. Для ее решения нам нужна очень высокая вычислительная мощность.

Если мы не сделаем это хорошо, обработка и анализ на основе этих данных могут привести к ошибочным выводам, которые могут привести к ошибкам в принятии решений.

Нет единых стандартов качества данных

В 1987 году Международная организация по стандартизации (ISO) опубликовала стандарты ISO 9000, чтобы гарантировать качество продуктов и услуг. Однако изучение стандартов качества данных не началось до 1990-х годов, и только в 2011 году ИСО опубликовала стандарты качества данных ИСО 8000.

Эти стандарты нужно доработать и уточнить. Кроме того, исследование данных о качестве больших данных началось совсем недавно, и результатов практически нет.

Качество больших данных имеет ключевое значение не только для получения конкурентных преимуществ, но и для того, чтобы мы не допускали серьезных стратегических и операционных ошибок на основе ошибочных данных с последствиями, которые могут быть очень серьезными.

План управления данными

Под управлением подразумевается обеспечение того, чтобы данные были авторизованы, организованы и имели необходимые разрешения пользователя в базе данных, с наименьшим количеством возможных ошибок при сохранении конфиденциальности и безопасности. Достигнуть легкого баланса между этими характеристиками сложно, особенно когда реальность того, где и как размещаются и обрабатываются данные, находится в постоянном движении.

Детальный доступ к данным

Вы не можете иметь эффективное управление данными без детального контроля.

Эти детальные элементы управления могут быть достигнуты с помощью выражений контроля доступа. В этих выражениях используется группировка и логическая логика для управления гибким доступом к данным и авторизацией с разрешениями на основе ролей и настройками видимости.

На самом низком уровне конфиденциальные данные защищены путем их сокрытия, а на верхнем уровне существуют конфиденциальные контракты для исследователей данных и аналитиков BI. Это можно сделать с помощью возможностей маскирования данных и различных представлений, в которых необработанные данные максимально блокируются, и постепенно предоставляется больший доступ, пока на самом верху администраторы не получают большей видимости.

Вы можете иметь разные уровни доступа, что обеспечивает более комплексную безопасность.

Защита данных

Управление не происходит без обеспечения безопасности в конечной точке цепочки. Важно построить хороший периметр и установить межсетевой экран вокруг данных, интегрированный с существующими системами аутентификации и стандартами. Когда дело доходит до аутентификации, для компаний важно синхронизироваться с проверенными системами.

С аутентификацией, это все о том, как интегрироваться с LDAP, Active Directory и другими службами каталогов. Такие инструменты, как Kerberos, также могут поддерживаться для поддержки аутентификации. Но важно не создавать отдельную инфраструктуру, а интегрировать ее в существующую структуру.

шифрование

Следующим шагом после защиты периметра и проверки подлинности всего предоставляемого доступа к детализированным данным является проверка того, что файлы и личная информация (PII) шифруются и токенизируются от конца к концу конвейера данных.

После того, как периметр превышен и доступ к системе, защита данных PII становится чрезвычайно важной. Эти данные должны быть зашифрованы, чтобы независимо от того, кто имеет к ним доступ, они могли запускать сканирование, которое им необходимо, без раскрытия каких-либо этих данных.

Аудит и анализ

Стратегия не работает без аудита. Такой уровень наглядности и подотчетности на каждом этапе процесса позволяет ИТ-специалистам «управлять» данными, а не просто устанавливать политики и средства управления доступом и надеяться на лучшее. Кроме того, компании могут поддерживать свои стратегии в актуальном состоянии в среде, в которой способы просмотра данных и технологии, которые мы используем для управления ими и их анализа, меняются каждый день.

Мы находимся в зачаточном состоянии больших данных и Интернета вещей (Internet of Things), и очень важно иметь возможность отслеживать доступ и распознавать шаблоны в данных.

Аудит и анализ могут быть такими же простыми, как отслеживание файлов JavaScript Object Notation (JSON).

Унифицированная архитектура данных

В конечном счете, ИТ-менеджер, курирующий стратегию управления бизнес-данными, должен подумать о деталях детального доступа, аутентификации, безопасности, шифрования и аудита. Но это не должно останавливаться на достигнутом. Скорее, вам нужно подумать о том, как каждый из этих компонентов интегрируется в вашу глобальную архитектуру данных. Вам также необходимо подумать о том, как эта инфраструктура должна быть масштабируемой и безопасной, от сбора и хранения данных до BI, аналитики и других сторонних сервисов. Управление данными - это как переосмысление стратегии и исполнения, так и сама технология.

Это выходит за рамки набора правил безопасности. Это уникальная архитектура, в которой эти роли создаются и синхронизируются по всей платформе и всем инструментам, которые к ней привносятся.

Тезисное предложение

Предложение 1

Использование больших данных для анализа информации общества Веракрус и для предотвращения преступлений, путем мониторинга деятельности в сетях, которая облегчает маршрутизацию и исправление отдельных лиц.

Предложение 2

Генерация предложений по улучшению социальной структуры, масштабирование от отстающих, чтобы добиться более быстрой интеграции.

Справочные источники

Специалисты по управлению данными. (Октябрь 2012 г.) Большие данные: что это?

Его важность, проблемы и управление. Март 2018 г., с сайта PowerData:

ORACLE. (Август 2014 г.) Бизнес большие данные. Март 2018 года, веб-сайт ORACLE для Латинской Америки:

Куэр А. (5 сентября 2013 г.). Как связаны большие данные и Hadoop? Март 2018 г., с сайта PowerData:

______________________

Система с открытым исходным кодом, которая используется для хранения, обработки и анализа больших объемов данных.

Терабайт (ТБ), эквивалентный 10 12 байтов, то есть 1 000 000 000 000 (один миллиард) байтов.

Петабайт (PB) равен 10 15 байтов, то есть 1 000 000 000 000 000 байтов.

Логический набор информации или данных, который обозначен именем и настроен как полный автономный блок для системы или пользователя.

Точка пересечения или объединения нескольких элементов, которые объединяются в одном месте.

Расширение или дополнение может относиться к устанавливаемому обновлению для ИТ-проектов.

Группа данных, которая описывает информативное содержание объекта, называемого ресурсом.

Интернет вещей питает объекты, которые когда-то были подключены через замкнутую цепь, такие как коммуникаторы, камеры, датчики и т. Д., И позволяет им осуществлять глобальную связь посредством использования сети сетей.

Скачать оригинальный файл

Большое количество данных. анализ данных и архитектура