Анализ данных, текста и мнений

Развитие технологий сделало возможным в определенной степени облегчить работу людей в разных сферах. Например, когда люди выращивали свою продукцию, все было вручную, от подготовки земли до посадки, полива, компостирования и сбора урожая. Сегодня вся эта работа выполняется машинами, которые отвечают за замену и помощь людям, а также за более быструю работу.

В медицинском секторе роботы добились больших успехов, даже работая в местах, недоступных для людей. То же самое происходит на крупных заводах, где технологии в какой-то степени заменяют рабочую силу, обеспечивая непрерывное производство без усталости и сверхурочной работы.

В области администрирования технологии, похоже, помогают в принятии решений, с помощью анализа информации можно делать прогнозы, как будет показано в этой статье.

Стремительный рост баз данных, Интернета и использование методов и инструментов, которые автоматически и эффективно генерируют информацию из хранимых данных, позволяют нам обнаруживать закономерности, взаимосвязи и формулировать модели. В частности, эти методы стали чрезвычайно важными в таких областях, как маркетинговые стратегии, поддержка принятия решений, финансовое планирование, анализ научных данных, биоинформатика, анализ текста и анализ веб-данных.

Технологии здесь, чтобы оставаться день за днем, пытаясь дополнить и облегчить работу людей.

Data Mining - интеллектуальный анализ данных

Определение

Интеллектуальный анализ данных - это набор методов и технологий, которые позволяют исследовать большие базы данных, автоматически или полуавтоматически, с целью поиска повторяющихся шаблонов, тенденций или правил, объясняющих поведение данных в заданном контексте.

По сути, сбор данных возникает, чтобы попытаться понять содержимое хранилища данных. С этой целью он использует статистические методы и, в некоторых случаях, алгоритмы поиска, близкие к искусственному интеллекту и нейронным сетям.

В общем, данные - это валовое сырье. В тот момент, когда пользователь придает им особое значение, они становятся информацией. Когда специалисты разрабатывают или находят модель, при которой интерпретация, возникающая между информацией и этой моделью, представляет собой добавленную стоимость, тогда мы имеем в виду знания.

Датамайнинг представлен как новая технология, обладающая рядом преимуществ: с одной стороны, это хорошее место встречи между исследователями и бизнесменами; с другой - это экономит компании большие суммы денег и открывает новые возможности для бизнеса. Более того, нет никаких сомнений в том, что работа с этой технологией включает в себя заботу о бесчисленных деталях, потому что конечный продукт включает «принятие решений».

преимущество

Это хорошее место встречи исследователей и деловых людей.

Этот момент относится к появлению новых технологий, которые часто приобретаются крупными компаниями, финансирующими эти проекты.

Это экономит компании большие суммы денег и открывает новые возможности для бизнеса.

Практически это подтверждает предыдущий пункт, поскольку, когда проект хорош, он финансируется компанией, которая получает больше денег, чем инвестировала, и благодаря этой технологии компания может открыть другие возможности на рынке.

Работа с этой технологией подразумевает заботу о ряде деталей, потому что конечный продукт предполагает «принятие решений».

У вас есть технология, и она появилась на рынке, она также создает продукт, который вы предлагаете, но вы должны видеть, насколько эффективным было внедрение, растет или уменьшается компания?, Это то, к чему относится этот пункт.

Он способствует принятию тактических и стратегических решений, обеспечивая автоматическое определение ключевой информации из объемов данных, генерируемых традиционными процессами и процессами электронного бизнеса.Он позволяет пользователям определять приоритеты решений и действий, показывая факторы, которые имеют более высокую оценку. цель, он также показывает, какие потребительские сегменты являются одноразовыми, а какие бизнес-единицы обходятся и почему?

Это относится к тому факту, что благодаря майнингу данных вам нужно беспокоиться только о принятии решений, поскольку благодаря этой технологии она демонстрирует различные преимущества и недостатки, некоторые из которых указаны в этом месте.

Он предоставляет бизнес-пользователям полномочия по принятию решений, которые лучше понимают проблему и окружающую среду и могут наилучшим образом измерять действия и результаты.

Благодаря анализу данных проблемы могут быть разделены на разные сектора, и это будет означать, что в разных секторах должны быть разные специализированные рабочие группы в области этой проблемы, чтобы оптимизировать время и ресурсы.

Создает описательные модели: в контексте определенных бизнес-целей он позволяет компаниям, независимо от отрасли или размера, автоматически исследовать, визуализировать и понимать данные, а также определять закономерности, взаимосвязи и зависимости, которые влияют на конечные результаты отчет о прибылях и убытках (например, рост доходов, увеличение прибыли, сдерживание затрат и управление рисками) Создает прогнозные модели: позволяет выражать отношения, не обнаруженные и идентифицированные в процессе сбора данных, в виде бизнес-правил или прогнозные модели. Эти результаты могут быть представлены в традиционных форматах (презентации, отчеты, общая электронная информация, встроена в приложения и т. Д.) Для руководства стратегией и планированием компании.

методы

Методы интеллектуального анализа данных исходят из искусственного интеллекта и статистики, эти методы представляют собой не что иное, как алгоритмы, более или менее сложные, которые применяются к набору данных для получения результатов.

Среди наиболее часто используемых:

1. Нейронные сети

Этот метод искусственного интеллекта в последние годы стал одним из часто используемых инструментов для обнаружения общих категорий в данных, поскольку они способны обнаруживать и изучать сложные шаблоны и характеристики данных.

Одной из основных характеристик нейронных сетей является то, что они способны работать с неполными и даже парадоксальными данными, что в зависимости от проблемы может быть преимуществом или недостатком. Кроме того, у этого метода есть две формы обучения: контролируемое и неконтролируемое.

2. Деревья решений

Этот метод находится в рамках контролируемой методики обучения. Его представление имеет вид дерева, где каждый узел является решением, которое, в свою очередь, генерирует правила для классификации набора данных.

Деревья решений просты в использовании, поддерживают дискретные и непрерывные атрибуты, хорошо обрабатывают незначительные атрибуты и пропущенные значения. Его главное преимущество - простота интерпретации.

3. Общие алгоритмы

Генетические алгоритмы имитируют эволюцию видов посредством мутации, воспроизводства и отбора, а также предоставляют программы и оптимизацию, которые можно использовать при построении и обучении других структур, таких как нейронные сети. Кроме того, генетические алгоритмы основаны на принципе выживания наиболее приспособленных.

4. Кластеризация

Они группируют данные в пределах ряда предустановленных или нет классов на основе критериев расстояния или сходства, так что классы похожи друг на друга и отличаются от других классов. Его использование дало значительные результаты в отношении классификаторов или распознавателей образов, например, в системном моделировании. Этот метод из-за его гибкости может быть легко объединен с другим типом техники интеллектуального анализа данных, в результате чего получается гибридная система.

5. Машинное обучение

Этот метод искусственного интеллекта используется для вывода знаний о результате применения любого из других методов, упомянутых выше.

Модели интеллектуального анализа данных

Модель интеллектуального анализа данных создается путем применения алгоритма к данным, но это больше, чем просто алгоритм или контейнер метаданных: это набор данных, статистики и шаблонов, которые можно применять к новым данным для генерации предсказания и вывести отношения.

Приложения моделей интеллектуального анализа данных

Модели интеллектуального анализа данных можно применять в следующих сценариях:

Прогноз: расчет продаж и прогнозирование загрузки сервера или простоя сервера Риск и вероятность: выбор лучших клиентов для переписки, определение вероятной точки безубыточности для сценариев риска, присвоение вероятностей диагностике и др. результаты назначения Рекомендации: определение продуктов, которые можно продавать вместе, и выработка рекомендаций Поиск последовательности: анализ товаров, которые покупатели поместили в корзину, и прогноз возможных событий Группировка: распределение покупателей или событий в группах связанных элементов, а также анализ и прогноз сходства.

Создание моделей интеллектуального анализа данных

Создание модели интеллектуального анализа данных является частью более крупного процесса, который варьируется от вопросов о данных и создания модели для ответов на них до реализации модели в рабочей среде.

Этот процесс можно определить с помощью следующих шести основных шагов:

1. Определите проблему

Первым шагом в процессе интеллектуального анализа данных является четкое определение проблемы и рассмотрение способов использования данных для решения проблемы.

Этот шаг включает в себя анализ бизнес-требований, определение масштабов проблемы, определение метрик, по которым будет оцениваться модель, и определение конкретных целей проекта интеллектуального анализа данных. Эти задачи переводятся в следующие вопросы:

Что вы ищете? Какие типы отношений вы пытаетесь найти? Отражает ли это проблему, которую пытаются решить ваши бизнес-политики или процессы? Хотите ли вы делать прогнозы на основе модели интеллектуального анализа данных или просто искать интересные закономерности и ассоциации? Какой результат или атрибут вы хотите Прогнозируйте, какие данные у вас есть и какая информация содержится в каждом столбце? Если есть несколько таблиц, как они связаны? Вам нужно очистить, добавить или обработать данные, прежде чем вы сможете их использовать? Как они распределяются? Данные сезонные? Точно ли данные представляют бизнес-процессы?

Чтобы ответить на эти вопросы, возможно, потребуется провести исследование доступности данных, чтобы изучить потребности бизнес-пользователей в доступных данных. Если данные не соответствуют потребностям пользователей, возможно, придется переопределить проект.

2. Подготовьте данные

Второй шаг в процессе интеллектуального анализа данных - консолидация и очистка данных, определенных на предыдущем шаге.

Данные могут быть рассредоточены по компании и сохранены в разных форматах; они также могут содержать несоответствия, такие как отсутствующие или неправильные записи. Например, данные могут показать, что покупатель приобрел товар еще до того, как он был предложен на рынке, или что покупатель регулярно совершает покупки в магазине за 2 000 километров от дома.

Очистка данных включает не только удаление недопустимых данных или интерполяцию отсутствующих значений, но также поиск скрытых корреляций в данных, определение наиболее точных источников данных и определение столбцов, которые лучше всего подходят для анализа. Например, следует ли использовать дату отгрузки или дату заказа? Что больше всего влияет на продажи: количество, общая цена или цена со скидкой? Неполные данные, неверные данные и входные данные, которые кажутся независимыми, но на самом деле тесно взаимосвязаны, могут влиять на результаты модели неожиданным образом.

Следовательно, прежде чем вы начнете строить свои модели интеллектуального анализа данных, вы должны выявить эти проблемы и определить, как они будут исправлены. При интеллектуальном анализе данных вы обычно работаете с большим набором данных и не можете проверить качество данных для каждой транзакции; Следовательно, вам может потребоваться использовать инструменты профилирования данных и автоматической очистки и фильтрации данных для изучения данных и поиска несоответствий.

3. Изучите данные

Третий шаг в процессе интеллектуального анализа данных - изучить подготовленные данные. Вам необходимо знать данные, чтобы принимать правильные решения при построении моделей интеллектуального анализа данных. Методы исследования включают вычисление минимальных и максимальных значений, вычисление среднего и стандартного отклонения, а также изучение распределения данных.

Например, анализ максимальных, минимальных и средних значений может определить, что данные не являются репрезентативными для клиентов или бизнес-процессов, и поэтому вам следует получить более сбалансированные данные или пересмотреть предположения, лежащие в основе ваших ожиданий. Стандартные отклонения и другие значения распределения могут предоставить полезную информацию о стабильности и точности результатов. Большое стандартное отклонение может указывать на то, что добавление дополнительных данных может помочь вам улучшить вашу модель. Данные, которые сильно отклоняются от стандартного распределения, могут быть искажены или могут представлять точную картину реальной проблемы, но затруднять подгонку модели к данным.

Изучая данные, чтобы понять бизнес-проблему, вы можете решить, содержит ли набор данных ошибочные данные, а затем разработать стратегию исправления проблем или получить более глубокое описание поведения, типичного для бизнеса.

4. Создание моделей

Четвертым шагом в процессе интеллектуального анализа данных является построение модели или моделей интеллектуального анализа данных.

Вы должны определить, какие столбцы данных вы хотите использовать; Для этого будет создана структура интеллектуального анализа данных. Структура интеллектуального анализа данных связана с источником данных, но фактически не содержит данных, пока не будет обработана. Обработка структуры интеллектуального анализа данных генерирует агрегаты и другую статистическую информацию, которая может использоваться для анализа.

Перед обработкой структуры и модели модель интеллектуального анализа данных представляет собой просто контейнер, в котором указываются столбцы, которые будут использоваться для ввода, атрибут, который он прогнозирует, и параметры, которые сообщают алгоритму, как обрабатывать данные. Обработку модели часто называют обучением. Обучение относится к процессу применения определенного математического алгоритма к данным в структуре для извлечения шаблонов. Шаблоны, которые вы найдете в процессе обучения, будут зависеть от выбора обучающих данных, выбранного вами алгоритма и того, как алгоритм был настроен.

Параметры также можно использовать для точной настройки каждого алгоритма, а фильтры можно применять к обучающим данным, чтобы использовать подмножество данных, создавая разные результаты. После передачи данных через модель объект модели интеллектуального анализа данных содержит сводки и модели, которые можно запрашивать или использовать для прогнозирования.

Важно помнить, что при изменении данных вы должны обновлять структуру и модель интеллектуального анализа данных.

5. Изучите и подтвердите модели

Пятым шагом в процессе интеллектуального анализа данных является изучение созданных вами моделей интеллектуального анализа данных и проверка их эффективности.

Перед развертыванием модели в производственной среде рекомендуется проверить, правильно ли она работает. Кроме того, при построении одной модели вы обычно создаете несколько моделей с разными конфигурациями и тестируете их все, чтобы увидеть, какая из них дает наилучшие результаты для вашей проблемы и ваших данных.

6. Внедрите и обновите модели.

Последний шаг в процессе интеллектуального анализа данных - реализация моделей, которые лучше всего работают в производственной среде.

После того, как модели интеллектуального анализа данных окажутся в производственной среде, можно будет выполнять различные задачи в зависимости от потребностей. Вот некоторые из задач, которые вы можете выполнять:

Используйте модели для создания прогнозов, которые затем можно использовать для принятия бизнес-решений. Создавайте запросы содержимого для получения статистики, правил или формул из модели. Создайте отчет, который позволяет пользователям выполнять запросы непосредственно к существующей модели интеллектуального анализа данных. Обновление моделей после обзора и анализа. Динамическое обновление моделей, когда в организацию поступает больше данных, и внесение постоянных изменений для повышения эффективности решения должны быть частью стратегии внедрения.

Анализ текста - интеллектуальный анализ текста

Это одна из областей компьютерной лингвистики, которая пытается получить информацию и знания из наборов данных, которые в принципе не имеют порядка или изначально не приспособлены для передачи этой информации. Это ключевой метод в мире, подобном нынешнему. тот, который непрерывно собирает данные с разных точек зрения и по самым разным аспектам всей деятельности людей.

Text Mining не следует путать с поиском информации, который представляет собой автоматический поиск соответствующих документов посредством текстового индексирования, классификации, категоризации и т. Д. Информация, которая действительно может заинтересовать интеллектуальный анализ текста, - это информация, содержащаяся в этих документах, но в общем виде, то есть она не содержится в конкретном тексте, а является глобальной информацией, которая есть во всех записях, текстах, документах… общая коллекция. Это анализ данных, общих для всех текстов в коллекции, который предлагается косвенно, то есть это информация, которую коллекция предоставит специалистам, но которая не была специально включена в эту коллекцию во время ее создания для их последующее распространение среди пользователей.

Text Mining включает три основных вида деятельности:

Поиск информации, то есть выбор соответствующих текстов. Извлечение информации, включенной в эти тексты: факты, события, ключевые данные, отношения между ними и т. Д. Наконец, то, что ранее определялось как интеллектуальный анализ данных, будет выполняться для поиска ассоциаций среди тех ключевых данных, ранее извлеченных из текстов

Приложения

Это очень полезно для всех компаний, администраций и организаций в целом, которые в силу особенностей своей работы, состава и деятельности создают большое количество документов и заинтересованы в получении информации из всего этого объема данных. Это может помочь вам лучше узнать своих клиентов, их привычки, предпочтения и т. Д.

Этапы

Это относительно новый, меняющийся метод, который можно адаптировать к различным ситуациям и случаям, поэтому не существует строгого метода, которому можно было бы всегда следовать. Однако в общих чертах можно сказать, что это четыре основных этапа:

1. Определение целей

Уточните, что вы ищете, с помощью этого исследования, определив степень, в которой вы хотите вникнуть, и четко определив пределы.

2. Предварительная обработка данных

Это выбор, анализ и сокращение текстов или документов, из которых будет извлечена информация. Этот этап наиболее трудоемкий.

3. Определение модели.

В зависимости от поставленных целей и задачи, которую предстоит выполнить, могут использоваться одни или другие методы.

4. Анализ результатов.

На основе извлеченных данных он попытается увидеть их согласованность и будет искать доказательства, сходства, исключения и т. Д., Которые могут помочь специалисту или пользователю, заказавшему исследование, сделать выводы, которые можно использовать для улучшения некоторых аспектов вашей компании., компания, администрация или организация в целом.

Анализ мнений или настроений

Opinion Mining относится к серии приложений методов обработки естественного языка, компьютерной лингвистики и интеллектуального анализа текста, которые нацелены на извлечение субъективной информации из пользовательского контента, такого как комментарии в блогах., или обзоры продуктов. С помощью этого типа технологии из текстового комментария может быть извлечено реальное и прямое значение, такое как «положительный» / «отрицательный».

В общем, есть два типа задач, связанных с Opinion Mining:

Определение полярности: Или, что то же самое, возможность определить, является ли мнение положительным или отрицательным. Помимо базовой полярности, вы также можете захотеть получить числовое значение в пределах определенного диапазона, который определенным образом пытается получить объективный «рейтинг», связанный с определенным мнением. Анализ настроений на основе характеристик: или что то же самое, уметь определять различные характеристики продукта, рассматриваемые в мнении или обзоре, написанном пользователем, и для каждой из этих характеристик, упомянутых в мнении, уметь извлекать полярность. Эти типы подходов намного сложнее и тоньше, чем определение полярности.

вывод

Анализ данных, текста и мнений - очень важные инструменты для анализа информации компании или организации, которые используются для прогнозирования на основе тенденций, которые присутствовали в течение периода.

Технология, применяемая в администрировании, пытается предоставить средства, которые облегчают управление организацией, пытаясь предотвратить ошибки, которые могут произойти.

Это инструменты настоящего и будущего, поэтому они используются все большим количеством компаний, а это означает, что с каждым днем требуется все больше специализированных людей.

Библиография

Microsoft (2014). Получено с: https://msdn.microsoft.com/es-es/library/ms174949.aspx Получено с: http://www.sinnexus.com/business_intelligence/datamining.aspx Data Mining. Получено с: http://mineria-datos-actualidad.blogspot.mx/2012/06/por-que-usar-datamining.htmlMería de Textos. Получено с:

Скачать оригинальный файл