Майнинг: данные, тексты, чувства

С тех пор, как первые люди начали общаться друг с другом, необходимость всегда быть в курсе всего, что происходило вокруг них, начала проявляться, а также они искали способ иметь эту информацию под рукой, чтобы иметь возможность выполнять определенные действия. мероприятия, которые могут быть индивидуальными или групповыми, в обществе, организации или даже в стране.

В прошлом получить доступ к данным, информации, статистическим данным, среди прочего, можно было только с помощью книг, текстов, разговоров с другими людьми, на собственном опыте, иначе самые удачливые уже имели первые компьютеры, которые практически не позволяли им сохранять много информации или даже передавать ее, среди прочего. Все это сильно затрудняло процесс доступа к информации и обмена ею, поскольку требовалось много времени и усилий, чтобы найти те данные или информацию, которые нужны человеку.

Сегодня способы создания, генерации и распространения данных и информации изменились к лучшему, поскольку это очень просто для всех, независимо от того, где они находятся в мире. Мы можем найти информацию об экономике конкретной страны, маркетинге продукта, о новых технологиях, которые появляются и облегчают наш образ жизни, среди прочего; Эта информация хранится в больших базах данных.

И да, хотя кажется, что все идеально, потому что очень легко найти любую информацию практически на расстоянии одного клика, это немного затрудняет выбор, какая информация является лучшей или самой надежной, поскольку генерируются миллионы данных до настоящего времени.

Мы очень часто прислушиваемся к интеллектуальному анализу данных в различных ситуациях, что является очень эффективным инструментом, позволяющим лучше выбирать данные и информацию, которые нужны человеку или организации в то время, когда это необходимо. Точно так же из этого инструмента появляются другие, которые представляют собой интеллектуальный анализ текста и настроений, которые имеют те же основы, что и интеллектуальный анализ данных, только они направляются к другим аспектам.

Ключевые идеи.

Чтобы облегчить процесс чтения по теме «Mining (Data, Texts, Feelings)», будут приведены некоторые определения, которые считаются важными для читателя:

Сбор данных

«Это набор методов и технологий, которые позволяют исследовать большие базы данных, автоматически или полуавтоматически, с целью поиска повторяющихся шаблонов, тенденций или правил, объясняющих поведение данных в заданном контексте». (Sinnexus, 2016)

Текстовый анализ

«Это процесс, отвечающий за обнаружение информации, которая не существовала явно в каком-либо тексте коллекции, но возникает в результате соотнесения содержания некоторых из них». (Рочина, 2017)

Анализ настроений

«Это относится к использованию обработки естественного языка, анализа текста и компьютерной лингвистики для выявления и извлечения субъективной информации из ресурсов». (Википедия, 2018)

Происхождение интеллектуального анализа данных

Интеллектуальный анализ данных - это тема, которую можно считать относительно недавней, поскольку она не использовалась в течение многих лет. Ключевые части интеллектуального анализа данных, другими словами, элементы, обеспечивающие его правильную работу, уже давно используются в исследованиях в различных областях, таких как статистика, автономное обучение, искусственный интеллект и другие., Сегодня инструмент интеллектуального анализа данных значительно продвинулся благодаря усовершенствованию мощных поисковых систем и баз данных, гораздо более обширных, чем те, что были в прошлом.

Первые идеи, которые возникли в отношении концепции интеллектуального анализа данных, появились в течение десятилетия 50-х годов благодаря изучению инженерии данных. Те, кто занимался вычислениями в то время, генерировали списки информации разного типа, например, об определенных продуктах, процессах, среди прочего, вся эта информация хранилась в своего рода компьютере, который служил основным в организации. и помогло менеджерам принять лучшее решение по определенному вопросу.

При этом первые системы, предназначенные для обработки информации, были задуманы для директоров или руководителей компании, к сожалению, эти системы были слишком тяжелыми, и можно было сохранить не так много информации, в том числе для тех, кто не был знаком с вычислениями. Их было нелегко понять.

В 1960-х годах были созданы первые системы управления базами данных, но они еще не были полностью «удобоваримы» для тех, кто не был знаком с этими концепциями.

Уже в десятилетие 80-х была создана система под названием Data Warehouse, в которой были устранены проблемы, которые были у предыдущих систем баз данных. Наличие хранилища данных заставило экспертов по этому вопросу разработать новые взгляды на все это, когда эти анализы стали автономными и дали возможность удалить определенную информацию.

История баз данных и интеллектуального анализа данных, взято из (Martínez, 2010)

Сбор данных

В настоящее время революция, которую принесла с собой цифровая культура, дала возможность сделать сбор, хранение и обработку данных и информации относительно простой задачей, а цена за выполнение всей этой процедуры относительно очень низка. это стоило несколько лет назад.

Увеличение объема и разнообразия данных, которые хранятся в компьютерных системах или цифровых базах данных, за последние годы увеличилось невообразимым образом.

Все данные, которые накапливались с момента основания или создания организации, должны выполнять функцию памяти самой компании, а также быть полезными для предсказания определенных данных или информации в ближайшем будущем.

Для проведения процесса анализа больших объемов данных, генерируемых любой компанией, традиционных процедур управления данными и информацией, а также различных статистических методологий уже недостаточно, или, другими словами, тех, которые нужны.

Когда организации необходимо принять решение, оно всегда будет основываться на имеющейся информации или данных о прошлых событиях, которые были собраны в каком-либо источнике данных. Извлечение этой информации из соответствующей базы данных, которое может быть автоматическим или полуавтоматическим, стало иметь большое значение в настоящее время, поэтому были разработаны различные процедуры, позволяющие делать это эффективным способом, одним из этих инструментов является Сбор данных.

Основная цель интеллектуального анализа данных - выявить знания, полученные организацией из базы данных, которая предоставит сотрудникам различные возможности при принятии решений.

Интеллектуальный анализ данных сочетает в себе различные полуавтоматические методы искусственного интеллекта, графической визуализации, баз данных и статистического анализа, так что организация может получить некоторые знания на основе всех собранных данных и информации, поскольку только интеллектуальный анализ не может представляют некоторую ценность для компании. Интеллектуальный анализ данных может быть одним из первых в эволюции технологических инструментов анализа данных.

Концепция интеллектуального анализа данных (или DataMining по-английски) происходит от аналогии с холмом и гигантским объемом данных, хранящихся в организации. Эти данные находятся внутри холма, спрятаны между камнями и кустами; Если вы копнете глубоко, вы сможете найти различные камни, которые можно будет классифицировать как «драгоценности» важной ценности, другими словами, если вы будете искать данные глубоко, вы можете найти информацию, которая может иметь большую ценность для накопления знаний.

Процесс, требующий интеллектуального анализа данных

Первым шагом к правильному интеллектуальному анализу данных является определение того, какие данные ищутся. Для этого нужно подумать, какие данные требуются, где их можно разместить и как их получить.

Как только они окажутся в нашем распоряжении, они должны быть подготовлены, сохраняя их в базах данных в том формате, который они требуют или разрешают, или также существует возможность создания хранилища (что является одной из самых сложных частей майнинга). данные). Когда данные уже были сохранены в формате, принятом базой данных, продолжается выбор просто необходимых данных, а те, которые не имеют большого значения для организации, удаляются.

Мы должны четко понимать, чего мы хотим достичь или найти (это нужно будет сделать, прежде чем продолжить анализ данных с использованием интеллектуального анализа данных), а также мы должны помнить, какие инструменты или процессы они жизненно важны для продолжения процесса. После использования инструмента, который мы решили использовать, вы должны иметь представление о том, как расшифровать полученные результаты, чтобы иметь возможность сделать вывод, действительно ли они полезны для организации, и уметь классифицировать их для возможного дальнейшего использования.

Поскольку есть данные и информация, которые полезны на текущий момент в организации, они будут обсуждаться и анализироваться, чтобы принять наилучшее возможное решение по обсуждаемой ситуации.

После того, как решение было принято на основе данных, полученных с помощью интеллектуального анализа данных, мы приступаем к оценке того, что произошло, чтобы достичь этого, необходимо наблюдать и изучать результаты, были ли преимущества и какие преимущества. общие затраты, чтобы иметь возможность произвести общую оценку процесса в качестве обратной связи. В течение этого периода обратной связи данные будут иметь тенденцию меняться, возможно, что будут найдены новые инструменты или методологии и что, очевидно, следующий цикл интеллектуального анализа данных придется перепланировать.

В качестве синтеза процесс интеллектуального анализа данных должен проходить следующие этапы:

Обработка данных Выберите характеристики, которые лучше всего подходят для ситуации Выберите алгоритм для удаления необходимых данных и информации Анализ, интерпретация и оценка

Процесс интеллектуального анализа данных, взят из (Egonzales, 2008)

Методы интеллектуального анализа данных

Согласно (Ahumada, 2016) методы интеллектуального анализа данных обычно подразделяются на: прогнозные, описательные и вспомогательные и включают в себя:

Регрессия, дисперсионный и ковариационный анализ, временные ряды, метод Бойеса, генетические алгоритмы.

Специальная классификация:

Дискриминант, деревья решений и нейронные сети.

Постфактум классификация:

ClusterinSegmentation

Ассоциация зависимостей Многомерное масштабирование Уменьшение размерности Исследовательский анализ

Инструмент SQL и запросов.

Что делает интеллектуальный анализ данных?

Интеллектуальный анализ данных по своей природе является процессом, поэтому необходимо включить соответствие модели или определить стандарты на основе определенных данных. Обычно эти корректировки относятся к статистическому классу, так как резерв будет задан таким образом, чтобы модель могла иметь определенную ошибку.

Для интеллектуального анализа данных требуются алгоритмы, которые будут выполнять функцию прогнозирования (на основе уже известных данных) и описания (на основе установленных шаблонов). Вот некоторые из этих задач:

Эта задача направлена на определение групп категорий для описания данных. Эти категории могут быть исключительными или исчерпывающими, аналогичным образом основываться на иерархическом представлении и даже могут допускать перекрытия.

Интеллектуальный анализ данных имеет возможность отображать, другими словами, каталогизировать некоторые данные в одном из предустановленных классов, и это поможет найти определенные данные за гораздо более короткое время.

Этот компонент интеллектуального анализа данных основан на поиске метода, который помогает нам находить несколько сжатые описания подмножества данных. Более сложные процессы включают правила понимания, многомерную визуализацию и способность интерпретировать функциональные отношения между различными переменными. Вышеупомянутые процессы очень часто используются для анализа и изучения данных в интерактивном режиме и для создания автоматических отчетов.

Основная цель этой задачи - найти модель, с помощью которой определяются зависимости между переменными. В этих моделях мы можем найти два уровня:
- Структурный уровень: очень часто мы находим этот уровень в виде графика, где переменные зависят друг от друга локально. Количественный уровень: он детализирует, каким будет "размер" этих зависимостей, с помощью числовых шкал.

Сети вероятностных зависимостей должны использовать условную независимость, чтобы указать, каким будет структурный дизайн модели и ее вероятности.

Основная цель этой задачи - достичь позиции отображения для данных и сделать их прогнозируемой переменной с реальным значением. Вот несколько примеров, которые можно привести для этой задачи: прогнозирование количества биомассы в некотором участке определенного леса, который анализируется с помощью микроволн; Точно так же можно рассчитать вероятность того, что пациент не погибнет, на основе результатов предыдущего диагноза.

Текстовый анализ

Интеллектуальный анализ данных - это технически молодая область исследований в области обработки текстов. Он интерпретируется так же, как интеллектуальный анализ данных, другими словами, это методология, с помощью которой могут быть оговорены новые привлекательные шаблоны или стандарты и получены новые знания, но вместо использования данных будут использоваться большие объемы текстов.

Из того, что мы можем сказать, основная цель интеллектуального анализа текста - найти новые знания, которые четко не оговорены в каком-либо тексте.

Этапы интеллектуального анализа текста взяты из (Gómez, 2001)

Аналогичным образом интеллектуальный анализ данных обычно выполняет следующие задачи:

Извлеките данные и информацию, то есть выберите тексты, которые наиболее подходят для того, что ищет организация. Извлеките ценную информацию, которая встроена в некоторые тексты и которая была упущена из виду, а именно: факты, ключевые слова, важные события, Взаимосвязи между текстами, среди прочего. Имея методологию, аналогичную методологии интеллектуального анализа данных, интеллектуальный анализ текста также стремится найти важные данные, с помощью которых можно создать новые знания для компании.

Согласно (Нуньо и Мачадо) некоторые методы, используемые при интеллектуальном анализе текста, следующие:

Классификация текста Получение информации и извлечение ключевых текстов Машинное обучение Обработка естественного языка

Процесс интеллектуального анализа текста

Как упоминалось выше, интеллектуальный анализ текста является относительно молодой техникой, которая может варьироваться по своему процессу и может быть адаптирована к различным ситуациям, до сих пор не существует установленной методологии, которая бы нам помогала.

Но вы можете использовать следующие шаги:

Этапы интеллектуального анализа текста, собственная разработка с использованием информации из (Gómez, 2001)

Анализ настроений

Интеллектуальный анализ данных представляет собой серию технических операций обработки естественного языка, компьютерной лингвистики и интеллектуального анализа текста, основной целью которых является удаление внутренней информации из контента, разработанного соавторами или любым другим лицом, например: Комментарии которые проводятся день за днем в различных существующих социальных сетях, блогах или группах комментариев для оценки продуктов.

Анализ настроений охватывает различные области исследования, которые имеют определенную связь с анализом субъективных элементов, которые неявно присутствуют в элементах, созданных разными пользователями. Таким образом, в поиске полезных ископаемых можно найти два типа задач, которые можно выполнить.

Характеристика полярности

Речь идет о возможности определить, можно ли классифицировать мнение как положительное или отрицательное, будет ли оно полезно для пользователя или нет. Кроме того, существует возможность генерировать числовое значение в пределах установленного диапазона.

Изучение чувства по характеристикам.

Он подчеркивает возможность найти различные характеристики продукта или услуги, которые были оговорены в мнении, написанном пользователем.

Тезисное предложение.

Внедрение интеллектуального анализа данных на малых и средних предприятиях в районе Кордова - Орисаба для лучшего управления организацией.

Задача.

Оптимизируйте поток информации внутри организации, отделяя полезное от бесполезного и тем самым ускоряя принятие решений.

Спасибо.

Я благодарю свою семью за всю поддержку и поощрение продолжать день за днем, Технологический институт Орисаба и КОНАСИТ за то, что они открыли мне свои двери и позволили мне продолжить учебу со степенью магистра административной инженерии, а также доктору Фернандо Агирре и Эрнандесу за мотивируйте меня своими знаниями на семинаре по основам административной инженерии для выполнения каждой из назначенных статей.

Вывод.

Организации и любой сотрудник, который в них работает, участвуя в больших объемах информации, добыче информации, которая может быть любого типа (данные, тексты или чувства), предоставят определенные инструменты и навыки, которые очень необходимы для идентификации, выбора, обработки., изучение и оценка данных, которые были собраны, чтобы иметь возможность производить информацию, а затем превращать ее в знания, которые могут быть чрезвычайно полезны для организаций и сотрудников, которые работают с ними.

Майнинг может быть очень полезен при принятии различных решений о будущем компании, поскольку вся информация, которая создается с их помощью, имеет цель лучше структурировать идеи и обеспечить их достоверность, чтобы не было сомнений при принятии лучшего решения.

Точно так же он функционирует как технологическая стратегия, майнинг любого типа увеличивает конкурентное преимущество, поскольку оптимизирует различные процессы в организациях, особенно процесс принятия решений, описанный выше.

Библиография.

Ахумада, AM (7 апреля 2016 г.). Gestiopolis. Получено с

Egonzales. (4 апреля 2008 г.). Монографии. Получено с

Гомес, М.М. (2001). Text Mining: новая вычислительная задача. Национальный политехнический институт, 2-13.

Мартинес, BB (2010). BUAP. Получено с

Нуньо, Р.Р., и Мачадо, Э.Ф. (nd). Galeon.com. Получено с

Оралло, Дж. Х., Кинтана, М. Дж., И Рамирес, К. Ф. (2014). Автоматическое извлечение знаний в базах данных и разработке программного обеспечения. Политехнический университет Валенсии.

Рочина П. (25 апреля 2017 г.). Цифровой журнал INESEM. Получено с

Sinnexus. (2016). Sinnexus. Получено с

Wikipedia. (18 апреля 2018 г.). Википедия, свободная энциклопедия. Получено с