Logo ru.artbmxmagazine.com

Анализ данных и текста

Оглавление:

Anonim

Упомяните, что такое Data Mining, и дайте краткое описание каждого шага и какова цель использования этого метода.

ВВЕДЕНИЕ

Сегодня у бизнес-организаций есть много информации, которую они должны обрабатывать наиболее эффективным способом. Среди информации, которую необходимо обрабатывать, - продажи, клиенты, коллекции, в случае больницы, пациенты, лечение и так далее. В зависимости от того, к какой очереди предназначена организация, поэтому для лучшего понимания и контроля информации организаций используются компьютеры и запоминающее оборудование, такое как персональные компьютеры, USB-накопители, компакт-диски, флэш-накопители. и т. д., точно так же, как и использование этих устройств, поскольку инвестиции в приобретение одного из этих устройств с годами дешевели,однако делается то же самое, поскольку эти информационные системы становятся намного более надежными, чем сам человек.

Вся эта информация, которая хранится в информационных системах, находится в базах данных, которые используются в работе организаций, которые называются оперативными базами данных, получившими свое название, потому что через них организации выполняют различные виды деятельности, такие как доставка товаров клиентам, регистрация студентов, лечение пациентов, процедуры сбора и другие.

После того, как эти операции выполнены, выполняется очистка, и информация, полученная из первичных источников, суммируется, то есть все задачи, перечисленные выше, для сбора, очистки и обобщения информации передается в то, что называется хранилища данных, которые, говоря метафорой, могут быть периодическими фотографиями, которые используются, чтобы получить представление о состоянии, в котором находилась компания, и о том, как можно извлечь уроки из прошлого.

Таким образом, предприниматели могут иметь идеальные индикаторы для контроля за ходом компании, поскольку у них может быть возможность исследовать и исследовать множество ситуаций, в которых они могут считаться представляющими интерес и заботящимися о достижении целей. бизнес-цели.

Так появился недавно Data Mining, который помогает топ-менеджерам организаций принимать оптимальные решения для компании, в которой они работают. Интеллектуальный анализ данных работает через серию «майнеров», которые представляют собой серию ранее созданных алгоритмов, которым поручено выполнять исчерпывающую задачу в рамках информации, которую организация хранит в своих информационных системах, Материал, который ищут эти алгоритмы, представляет собой не что иное, как серию тенденций, аномалий, отклонений или ситуаций, которые могут представлять интерес, но которые могут быть неизвестны компаниям. Эти алгоритмы или майнеры помогают менеджерам упростить управление организацией, тем самым выбрав правильный путь.

Майнеры используют «в дополнение к базам данных» искусственный интеллект (процедуры для поиска групп в схожих ситуациях, классификации новых событий по известным категориям и т. Д.) И статистику. Но в отличие от последнего, который берет выборку данных и изучает ее, интеллектуальный анализ данных изучает все данные. Чем больше данных анализируется, тем они точнее, а мощность их обнаружения и прогнозирования возрастает ". (Мартинес Луна, 2011)

Все вышесказанное было рассказано в отношении того, что включает в себя интеллектуальный анализ данных, однако существует еще один тип интеллектуального анализа данных, который таким же образом может помочь компаниям достичь тех желаемых целей, которые он поставил в начале.

Для нас, людей, знания - одна из основ нашего существования, которая определяет, куда мы идем, а также наши амбиции. Большая часть знаний, генерируемых человечеством, находится в письменной форме, которую можно назвать естественным языком, т.е. газетами, журналами, книгами, техническими отчетами и т. Д. Однако не все люди обладают одинаковой способностью обрабатывать библиографический контент, поэтому мы можем сказать, что самые обычные задачи, для решения которых все люди необходимы на протяжении всей нашей жизни, - это взаимодействие с написано для того, чтобы иметь некоторую пользу. Навыки, которыми должен обладать хороший читатель и ищущий информацию, будут:

  • Найдите необходимую информацию. Сравните разные источники информации и сделайте выводы. Управляйте текстами, например, переводите, редактируйте и т. Д. (Монтес и Гомес, 2011 г.)

При наблюдении за нашими недостатками в управлении информацией компьютерная лингвистика становится очень сильным инструментом, помогающим нам в обработке текстов, поскольку с помощью этой техники анализ информации может выполняться автоматически, тем самым решая проблемы, которые у большинства людей есть.

Подобно тому, как интеллектуальный анализ данных ищет серию шаблонов в наборе данных, интеллектуальный анализ текста выполняет те же действия, но принимает в качестве данных тексты, которые могут быть отправлены в компьютерную систему, в дополнение к просмотру задача уметь обнаруживать отклонения и ассоциации между каждым из текстов, которые можно анализировать.

СБОР ДАННЫХ

Благодаря революции цифровой эпохи процессы обработки информации стали более эффективными, чем в прошлом, поэтому мы говорим, что информационный процесс в цифровых системах в основном состоит из пяти этапов, а именно:

  • Захват Процесс Хранение Распределить Передача

Благодаря использованию вычислительной техники крупные организации по всему миру собирают большие объемы исторических данных, которые были получены с опытом, однако информация продолжает расти в вычислительных информационных системах, делая эти количества еще больше.

Однако управление этими большими объемами информации несколько сложно, и именно поэтому родился интеллектуальный анализ данных, «он возникает как попытка осмыслить взрывной объем информации, которая в настоящее время может быть сохранена» (Mitra & Acharya, 2003)

Таким образом, с помощью технологий можно хранить различные типы данных, будь то изображения, видео, тексты и числовые данные, в относительно простом интерфейсе, который обеспечивает хорошую мультимедийную обработку информации.

Можно сказать, что из-за этого типа смеси информации обычные статистические процессы для анализа полученной информации недостаточны, поскольку статистические методы сосредоточены на использовании выборок, в отличие от интеллектуального анализа данных, который использует всю совокупность данные для лучшего понимания и решения.

Таким образом, мы приходим к определению того, что такое интеллектуальный анализ данных, то есть «процесса, направленного на обнаружение, извлечение и хранение соответствующей информации из больших баз данных с помощью программ поиска и выявления закономерностей и взаимосвязей. глобальные цифры, тенденции, отклонения и другие, казалось бы, хаотические индикаторы, которым есть объяснение, которое можно обнаружить с помощью различных методов этого инструмента ». (Анхелес Ларриета и Сантильян Гомес, 2001 г.)

Интеллектуальный анализ данных используется в компаниях, чтобы иметь возможность использовать преимущества информации, содержащейся в базах данных, для обнаружения, как упоминалось выше, заранее установленных закономерностей, чтобы топ-менеджеры организаций могли лучше знать бизнес, которым они управляют, и таким образом осуществлять более эффективные процессы принятия решений.

ПРЕИМУЩЕСТВА ИСПОЛЬЗОВАНИЯ ДОБЫЧИ ДАННЫХ В ОТНОШЕНИИ ДРУГИХ МЕТОД УПРАВЛЕНИЯ ИНФОРМАЦИЕЙ

Интеллектуальный анализ данных возникает из-за необходимости управлять информацией, содержащейся в базах данных организаций, эта процедура имеет ряд преимуществ по сравнению с другими процессами, которые используются для управления информацией, такими как:

  • Интеллектуальный анализ данных предоставляет старшим бизнес-менеджерам набор взаимоотношений и знаний, о существовании которых во многих случаях не было известно в рамках организации. Интеллектуальный анализ данных помогает компаниям выбирать маршруты, по которым они будут действовать в компаниях, а также для достижения конкурентных преимуществ по сравнению со своими рыночными конкурентами, поскольку с помощью интеллектуального анализа данных будет известна информация, которую знает только компания. Мы, люди, имеем возможность обнаруживать закономерности и аномалии определенным образом. Так что, если говорить поверхностно, вот почему с помощью интеллектуального анализа данных можно будет лучше воспринимать закономерности, которые на первый взгляд трудно обнаружить с помощью нашей простой оценки.

СТРУКТУРА ДОБЫЧИ ДАННЫХ

Теперь, говоря о структуре интеллектуального анализа данных, он в основном состоит из использования алгоритма или некоторой компьютерной программы для выполнения поисковых действий в больших объемах информации, содержащейся в базе данных.

Эти программы и алгоритмы используются для выявления тенденций и закономерностей, которые каким-то образом скрыты в исторических данных организаций.

Эти программы - это то, что мы ранее называли майнерами, эти майнеры, программы или алгоритмы, создаются пользователями, в которых используются различные методы исследования данных, которые могут быть использованы:

  • КластерАссоциацииКлассификацииВизуализацияНейронные сетиОбщие алгоритмыОбнаружение отклонений

Все эти вышеупомянутые методы требуют очень большой базы данных, чтобы они могли иметь большую эффективность.

Эти программы имеют функцию компилирования ранее полученной информации и, следовательно, выполняют действия по выбору и поиску в исторических данных, после выполнения вышеуказанных действий, если что-то интересное обнаружено, оно отображается пользователю.

Преимущество «майнеров» перед другими методами поиска информации состоит в том, что им не нужно какое-либо специализированное программное обеспечение для выполнения поиска. Эти поисковые действия выполняются на серверах компании и во всей компьютерной сети, которые используются для сбора данных и информации.

ЦИКЛ ДОБЫЧИ ДАННЫХ

Интеллектуальный анализ данных работает в цикле, состоящем из четырех шагов, поскольку результаты, полученные после завершения цикла, могут быть возвращены в цикл и так далее.

  1. Во-первых, пользователи, которые будут выполнять процесс интеллектуального анализа данных, должны идентифицировать проблемы, с которыми сталкивается организация, компания или бизнес, таким же образом, они должны найти данные, которые могут дать некоторую добавленную стоимость компании и также должны быть локализованы. области компании, в которых информация чрезвычайно изменчива. Как только это будет сделано, перед пользователем встанет задача определения наилучшего алгоритма для анализа полученных исторических данных, чтобы программы майнинга могли работать эффективно Согласно ранее установленным критериям поиска, информация, полученная в процессе интеллектуального анализа данных, должна быть включена в процесс принятия решений, предоставляя полученные результаты комитету, который участвует в принятии решений.Таким же образом необходимо передать сведения об обнаруженных проблемах в соответствующие области, чтобы можно было применить правильное решение. Наконец, оценка полученных результатов должна быть предоставлена ​​лицу или комитету, ответственному за принятие решений по по найденным проблемам согласно ранее установленным критериям поиска.

ИСПОЛЬЗОВАНИЕ И ПРИМЕНЕНИЕ МАЙНИНГА ДАННЫХ

Вот некоторые из наиболее важных задач, которые можно выполнить с помощью интеллектуального анализа данных:

  • Торговля и банковское дело: сегментация клиентов, прогноз продаж, анализ рисков. Медицина и фармацевтика: диагностика заболеваний и эффективность лечения. Безопасность и обнаружение мошенничества: распознавание лиц, биометрическая идентификация, доступ к сетям и т. Д. Поиск нечисловой информации: интеллектуальный анализ текста, веб-интеллектуальный поиск, поиск изображений, видео, голосовой и текстовый поиск и идентификация из мультимедийных баз данных. Астрономия: определение новых звезд и галактик. Геология, горнодобывающая промышленность, сельское хозяйство и рыболовство: определение областей использования различных культур, рыболовства или разведки в базах данных спутниковых изображений. Науки об окружающей среде:определение функционирующих моделей естественных и / или искусственных экосистем (очистных сооружений) для улучшения наблюдения, управления и / или контроля. Социальные науки: исследования течений общественного мнения. Городское планирование: выявление конфликтных районов на основе социально-демографических ценностей. (Рикельме, Руиз и Гилберт, 2006 г.)

ТЕКСТ МАЙНИНГ

Интеллектуальный анализ текста - новейшая часть области исследований, ориентированная на обработку текста. Определение, которое можно дать интеллектуальному анализу текста, очень похоже на определение интеллектуального анализа данных, поскольку оба ищут одно и то же, но привязаны к разным типам информации.

Анализ текста - это «процесс обнаружения интересных закономерностей и новых знаний в коллекции текстов, то есть интеллектуальный анализ текста - это процесс, отвечающий за обнаружение знаний, которые явно не существуют ни в одном тексте в коллекции, но которые возникают из соотнесения содержания некоторых из них (Hearst, 1999)

Процесс интеллектуального анализа текста в основном состоит из двух этапов:

  • Этап обработки: на первом этапе тексты, которыми можно манипулировать, преобразуются в серию изображений, структурированных таким образом, чтобы облегчить дальнейший анализ. Этап открытия: на этом этапе проводится анализ промежуточных представлений, эта задача выполняется с целью обнаружения и поиска интересных закономерностей в интересующих текстах, а также для получения новых знаний.

В соответствии с процедурами, используемыми на этапе обработки текста, будет получен тип представления контента. Стратегии, которые можно использовать для обработки текстов при интеллектуальном анализе данных, следующие.

Предварительная стадия

судебное преследование

Тип представления Тип открытий
1. Категоризация

2. Полнотекстовый

3. Извлечение информации

4. Векторные темы

5. Последовательность слов

6. Таблица данных

7. Тематический уровень

8. Языковые модели

9. Отношения между организациями

Рис. 1.1 Современное состояние интеллектуального анализа текста (Montes and Gómez, 2011)

Как видно на рисунке 1.1, три типа методов, которые существуют для анализа текста, несколько ограничены в представлении результатов, что очень затрудняет обнаружение и знание некоторых более сложных вещей, таких как они могут быть:

  1. Отклонения от консенсусных тенденций

Однако, чтобы лучше понять вышесказанное, рекомендуется использовать концептуальную графику, с помощью которой вы можете лучше представить анализируемые тексты.

Тем не менее, анализ информации в соответствии с концептуальной графикой сопряжен с двумя типами проблем, которые связаны с синтаксическим анализом и семантическим анализом текстов. Некоторые примеры текстов, преобразованных в концептуальную графику:

  • Части научных статей Части медицинской документации Части судебных дел

Однако не существует методов, позволяющих правильно интерпретировать концептуальную графику, для которой интеллектуальный анализ текста может стать фундаментальной частью обработки этого типа информации и придать ей наилучшее возможное значение в соответствии с используемыми параметрами. использование для процесса интеллектуального анализа текста.

ВЫВОДЫ

Как можно видеть, интеллектуальный анализ данных - очень важный инструмент, позволяющий интерпретировать направления деятельности компании, принимая во внимание исторические данные, полученные с течением времени, этот тип интеллектуального анализа данных сможет выявить тенденции, существующие в отношении проблемы, связанной с организации или может предоставить вам какое-то преимущество, зная определенную эксклюзивную информацию, обнаруженную с помощью цикла интеллектуального анализа данных, со своей стороны интеллектуальный анализ текста обеспечивает почти то же самое, что и интеллектуальный анализ данных, но привязанный к открытие новых знаний, начиная с большого набора текстов.

ССЫЛКИ

  1. Анхелес Ларриета, Мичиган, и Сантильян Гомес, AM (2001). Data Mining: понятие, характеристики, структура и приложения. (1999). Распутывая Tet Data Mining Proc. ACL ´99: 37-е ежегодное собрание ассоциации компьютерной лингвистики. Мэриленд: Университет штата Мэриленд, Мартинес Луна, GL (октябрь 2011 г.). Data Mining: как найти иголку в стоге сена. (UANL, Ed.) Ingenierías, XIV (53), 63. Проверено 23 марта 2016 г. Mitra, S., & Acharya, T. (2003). Интеллектуальный анализ данных: мультимедиа, программные вычисления и биоинформатика. Джон Уайли и сыновья, Монтес и Гомес, М. (2011). Text Mining: новая вычислительная задача. Мексика, DF: Национальный политехнический институт, Riquelme, JC, Ruíz, R., & Gilbert, K. (2006). Интеллектуальный анализ данных: концепции и тенденции. Искусственный интеллект, 10 (29).

СПАСИБО

Я хочу особо поблагодарить предмет «Основы административной инженерии» магистра административной инженерии, который я изучаю в Технологическом институте Орисабы, но в основном моему профессору доктору Фернандо Агирре и Эрнандесу за поощрение желания исследовать и читать на разные интересные темы.

Скачать оригинальный файл

Анализ данных и текста