Анализ данных и информации

Простое определение майнинга:

Процесс или бизнес рытья рудников для полезных ископаемых, металлов, ювелирных изделий и т. Д.

Интеллектуальный анализ данных: что такое интеллектуальный анализ данных?

обзор

В общем, интеллектуальный анализ данных (иногда называемый обнаружением данных или знаний) - это процесс анализа данных с разных точек зрения и их обобщения в полезную информацию, информацию, которую можно использовать для увеличения дохода, снижения затрат или того и другого., Программное обеспечение интеллектуального анализа данных является одним из серии аналитических инструментов для анализа данных. Он позволяет пользователям анализировать данные с разных измерений или углов, классифицировать их и резюмировать выявленные взаимосвязи. Технически интеллектуальный анализ данных - это процесс поиска корреляций между шаблонами или полями в больших реляционных базах данных.

Постоянные инновации

Хотя интеллектуальный анализ данных - относительно новый термин, технология - нет. Компании годами использовали мощные компьютеры для анализа объемов данных сканеров супермаркетов и анализа отчетов об исследованиях рынка. Однако постоянные инновации в области вычислительной мощности, дисковой памяти и статистического программного обеспечения резко повышают точность анализа при одновременном снижении затрат.

пример

Например, сеть супермаркетов на Среднем Западе использует возможности программного обеспечения Oracle для анализа данных для анализа местных моделей покупок. Они обнаружили, что, покупая подгузники по четвергам и субботам, мужчины также склонны покупать пиво. Более подробный анализ показал, что эти покупатели обычно совершают еженедельные покупки по субботам. Однако по четвергам они купили всего несколько вещей. Розничный торговец пришел к выводу, что ему следует купить пиво, чтобы оно было доступно в следующие выходные. Сеть супермаркетов могла бы использовать эту недавно обнаруженную информацию несколькими способами для увеличения доходов. Например, они могут переместить сетку для пива ближе к сетке для подгузников. И,Они могут убедиться, что пиво и подгузники продаются по полной цене по четвергам.

Основы интеллектуального анализа данных

Методы интеллектуального анализа данных являются результатом длительного процесса исследования и разработки продукта. Эта эволюция началась, когда бизнес-данные были впервые сохранены на компьютерах, продолжилась улучшением доступа к данным, а в последнее время появились технологии, позволяющие пользователям перемещаться по своим данным в реальном времени. Интеллектуальный анализ данных выводит этот эволюционный процесс за пределы доступа к навигационным и ретроспективным данным к предоставлению прогнозной и упреждающей информации. Интеллектуальный анализ данных готов к применению в бизнес-сообществе, поскольку он основан на трех уже достаточно зрелых технологиях:

Сбор массивных данных Компьютеры с несколькими мощными процессорами Алгоритмы интеллектуального анализа данных

Бизнес-базы данных растут беспрецедентными темпами. Недавнее исследование проектов хранилищ данных META Group показало, что 19% респондентов превышают 50-гигабайтный уровень, тогда как 59% ожидают, что они будут там. В некоторых отраслях, например в розничной торговле, эти цифры могут быть намного выше. Потребность в поддержке усовершенствования вычислительных машин может быть удовлетворена экономически эффективным способом с помощью компьютерных технологий с несколькими параллельными процессорами. Алгоритмы интеллектуального анализа данных включают методы, которые существуют не менее 10 лет, но только недавно были реализованы как зрелые, надежные и понятные инструменты, которые намного превосходят старые статистические методы.

В процессе эволюции от бизнес-данных к бизнес-информации каждый новый шаг основывался на предыдущем. Например, динамический доступ к данным имеет решающее значение для детализации в приложениях навигации по данным, а возможность хранить большие базы данных имеет решающее значение для интеллектуального анализа данных.

Данные, информация и знания

Данные

Данные - это факты, числа или текст, которые может обрабатывать компьютер. Сегодня организации накапливают огромные объемы данных в разных форматах и в разных растущих базах данных. Это включает:

Операционные или транзакционные данные, такие как продажи, затраты, запасы, заработная плата и бухгалтерский учет. Неоперационные данные, такие как отраслевые продажи, данные прогноза и макроэкономические данные. Мета-данные, данные о данных в да, например, логическая структура базы данных или определения словаря данных

Информация

Образцы, ассоциации или отношения между всеми этими данными могут предоставить информацию. Например, анализ точки данных о розничных транзакциях может предоставить информацию о том, какие продукты продаются и когда.

Знание

Информация может быть преобразована в знание исторических закономерностей и будущих тенденций. Например, сводную информацию о продажах в супермаркете можно проанализировать в свете рекламных усилий, чтобы получить представление о покупательском поведении потребителей. Таким образом, производитель или продавец может определить, какие товары наиболее уязвимы для рекламных акций.

Хранилища данных

Захватывающие достижения в области сбора данных, мощности обработки, передачи и хранения данных позволяют компаниям интегрировать свои различные базы данных в единицы хранения данных. Хранилище данных определяется как централизованный процесс управления данными и поиска. Хранилище данных, как и интеллектуальный анализ данных, - относительно новый термин, хотя сама концепция существует уже много лет. Хранилище данных представляет собой идеальное видение поддержки центрального репозитория для всех данных вашей организации. Централизация данных необходима для максимального доступа пользователей и анализа. Впечатляющие достижения в области технологий делают это видение реальностью для многих компаний. И,Столь же значительный прогресс в области программного обеспечения для анализа данных позволяет пользователям свободно получать доступ к этой информации. Программное обеспечение для анализа данных - это то, что поддерживает интеллектуальный анализ данных.

Что умеет интеллектуальный анализ данных?

Интеллектуальный анализ данных в основном используется компаниями, ориентированными на потребителей (розничные, финансовые, коммуникационные и маркетинговые организации). Это позволяет этим компаниям определять взаимосвязь между «внутренними» факторами, такими как цена, позиционирование продукта или навыки персонала, и «внешними» факторами, такими как экономические показатели, конкуренция и демографические данные клиентов. И это позволяет им определять влияние на продажи, удовлетворенность клиентов и прибыль компании. Наконец, это позволяет им «детализировать» сводную информацию, чтобы увидеть подробные данные о транзакциях.

С помощью интеллектуального анализа данных розничный торговец может использовать записи кассовых терминалов о покупках клиентов для рассылки конкретных рекламных акций на основе истории покупок конкретного человека. Анализируя комментарии или демографические данные гарантийного талона, розничный торговец может разрабатывать продукты и рекламные акции, чтобы привлечь внимание определенных сегментов клиентов.

Например, Blockbuster Entertainment mining - это их историческая база данных по аренде видео, которую можно индивидуально рекомендовать клиентам во время отпуска. American Express может предлагать держателям карт продукты на основе анализа их ежемесячных расходов.

WalMart является пионером в области массового интеллектуального анализа данных, чтобы изменить отношения с поставщиками. WalMart фиксирует транзакции в точках продаж из более чем 2900 магазинов в 6 странах и непрерывно передает эти данные в свое массивное хранилище данных Teradata объемом 7,5 терабайт. WalMart позволяет более чем 3500 поставщикам получать доступ к данным о своих продуктах и выполнять анализ данных. Эти поставщики используют эти данные для определения моделей покупательской деятельности на уровне витрины магазина. Они используют эту информацию для управления местными складскими запасами и выявления новых маркетинговых возможностей. В 1995 году команды WalMart обработали более 1 миллиона сложных запросов к данным.

Национальная баскетбольная ассоциация (NBA) изучает приложение для интеллектуального анализа данных, которое можно использовать вместе с записью изображений баскетбольных игр. Расширенное программное обеспечение браузера анализирует движения игроков, чтобы помочь тренерам организовать игры и стратегии. Например, анализ пошагового протокола игры между New York Knicks и Cleveland Cavaliers 6 января 1995 года показывает, что, когда Марк Прайс играл на позиции защитника, Джон Уильямс сделал четыре удара по воротам. прыгнул и сделал каждый. Продвинутый нападающий не только находит эту закономерность, но и объясняет, что она интересна тем, что она значительно отличается от среднего процента бросков кавалеров в 49,30% во время той игры.

Используя универсальные часы НБА, тренер может автоматически использовать видеоклипы, показывающие каждый из выполненных Уильямсом бросков, без просмотра нескольких часов видео. Эти клипы показывают очень успешную игру в жанре пик-н-ролл, в которой Прайс обезоруживает защиту Ника, а затем находит Уильямса для прыжка с открытого выстрела.

Как работает интеллектуальный анализ данных?

Несмотря на развитие крупномасштабных информационных технологий, аналитические системы и транзакции разделены, интеллектуальный анализ данных обеспечивает связь между ними. Программное обеспечение интеллектуального анализа данных анализирует взаимосвязи и закономерности в сохраненных данных транзакций на основе запросов от неопределенных пользователей. Доступно несколько типов программного обеспечения для анализа: статистика, машинное обучение и нейронные сети. В общем, ищется любой из четырех типов отношений:

Классы: сохраненные данные используются для размещения данных в заранее определенных группах. Например, сеть ресторанов может извлекать данные о покупках клиентов, чтобы определить, когда клиенты приходят и что они обычно заказывают. Эта информация может быть использована для увеличения посещаемости, чтобы получать новости дня.

Группы: элементы данных сгруппированы в соответствии с логическими отношениями или предпочтениями потребителей. Например, данные могут быть извлечены для определения сегментов рынка или потребительских симпатий.

Ассоциации: данные могут быть извлечены для идентификации ассоциаций. Пример пивного подгузника - это пример ассоциативного майнинга.

Последовательные модели: данные извлекаются из прогнозируемых тенденций и моделей поведения. Например, продавец уличного снаряжения может спрогнозировать вероятность покупки рюкзака на основе покупки потребителем спальных мешков и прогулочной обуви.

Интеллектуальный анализ данных состоит из пяти основных элементов:

Извлечение и преобразование данных о грузовых операциях в систему хранилища данных. Хранение и управление данными в системе многомерной базы данных. Обеспечение доступа к данным, бизнес-аналитикам и специалистам в области информационных технологий. Анализируйте данные с помощью программного приложения. Представьте данные в удобном формате, например в виде графика или таблицы.

Доступны разные уровни анализа:

Искусственные нейронные сети: модели нелинейного прогнозирования, которые обучаются в процессе обучения и по структуре напоминают биологические нейронные сети. Генетические алгоритмы: методы оптимизации, использующие такие процессы, как генетическая комбинация, мутация и естественный отбор. проектирование, основанное на концепциях естественной эволюции. Деревья решений: древовидные структуры, представляющие наборы решений. Эти решения генерируют правила классификации набора данных. К конкретным методам дерева решений относятся деревья классификации и регрессии (CART) и автоматическое взаимодействие с обнаружением хи-квадрат (CHAID). CART и CHAID - это методы дерева решений, используемые для классификации набора данных.Они предоставляют набор правил, которые могут применяться к новому (несортированному) набору данных, чтобы предсказать, какие записи будут иметь данный результат. Сегменты CART представляют собой набор данных путем создания пути с двумя срезами, в то время как сегменты CHAID используют тесты хи-квадрат для создания путей с несколькими срезами. CART обычно требует меньше подготовки данных, чем CHAID. Метод ближайшего соседа: метод, который классифицирует каждую запись в наборе данных на основе комбинации k классов карт, наиболее похожих на нее в наборе исторические данные (где k 1). Иногда его называют методом k-ближайшего соседа. Индукция правила: извлечение полезных правил из данных на основе статистической значимости. Визуализация данных:Визуальная интерпретация сложных взаимосвязей многомерных данных. Графические инструменты используются для иллюстрации взаимосвязей данных.

Какая технологическая инфраструктура требуется?

Сегодня приложения для интеллектуального анализа данных доступны во всех системах для мэйнфреймов, клиент-серверных платформ и ПК. Цены на системы варьируются от нескольких тысяч долларов за самые маленькие приложения до 1 миллиона долларов за терабайт для самых больших. Приложения на предприятии обычно имеют размер от 10 гигабайт до более 11 терабайт. NCR может доставлять приложения размером более 100 терабайт. Есть два критических технологических фактора:

Размер базы данных: чем больше данных обрабатывается и обслуживается, тем мощнее требуется система. Сложность запроса: чем сложнее запросы и чем больше количество обрабатываемых запросов, тем мощнее он. требуемая система.

Технология хранения и управления реляционными базами данных подходит для многих приложений интеллектуального анализа данных размером менее 50 гигабайт. Однако эту инфраструктуру необходимо значительно улучшить для поддержки самых крупных приложений. Некоторые поставщики добавили расширенные возможности индексирования для повышения производительности запросов. Другие используют новую аппаратную архитектуру, например, процессоры с массовым параллелизмом (MPP), чтобы на порядок сократить время выполнения запросов. Например, системы MPP NCR соединяют вместе сотни высокоскоростных процессоров Pentium для достижения уровней производительности выше, чем у крупнейших суперкомпьютеров.

Текстовый анализ

Анализ текста - это новая развивающаяся область, которая пытается извлечь значимую информацию из естественного текста языка. В широком смысле его можно охарактеризовать как процесс анализа текста для извлечения информации, полезной для определенных целей. По сравнению с типом данных, хранящихся в базах данных, текст структурирован, аморфен и сложен для алгоритмической обработки. Однако в современной культуре текст является наиболее распространенным средством формального обмена информацией. Области интеллектуального анализа текста обычно имеют дело с текстами, функция которых заключается в передаче фактов, информации или мнений, и мотивация попытаться автоматически извлечь информацию из указанного текста убедительна, даже если успех является лишь частичным., Фраза «интеллектуальный анализ текста» обычно используется для обозначения любой системы, которая анализирует большие объемы текста и естественного языка и выявляет лексические или лингвистические шаблоны использования в попытке извлечь полезную информацию.

Анализ текста и интеллектуальный анализ данных

Подобно тому, как интеллектуальный анализ данных можно в общих чертах описать как поиск закономерностей в ваших данных, интеллектуальный анализ текста - это поиск закономерностей в тексте. Однако внешнее сходство между двумя маскирует реальные различия. Интеллектуальный анализ данных можно более полно охарактеризовать как извлечение неявных, ранее неизвестных и потенциально полезных данных. Информация неявно присутствует во входных данных: она скрыта, неизвестна, и ее трудно извлечь, не прибегая к методам автоматического интеллектуального анализа данных. Однако при интеллектуальном анализе текста извлекаемая информация четко и точно находится в тексте. Это совсем не скрыто, большинство авторов стараются выразить себя четко и недвусмысленно и,С человеческой точки зрения, единственный смысл, в котором он «до сих пор неизвестен», состоит в том, что ограничения человеческих ресурсов не позволяют людям читать текст самостоятельно. Проблема, конечно, в том, что информация не сформулирована таким образом, чтобы ее можно было обработать автоматически. Интеллектуальный анализ текста стремится привести текст в форму, которая подходит для использования компьютерами напрямую, без необходимости участия человека.Интеллектуальный анализ текста стремится привести текст в форму, которая подходит для использования компьютерами напрямую, без необходимости участия человека.Интеллектуальный анализ текста стремится привести текст в форму, которая подходит для использования компьютерами напрямую, без необходимости участия человека.

Хотя с философской точки зрения существует явная разница, с компьютерной точки зрения проблемы очень похожи. Текст такой же непрозрачный, как необработанные данные, когда дело доходит до извлечения большей части деталей.

Другое требование, которое является общим для интеллектуального анализа данных и текста, состоит в том, что извлекаемая информация должна быть «потенциально полезной». В каком-то смысле это означает действенность - способность обеспечить основу для автоматических действий. В случае интеллектуального анализа данных это понятие может быть выражено относительно независимым от предметной области способом: действенные шаблоны - это те, которые позволяют делать нетривиальные прогнозы для новых данных из того же источника. Производительность можно измерить путем подсчета успехов и неудач, можно применять статистические методы для сравнения различных методов интеллектуального анализа данных по одной и той же проблеме и т. Д. Тем не мение,во многих ситуациях интеллектуального анализа текста гораздо труднее охарактеризовать, что означает «действенный», независимо от конкретной области. Это затрудняет поиск справедливых и объективных критериев успеха.

Во многих приложениях интеллектуального анализа данных термин «потенциально полезный» интерпретируется иначе: ключ к успеху состоит в том, что извлеченная информация должна быть понятной, поскольку она помогает объяснить данные. Это необходимо, когда результат предназначен для употребления человеком, а не автоматически. Этот критерий менее применим к интеллектуальному анализу текста, потому что, в отличие от интеллектуального анализа данных, сам ввод понятен. Интеллектуальный анализ текста с понятным выводом эквивалентен суммированию основных характеристик большого объема текста, который является самостоятельным подполем: итоговый текст.

Анализ текста и обработка естественного языка

Анализ текста, по-видимому, включает в себя всю автоматическую обработку естественного языка и, возможно, многое другое, в дополнение, например, к анализу структур ссылок, таких как библиографические ссылки в академической литературе и гиперссылки в веб-литературе, и то и другое. полезные источники информации, лежащие за пределами традиционной области обработки естественного языка. Но на самом деле большинство попыток интеллектуального анализа текста сознательно отвергают более глубокие и когнитивные аспекты классической обработки естественного языка в пользу более поверхностных методов, подобных тем, которые используются при практическом поиске информации.

Причину этого лучше всего понять в контексте исторического развития темы ресурсов обработки естественного языка. Корни этой области лежат в проектах машинного перевода в конце 1940-х - начале 1950-х годов, любители которых предполагали, что стратегии, основанные на дословном переводе, обеспечат достойные и полезные грубые переводы, которые можно легко преобразовать в нечто более точное., используя методы, основанные на первичном синтаксическом анализе. Но единственным результатом этих громких, хорошо финансируемых проектов стало четкое осознание естественного языка даже в пике неграмотных детей, это невероятно сложная среда, не поддающаяся упрощенным методам.Это фундаментально зависит от того, что мы считаем «здравым смыслом» знания, которое, несмотря на его естественную причину, исключительно сложно кодировать и алгоритмически использовать каждый день.

В результате этих смущающих и получивших широкую огласку неудач исследователи удалили «игрушечный мир», особенно «блочный мир» геометрических объектов, форм, цветов и наложения (операции, семантика которых ясна и ясна, можно кодировать). Но постепенно он стал успешным, Toy Worlds, хотя поначалу впечатлял, не привел к успеху реалистичных фрагментов текста. Игрушечные техники мира хорошо справляются с искусственно построенными предложениями того, что мы могли бы назвать разновидностью «Дик и Джейн» после хорошо известной серии одноименных детских рассказов. Но они терпят поражение, когда сталкиваются с реальным текстом, независимо от того, тщательно ли он построен и отредактирован или произведен в условиях реального времени (например, случайный разговор).

Между тем исследователям в других областях просто приходилось иметь дело с реальным текстом со всеми его причудами, особенностями и ошибками. Например, схемы сжатия должны хорошо работать со всеми документами, независимо от их содержимого, и избегать катастрофических сбоев, даже когда файлы с отклонениями (например, полностью случайные входные или двоичные файлы) обрабатываются скандально. Информационно-поисковые системы должны индексировать документы всех видов и позволять эффективно размещать их по любому предмету или с лингвистической точностью. Ключ к алгоритмам резюмирования и извлечения текста заключается в том, что они должны выполнять достойную работу с любым текстовым файлом. Системы и методы работы в этих областях - отдельные темы,поскольку большинство из них не зависят от языка. Они работают, обрабатывая ввод, как если бы это были данные, а не язык.

Интеллектуальный анализ текста является следствием этого образа мышления «настоящего текста». Признавая, что это, вероятно, немного, что можно сделать с неограниченным вводом, может ли способность обрабатывать большие объемы текста компенсировать относительно простые методы?

Интересно, что интеллектуальный анализ данных также возник из истории сложных взаимоотношений между дисциплинами, в данном случае машинного обучения, уходящих корнями в экспериментальную информатику, со специальными методологиями оценки и статистики, хорошо обоснованными теоретически, но основанными на к традиции проверки явно сформулированных гипотез, а не поиска новой информации. Ранние исследователи машинного обучения мало знали или мало интересовались статистикой; Первые исследователи структурированных статистических гипотез игнорировали параллельную работу в машинном обучении. В результате аналогичные методы (например, построение деревьев решений и ближайшего соседа) возникли параллельно из двух дисциплин:и только позже они сделали взвешенный подход.

Анализ настроений

Компьютеры могут хорошо работать с числами, но могут ли они преодолеть чувства?

Появление блогов и социальных сетей породило рынок вокруг личного мнения: мнений, оценок, рекомендаций и других форм выражения в сети. Для компьютерных ученых эта быстро растущая гора данных открывает заманчивое окно в коллективное сознание пользователей Интернета.

Возникающая область, известная как анализ настроений, формируется вокруг одной из неизведанных границ компьютерного мира: перевод капризов человеческих эмоций в достоверные данные.

Теория «воплощенного познания» предполагает, что различные умственные действия отражаются в состояниях тела, таких как позы, движения рук и выражения лица. Исследование изучает степень, в которой профили пользователей компьютеров - их пол, чувства и эмоциональные переживания - могут быть оценены по движениям компьютерных курсоров.

В одном эксперименте участники (N = 372) просмотрели три видеоклипа по две минуты каждый, оценили свои чувства после этого и трижды выполнили простые задания на восприятие, наша программа проследила путь курсора участников. каждые 20 миллисекунд. Была исследована степень, в которой функции, извлеченные из пути курсора, могли раскрыть профили участников. Результаты показали, что небольшое количество переменных траектории помогло определить, какой фильм смотрели участники, как они себя чувствовали во время просмотра и их пол. Предполагается, что движения курсора предоставляют обширную информацию для анализа динамического профиля пользователя.

Это более чем интересное упражнение по программированию. Для многих компаний онлайн-мнение стало своего рода виртуальной валютой, которая может создать или испортить продукт на рынке.

Тем не менее, многие компании изо всех сил пытаются разобраться в коробке с жалобами и поздравлениями, которые теперь вращаются вокруг их онлайн-продуктов. Как инструменты анализа эмоций, которые начинают обретать форму, они могут не только помочь компаниям улучшить итоговые результаты, но и со временем трансформировать опыт поиска информации в Интернете.

Несколько новых компаний, занимающихся анализом эмоций, пытаются воспользоваться растущим интересом компаний к тому, что говорится в Интернете.

«Социальные сети раньше были проектом для 25-летних консультантов, - сказала Маргарет Фрэнсис, вице-президент по продуктам Explorer Labs в Сан-Франциско. Теперь, по его словам, руководители высшего звена «признают в этом невероятно богатую жилу рыночной информации».

Scout Labs, при поддержке фирмы венчурного капитала, основанной основателем CNet Хэлси Майнором, недавно представила услугу подписки, которая позволяет клиентам отслеживать блоги, новостные статьи, онлайн-форумы и сайты социальных сетей для тенденции мнений о товарах, услугах или темах в новостях.

В начале мая StubHub использовал инструмент мониторинга Explorer Labs, чтобы выявить внезапный всплеск негативных настроений в блогах после дождя, задержавшего игру Sox Yankees-Red.

Официальный стадион ошибочно сообщил сотням фанатов, что игра была отменена, а StubHub отказал фанатам в их запросах на возмещение, утверждая, что игра действительно была сыграна. Но после обнаружения проблем с пивом в Интернете компания предложила пострадавшим фанатам скидки и кредиты. В настоящее время он пересматривает свою политику в отношении плохой погоды.

«Для нас это канарейка в угольной шахте», - сказал Джон Уилан, директор по обслуживанию клиентов StubHub.

Йоданж из Йонкерс предлагает услугу для онлайн-издателей, которая позволяет им использовать данные о мнениях из более чем 450 000 источников, включая основные источники новостей, блоги и Twitter.

Основываясь на исследовании Клэр Карди, бывшего профессора информатики Корнелла, и Яна Вибе из Университета Питтсбурга, сервис использует сложный алгоритм, который не только оценивает настроения по определенным темам, но и выявляет наиболее убежденных сторонников мнения. влиятельны.

Йоданж, в число первых инвесторов которой входит Национальный научный фонд, в настоящее время работает над новым алгоритмом, который может использовать данные о настроениях для прогнозирования будущих событий, например, для прогнозирования влияния газетных статей на стоимость акций компании.

В том же ключе Financial Times недавно представила Newssift, экспериментальную программу, которая отслеживает настроения по бизнес-темам в новостях, а также специализированную поисковую систему, которая позволяет пользователям систематизировать свои запросы по темам, организациям и т. Д. место, человек и предмет.

Недавний поиск в Wal-Mart с помощью Newssift показал, что отношение к тому, чем занимается компания, является положительным при немного лучшем соотношении два к одному. Однако, когда этот поиск уточняется предложенным термином «Сила и союзы», соотношение положительных и отрицательных чувств становится ближе к одному.

Эти инструменты могут помочь компаниям определить влияние конкретных вопросов на восприятие клиентов, помогая им реагировать с помощью соответствующих стратегий маркетинга и связей с общественностью.

Для обычных пользователей сети появляются более простые варианты анализа настроений в виде легких инструментов, таких как Tweetfeel, Twendz и Twitrratr. Эти сайты позволяют пользователям следить за пользователями Twitter по определенным темам.

Например, быстрый поиск в Tweetfeel показывает, что 77% пользователей Twitter нравится фильм «Джули и Джулия». Однако тот же поиск на Twitrratr обнаруживает пару осечек. Сайт присваивает отрицательный рейтинг твиту «Джули и Джулия были действительно прекрасны». Это же сообщение заканчивалось словами «мы все очень голодны после этого» - и система взяла слово «голодный», чтобы указать на негативное чувство.

Хотя более продвинутые алгоритмы, используемые исследовательскими лабораториями, Jodange и Newssift, используют расширенную аналитику, чтобы избежать подобных ловушек, ни один из этих сервисов не работает идеально. «Наш алгоритм имеет точность от 70 до 80 процентов», - сказал Фрэнсис, добавив, что его пользователи могут реклассифицировать неточные результаты, чтобы система училась на их ошибках.

Однако перевод скользких вещей человеческого языка в двоичные значения всегда будет несовершенной наукой. «Мнения сильно отличаются от общепринятых фактов», - сказал Сет Граймс, основатель консалтинговой фирмы Plana Alta в пригороде Мэриленда, указывая на множество культурных факторов и лингвистических нюансов, которые затрудняют преобразование написанной строки текста. в простом чувстве за или против. «Грешник, это хорошее слово применительно к шоколадному торту», - сказал он. Задача простейшего алгоритма - сканировать по ключевым словам, чтобы классифицировать утверждение как положительное или отрицательное на основе простого бинарного анализа («любовь» - хорошо, «ненависть» - плохо). Однако этот подход не может уловить тонкости, которые оживляют человеческий язык: ирония,сарказм, сленг и прочие идиомы. Для надежного анализа настроений требуется анализ многих оттенков серого в лингвистике.

«Речь идет об уверенности, которую можно выразить тонкими способами», - сказал Бо Панг, исследователь Yahoo, написавший в соавторстве «Opinion Mining и Sentiment Analysis» - одну из первых научных книг по анализу настроений.

Чтобы понять истинное намерение утверждения, Панг разработал программное обеспечение, которое анализирует несколько различных фильтров, включая полярность (положительное или отрицательное утверждение), интенсивность (какова степень выражаемой эмоции?) И субъективность. (частичная или беспристрастная форма - источник).

Например, преобладание прилагательных часто указывает на высокую степень субъективности, в то время как словесные и существительные утверждения имеют тенденцию к более нейтральной точке зрения.

По мере того, как алгоритмы анализа эмоций становятся более сложными, они должны начать давать более точные результаты, которые могут указать путь к более сложным механизмам фильтрации. Они могли бы стать частью использования Интернета каждый день.

«Я считаю, что анализ настроений становится стандартной функцией поисковых систем», - сказал Граймс, предполагая, что эти типы алгоритмов могут начать влиять как на общие цели веб-поиска, так и на более специализированные поисковые запросы в таких областях, как электронная коммерция, бронирование поездок и обзоры фильмов.

Панг представляет собой поисковую систему, которая на основе доверия детально определяет результаты для пользователей. Например, это может повлиять на порядок результатов поиска для определенных типов запросов, таких как «лучший отель в Сан-Антонио».

По мере того как поисковые системы начинают включать все больше и больше данных о мнениях в свои результаты, различие между фактами и мнениями может начать стираться до такой степени, что, как однажды сказал Дэвид Бирн, «все факты приходят с точками зрения.. »

Противоречивые чувства по поводу горнодобывающего бизнеса и манипулирование эмоциями

В очаровательном новом мультфильме «Наизнанку» в голове Райли, 11-летней девочки, встречаются персонажи, представляющие пять из шести эмоций, которые психологи охарактеризовали как универсальные.: радость, печаль, страх, гнев и отвращение. (Шестая эмоция: удивление, была опущена, возможно потому, что продюсеры, как и большинство деловых людей, ненавидят сюрпризы.) Не раскрывая спойлеров, достаточно сказать, что в Райли, как в головах. Из большинства реальных девочек ее возраста Джой представляет некоторые образы из своего разума, связанные с печалью, гневом, страхом и другими, менее симпатичными членами эмоционального круга.

В этом фильме и в таких фильмах, как «Аватар» и «История игрушек», аниматоры были вдохновлены новаторской работой психолога Пола Экмана по отображению небольших изменений в выражении лица. Вся эта информация о действиях, которые следует учитывать в фильме, была дана на основе анализа поведения и чувств людей. Но кинематографисты не единственные профессионалы, которые обращаются к Экману за вдохновением и советом. ЦРУ, TSA и другие организации, заботящиеся о безопасности, используют кодирование лиц для искоренения лжецов и злоумышленников. И рекламодатели, стремящиеся проникнуть в головы потребителей и сформировать наши решения еще до того, как мы их сделаем,Они видят удачу в коммерциализации функциональных аппаратов магнитно-резонансной томографии и в обнаружении камерой наших маленьких улыбок, гримас и движений глаз. Они пытаются проверить, как реклама заставляет нас чувствовать себя, микросекунду за микросекундой, чтобы убедиться, что эмоциональные барьеры на пути их сообщения сведены к минимуму, а радость или другой эмоциональный стимул, который она порождает, максимальны.

Все решения, которые компании принимают сегодня, основаны на большой базе данных, которую они заполняют, наблюдая за каждым человеком. Причина, по которой они предлагают определенные типы продуктов, заключается в простоте, которую она предоставляет этим компаниям. сентимент майнинг.

Интернет становится все более важной частью нашей жизни. Интернет-пользователи делятся информацией и мнениями в социальных сетях, где легко выражают свои чувства, суждения, личные эмоции. Методы интеллектуального анализа текста и информации позволяют нам изучить всю эту информацию и узнать, какие мнения, утверждения или утверждения высказывают авторы.

Таким образом, интеллектуальный анализ в области сбора данных служит для определения того, какой тип информации ищут пользователи, упрощения использования больших объемов информации, текстов, классификации характеристик, определения предпочтений клиентов компании. Все это с целью согласия заинтересованной стороны. Как правило, компании собирают всю подобную информацию, чтобы знать, какие продукты или услуги представить клиенту, как они отреагируют, в чем они будут заинтересованы.

С другой стороны, классификация информации стала большим подспорьем для людей, которые обрабатывают большие объемы данных, благодаря все более быстрым системам обработки этих данных.

Ссылки:

Практический анализ данных, инструменты и методы машинного обучения с реализациями Java (2000 г.). Ян Х. Виттен, Эйбе Франк. От редакции Морган Кауфманн «Восприятие» на основе интеллектуального анализа данных и принятия решений в области экономики и финансов (2007). Ильдар Батыршин, Леонид Шереметов, Лофти А. Заде. Редакция иллюстрированных решений и действий нейронных корреляций, текущее мнение в нейробиологии (2010). Б. Они будут весить.

Скачать оригинальный файл