Как количественно анализировать качественные данные

АНАЛИЗ КАЧЕСТВЕННЫХ ДАННЫХ

Методы качественного анализа данных, применяемые к исследованиям рынка и общественного мнения, или к исследованиям институциональных и маркетинговых коммуникаций, на протяжении десятилетий дают ценную информацию о структуре, измерениях и значениях дискурса потребителей, пользователей и потребителей. граждане или получатели средств массовой информации, уважение к социальному, политическому или покупательскому поведению, имиджу корпоративных брендов или потреблению средств массовой информации.

Это был и является необходимым этапом в исследовании проблем коммуникации, маркетинга или общественного мнения, которые требуют предварительного исследовательско-качественного исследования. Прежде чем описывать это необходимо изучить.

Качественный этап неструктурированных исследований охватывает следующие общие цели:

Знайте стихийный дискурс группы для исследования в отношении знаний, идентификации продукта или бренда, а также воображаемых и символических осей, по которым они спонтанно позиционируют, исходя из собственного мышления и ощущения, мнения о конкретном продукте или услуге Знать стихийный дискурс исследуемой группы относительно ожиданий, требований, мнений в целом, а также степени удовлетворенности и уровня информации об объекте или продукте.

Эти дискурсы - индивидуальные или групповые - представляют собой качественные данные, выраженные в форме словесных строк ('string' = string) или лингвистических фраз.

Эти материалы («дословно») можно не только анализировать, интерпретировать и моделировать на основе качественных теоретических основ (психологических, психоаналитических, психосоциальных, антропологических, культурных, лингвистических, семиологических или риторических и т. Д.), Но и дополнять их анализом. Статистический в качественном исследовании.

СТАТИСТИЧЕСКИЙ АНАЛИЗ КАЧЕСТВЕННЫХ ДАННЫХ

Записанные данные - напечатанные, рукописные или не классифицированные - в форме заметок, сделанных во время наблюдения, бесплатных ответов на открытые вопросы, стенограммы индивидуальных интервью или групповых обсуждений, книг, газетных статей и т. Д. они могут быть обработаны путем количественной обработки качественного.

Этот подход не нов для исследования рынка. Стандартная интерпретирующая процедура, которая предоставляется как для открытых вопросов, так и для анализа содержания, включает: сокращение данных, выбор ключевых слов, группирование предложений по измерениям, редактирование исчерпывающих категорий, кодирование категорий. Но анализ преобразуется в количественную оценку числовых кодов, подсчет кодов и получение частотных распределений; независимо от структуры и значимости содержания категорий.

Традиционной процедурой количественной оценки качественных данных является категоризация, кодирование и табулирование. Таким образом, текстовые данные сводятся к обработке и анализу числовых данных. Частота кодов более интересна, чем содержание категорий.

Лексикометрический подход и текстовая статистика

Лексикометрические или текстовые статистические подходы поддерживаются статистическими методами, разработанными Французской школой анализа данных (Analyze des Données) (Benzécri, JP 1973, 1976).

Статистический анализ текстовых данных (ADT) относится к процедурам, которые включают подсчет вхождений основных словесных единиц (обычно слов) и проведение статистического анализа некоторого типа на основе результатов таких подсчетов. Количественная оценка текстов используется с первого момента, без предварительных операций кодирования.

Развитие текстовых статистических методов привело к тому, что статистический анализ текстов стал междисциплинарным инструментом, состоящим из: статистики, дискурс-анализа, лингвистики, информатики, обработки опросов, документальных исследований; и он все чаще используется в различных областях социальных наук: история, политика, экономика, социология, психология и т. д. А именно при анализе социальных дискурсов в исследовании потребителей, гражданина и вообще субъекта СМИ.

Методы анализа данных, разработанные благодаря вкладам Жана Пауля Бенцери, позволили проводить анализ больших матриц данных, применять Факториальный анализ к таблицам сопряженности n (строк) xp (столбцов) из больших расширенных матриц данных. и отображение результатов на карте восприятия.

МЕТОДОЛОГИЯ АНАЛИЗА ТЕХНИЧЕСКИХ ДАННЫХ

СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВЫХ ДАННЫХ (ADT)

Подготовка лексикометрических документов

Определение процедур, связанных со сбором и очисткой данных для правильной записи текстовых данных. Во-первых, корпус (компоненты корпуса: повествования, газетные статьи, отчеты, записи интервью и групп, бесплатные ответы на открытые вопросы и социально-демографические, социально-экономические, поведенческие переменные, которые типизируют или сегментируют интервью или группы, переменные, которые действуют как предикторы - независимая переменная - переменной, зависящей от критерия -) Изучение статистических единиц (форм, слоганов, сегментов), которые алгоритмы текстового анализа распознают в собранных данных, и идентификация статистически значимых предложений,Подготовка лексикометрических документов включает в себя второй этап сегментирования текста на единицы. Сегментация текстового корпуса включает в себя различение элементарных единиц: графической формы (последовательность букв между двумя пробелами), девиза (все слова, имеющие одинаковый корень и эквивалентное значение, то есть семейство слов) повторяющиеся сегменты (последовательность из двух или более слов, которые встречаются в корпусе текстовых данных более одного раза), квази-сегменты (слова, встречающиеся в определенной последовательности, но имеющие различие в поле или числе). словарный запас: частота повторяющихся сегментов. Как только тексты сегментированы, третьим шагом является создание словарного запаса текста.Это представлено в лексикометрической таблице порядка, где показаны идентификационный номер каждого слова, слово корпуса глоссария, частота появления и длина единицы измерения в количестве символов. Многофакторный анализ текстовых данных. Четвертый шаг - применение анализа фактора соответствия (AFC) в лексикографических таблицах или автоматической классификации (восходящая иерархическая классификация) лексических форм и текстов. Идентификация ответов и / или модальных фраз, объединяющая результаты текстового анализа с социодемографические и поведенческие переменные, типология отдельных лиц или групп получается из ответов и текстов. Визуализация результатов многомерного анализа.Позиционирование репрезентации лексикографического корпуса с использованием карт предвосхищения. Прогнозирование переменных объекта исследования (мнения, отношения, предрасположенности, имиджевый профиль и т. Д.) Из текста.

Текстовая статистика в пакете SPAD.T

Пакет программ SPAD.T (Système Portable для L'Analyse des Donees Textuelle) специально разработан для статистического анализа текстовых данных. Мы считаем, что среди существующего на рынке программного обеспечения этот программный пакет является наиболее полным продуктом и имеет наибольшее распространение среди специалистов по анализу текстовой статистики (ADT).

Операционные этапы обработки текстовых данных следующие:

Обработка текстовых данных осуществляется путем ввода текстовых данных на магнитные носители (дискеты или компакт-диски) в формате.doc или.txt (с использованием текстовых процессоров типа MS Word). Файлы имеют предыдущую редакцию (редакция и исправление) в соответствии с точными инструкциями директора проекта ADT. Записи «вербатинов» групповых обсуждений или записи отдельных интервью являются текстовыми стенограммами наиболее значимых параграфов выступлений участников «фокус-групп». или отдельных респондентов.Руководящие принципы для групп или собеседований составлены таким образом, что каждый шаблон исследования может быть идентифицирован численно, чтобы при регистрации основной группы или отдельных чрезвычайных ситуаций каждый шаблон был точно идентифицирован. Область качественной обработки данных, а) пункты Руководящих принципов и б) основные критерии организации дискурсов, чтобы лучше концептуализировать идентификацию факторов, которые производит Анализ факторов соответствия, и облегчить их визуализацию в Карты позиционирования: из выходов SPAD-T (просто SPAD), как из таблиц, так и графиков карт позиционирования,Анализ данных проводится на основе целей расследования для целей получения всей найденной информации в итоговом отчете.

КАЧЕСТВЕННЫЙ АНАЛИЗ ТЕКСТОВЫХ ДАННЫХ

Существуют другие программы, которые облегчают задачу ввода, организации и анализа текстовых данных, но не используют многомерные статистические процедуры для анализа данных (DataMining), такие как SPAD-T, STATISTICA Text Miner, DB2 Intelligent Miner for Text и т. Д.

Одной из наиболее известных является программа QSR NUD * IST (поиск и теоретизирование нечисловых неструктурированных данных).

QSR NUD * IST NVivo Nvivo - это качественное программное обеспечение для обработки данных, включая текст, изображения, звуки и видео. Это позволяет вам кодировать, извлекать, комментировать и искать тексты. У него нет предопределенных минимальных текстовых единиц. При желании аналитик может закодировать один символ. Принимает форматированный текст (в формате RTF) с различными типами шрифтов, размеров и цветов. Первичные документы могут быть связаны посредством гиперссылок друг с другом и с помощью заметок, а также с помощью битов данных (изображения, аудио, видеофайлы, электронные таблицы, базы данных, графика и т. Д.) Для просмотра, который требуется для соответствующего внешнего средства просмотра., Генерация отчетов в формате ASCII, в формате RTF или в HTML.

Записки являются самостоятельными документами, поэтому их также можно редактировать, кодировать и связывать, как первичные документы. Он может быть закодирован с использованием техники перетаскивания. Также из панели быстрого кодирования, где находятся последние использованные коды. Это позволяет создавать новые коды (узлы) простым нажатием на слово в первичном документе. Вы можете отобразить коды, примененные к тексту, в виде серии разноцветных маргинальных скобок, которые прокручиваются вместе с текстом. Это позволяет автоматически предварительно кодировать документы на основе их структуры в разделах, подразделах и заголовках.

Вы можете определить наборы документов (наборы), перетаскивая их, назначая им свойства и обрабатывая их вместе.

Выполняет текстовый поиск по символьным строкам и шаблонам символов, а также по регионам, закодированным широким диапазоном операторов. Автоматически кодировать результаты.

Он включает в себя Modeler и Model Explorer, который позволяет создавать полноцветные графические представления о взаимосвязях между данными и нашими идеями. Даже модели отношений между различными моделями могут быть сделаны. Вы можете сразу перейти от графического объекта к любому из составляющих его объектов, пока не дойдете до текста основного документа или наших собственных аннотаций.

Позволяет печатать отчеты обо всех объектах в файлах ASCII или RTF и сохранять или распечатывать модели в виде растровых изображений. Он генерирует таблицы с различными типами количественной информации, экспортируемой в SPSS для дальнейшей статистической обработки, и может импортировать данные из SPSS или из любой другой программы, использующей таблицы.

Узел или их группа может быть экспортирована в Decision Explorer для дальнейшего анализа.

Он имеет инструменты для облегчения совместной работы и работы в сети, управления паролями и уровнями доступа.

Вы можете создавать самовыполняющиеся копии только для чтения, чтобы безопасно делиться своими данными с третьими лицами, не допуская их изменения без разрешения.

Чтобы увидеть презентацию PowerPoint о NUD * IST, вы можете посетить:

Другой программой для анализа качественных текстовых данных, например, является ATLAS / ti-Качественный анализ текстовых данных:

Atlas / ti принадлежит к семейству программ качественных исследований или

анализа качественных данных (в которых мы также найдем NUD * IST, среди нескольких десятков других). В последние годы они стали использоваться в разных дисциплинах: социология, антропология, психология, педагогика.

Хотя существуют документальные базы данных - системы управления реляционными базами данных - такие как Micro ISIS или последняя версия Win ISIS, разработанная ЮНЕСКО.

ATRLAS / Ti - это больше, чем просто хранилище данных и легкий доступ позже. В случае Atlas / ti локализация и восстановление данных происходит без проблем. Но у него есть дополнительное преимущество, заключающееся в том, что он предоставляет целый ряд инструментов для переплетения отношений между самыми различными элементами данных, чтобы сделать интерпретации явными и иметь возможность в определенный момент «вызывать» все элементы, которые могут поддерживать такие или какой аргумент или вывод. Последнее может быть особенно ценным, когда приходит время писать, сообщать результаты другим.

Как исходные данные, так и отношения, которые создаются между ними, составляют знания. Здесь знание рассматривается в контексте исследования как сумма наших данных в тот момент, когда на них накладывается структура отношений, ассоциаций, ориентированных на цель. Эта цель может быть исследование, чтобы улучшить обслуживание клиентов компании, докторскую диссертацию, управление каталогом частей и компонентов, которые должны иметь дело со сложными отношениями, расследованиями для раскрытия преступления… или любой вопрос, по которому мы намерены углубить и расширить то, что мы знаем.

Внешний вид этой программы напоминает текстовый процессор.

ATLAS / ti - это компьютерный инструмент, целью которого является содействие качественному анализу, главным образом, больших объемов текстовых данных.

Он сосредоточен на качественном анализе, он не предназначен для автоматизации процесса анализа, а просто для того, чтобы помочь человеческому переводчику значительно ускорить многие виды деятельности, связанные с анализом текстов и их интерпретацией.

Например, сегментация текста в отрывках или цитатах, кодирование, написание комментариев или аннотаций.

Все эти действия относятся к текстовому уровню, на котором работает программа. Но он дополняется концептуальным уровнем, таким как установление связей между элементами и разработка моделей посредством графического представления.

Для ознакомительной презентации программы качественного анализа текстовых данных вы можете посетить веб-сайт:

СТАТИСТИКО-МЕТОДОЛОГИЧЕСКОЕ ПРИЛОЖЕНИЕ

Применение факторного анализа (AF) в области ADT, в основном, сосредоточено на факториальном анализе соответствий (AFC), статистическом алгоритме, разработанном Жаном Пау Бенцери (1973, 1976).

Это описательный (не объяснительный) метод, который классифицируется среди многомерных методов взаимозависимости и позволяет визуализировать данные (которые могут быть качественными или количественными) путем представления облака точек в пространстве уменьшенных измерений, в зависимости от геометрические расстояния между точками.

Процесс анализа проводится в четыре этапа:

Он основан на наборе характеристик типизации (атрибуты или семантические элементы) продукта и другого набора брендов этого родового продукта. Оценки представляются типизации группой лиц на основе характеристик, взятых в форме семантических шкал.В качестве основы для значений, приведенных к различной семантике для каждого предложенного знака, строится входная матрица. В строках расположены оцененные метки (Object = O j), в колонках - атрибуты или признаки (Criteria = C i), а в ячейках или полях - частота присвоения (nij) признаков меткам. Используемый алгоритм расчета объясняет каждый из двух наборов (метки и атрибуты) по отношению к другому, поскольку между полученными факторами существуют простые отношения,и он достигает графического представления, которое позволяет визуализировать отношения близости (посредством расстояний в представлении) следующим образом:
- Каждый элемент набора столбцов (пометка) с другими элементами столбца Каждый элемент набора столбцов (атрибуты) с другими элементами строки Каждый элемент набора столбцов (атрибут) с каждым элементом набора столбцов (пометка).
Анализ факторного соответствия (AFC) выполняется сначала между строками (атрибутами), а затем между столбцами (отметками), объединяя оба анализа, поскольку данные идентичны как в том случае, если они считываются по строкам, так и в соответствии с колонны. Следовательно, между анализом строк и столбцов матрицы входных данных существует двойственность, поэтому плоскость наилучшего приближения в обоих случаях одинакова. И центр тяжести или, прежде всего, инерция факторов, взятых из линий, совпадает с центром тяжести факторов, взятых из столбцов.

В результате всего процесса получается карта позиционирования между всеми атрибутами, рассмотренными в двух обработанных наборах (переменные строки и переменные столбца).

В результате получается единый однородный набор, который включает в себя все элементы матрицы.

Случай применения ADT с SPAD-T можно увидеть в Moscoloni, N и Satriano, C. (2000)

Таким образом, и в заключение, таким образом, можно получить синтетическое представление рассмотренных атрибутов набора и проанализированных брендов по основным осям их дифференциации.

Проекция на плоскость отдельных точек, составляющих атрибуты продукта, позволит нам интерпретировать значимость полученных осей факторов.

AFC - это недавно разработанный метод взаимозависимости, который облегчает как уменьшение размеров классификации объектов (бренды, компании, люди, слова, фразы, тексты и т. Д.) По набору атрибутов, так и карту восприятия объектов, связанных с этими атрибутами.

Исследователи постоянно сталкиваются с необходимостью «количественной оценки качественных данных», которые они находят в номинальных переменных. AFC корректирует как неметрические, так и нелинейные данные.

В своей основной форме AFC использует таблицу сопряженности, которая представляет собой перекрестную таблицу двух категориальных переменных. Затем он преобразует неметрические данные в метрический уровень и выполняет уменьшение размеров и карту восприятия.

AFC обеспечивает многомерное представление взаимозависимости неметрических данных, которое невозможно выполнить другими многомерными методами.

LINKOTECA ПО ПРОГРАММНОМУ ОБЕСПЕЧЕНИЮ, КАСАЮЩЕМУСЯ КАЧЕСТВЕННОГО АНАЛИЗА И СТАТИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ (ADT)

Сайт о программном обеспечении ADT (Список предоставлен Lic. Ana Feldman, Buenos Aires, Argentina): TALTAC: www.taltac.it; CORDIAL: www.synapse-fre.com; Другие программы: LEXICO (Франция), INTEX, ТЕМА РЕДАКТОР, ALCESTE М. Рейнерта, STELLA (поисковая система, в которой используется теория текстовых объектов), SATIM, HYPERBASE, ETIENE: [email protected]; SPHINXSpanish Behavioral Sciences Methodology Association> Программное обеспечение, редакции и журналы: SPAD Home Version версии 5.5. Издательство SOLARI, Программное обеспечение для качественного анализа: Sphinx Development UK. Программа количественного и качественного анализа числовых и текстовых данных: SphinxSurvey Version 4.0: http://www.sphinxdevelopment.co.uk/Products_sphinx.htmA Анализ антропологии и качественных данных, Пабло Густаво Родригес, домашняя страница: http: // www. качественный анализ.com.ar /> Программное обеспечение для анализа качественных данных StatSoft, Inc. Программа DataMining для текстовых данных: STATISTICA Text Miner: IBM, Inc. DB2 Intelligent Miner for Text: ATLAS / ti: Качественный анализ текстовых данных: QSR-Qualitative Solution for Resercher, Inc. Программное обеспечение для качественного анализа: QSR NUD * IST NVivo Версия 2.0 (последняя версия NUD * IST): слайды с презентациями по QSR NUD * IST NVivo: http://www.analisiscualitativo.com.ar/n4index.htmПрезентационные слайды по QSR NUD * IST NVivo: http://www.analisiscualitativo.com.ar/n4index.htmПрезентационные слайды по QSR NUD * IST NVivo:

ПРИМЕЧАНИЕ. Чтобы поделиться своими соображениями по поводу этих ключевых понятий и узнать, какие ресурсы вам необходимы для их применения в вашем конкретном случае, посетите:

СПРАВОЧНАЯ БИБЛИОГРАФИЯ

Lebart, Ludovic, Morineau, Alain and Bécue, Mónica (1989): Système Portable для Аналитических текстов Донни. СПАД-Т. Manuel de l'utilisateur. CISIA, Paris, 1989 Lebart, Ludovic and Salem, André (1994): Statistique Textuelle. Dunod, Paris, 1994. JADT90 (1990): Акты «Jornades Internacionals d'Anālisi de Dades Textuals», JADT90, Барселона 1990, Служба публикаций UPC. Bécue, Lebart, Rajadell ed.JADT93 (1993): Материалы «Международной статистической конференции по анализу текстов в Донне», JADT93, Монпелье 1993, Telecom, Paris S.HJ. Anastex ed. Benzécri, Jean Paul (1988): «Качество и количество в традиции философов и в анализе данных», Les Cahiers de l'Analyse des Données, XIII (I): 131-152. Перевод Норы Москолони, Институт исследований в области образования IRICE-Росарио, 1993, Benzécri,Жан Поль (1973, 1976): L'Analyse des Données, Том I: La Taxinomie, 1973; Том II: L 'Analyze des Correspondances, Paris, Dunod, 2de, Éd. 1976. Etxeberría, Juan, et. к. (1995): Анализ данных и текстов: Мадрид, Редакция Ра-Ма, 1995. Лебарт, Людовик; Салем, Андре и Бекью, Моника (2000): Статистический анализ текстов: Редакция Миленио, Мадрид, 2000. Бек, Моника (1991): Анализ текстовых данных, CISIA-, Paris, 1991Берельсон, Бернард (1952): Анализ содержания в исследование коммуникаций: New Cork, III, Universite Press, Hafner Publications & Co, 1971 Pecheux, Michel (1969): на пути к автоматическому анализу дискурса: Мадрид, редакция Gredos, 1969 Бардин, Лоуренс (1977): контент-анализ: Мадрид, Акал, 1986. Kientz, Albert (1971): для анализа средств массовой информации. Анализ содержания: Валенсия, редактор Фернандо Торрес, 1976 год. Delgado,Хуан Мануэль и Гутьеррес, Хуан (1995): Методы и качественные методы исследований в области социальных наук: Мадрид, редакционная статья, 1998. Галиндо, Касерес (1998): Методы исследований в обществе, культуре и коммуникации: Мексика, Аддисон Усли Лонгман, 1999. Солер, Peré (1991): Мотивационные исследования в области маркетинга и рекламы: Ediciones Deusto, Bilbao, 1991. Moscoloni, Nora и Satriano Cecilia Raquel (2000): «Важность текстового анализа как инструмента дискурсивного анализа. Применение в расследовании об отказе от лечения у наркоманов », в электронном журнале« Cinta de Moebio », № 9, ноябрь 2000 г., факультет социальных наук, Университет Чили, в; 24 стр. Москолони, Нора (2000): «Характеристики многомерного анализа данных»,статья в «Конференции по введению в анализ многомерных данных», (25 августа 2000 г.), UNTREF-Национальный университет Tres de Febrero, Аргентина, Буклет 1, Серия: Анализ многомерных данных, стр. 5-19.PIAD - междисциплинарная программа анализа данных, многомерного анализа данных (AMD) и интеллектуального анализа данных (AID), Национальный университет Росарио, Аргентина: