Logo ru.artbmxmagazine.com

Теория статистических выборок работ

Anonim

Фундаментальная часть проведения любого статистического исследования - получение надежных и применимых результатов.

Как уже упоминалось, практически невозможно или нецелесообразно проводить некоторые исследования на всей популяции, поэтому решение состоит в том, чтобы провести исследование на основе подмножества этой так называемой выборки.

Теория-из-работы-образцы

Однако для того, чтобы исследования имели искомую достоверность и надежность, необходимо, чтобы такое подмножество данных или выборка обладали некоторыми специфическими характеристиками, которые позволяют, в конечном итоге, обобщить результаты для всей совокупности. Эти характеристики в основном связаны с размером выборки и способом ее получения.

Мы обсудим это в следующих разделах этого раздела.

РАЗДЕЛ 1. ТЕОРИЯ ОБРАЗЦОВ

В этой главе кратко излагается теория статистической выборки, которая рассматривает концепцию изучения неизвестной совокупности путем взятия выборок и их изучения, позволяющего делать выводы обо всей совокупности. Во-первых, анализируется случай простой и стратифицированной случайной выборки, демонстрирующей обработку таблицы случайных чисел. Затем в выборке рассматриваются неслучайные типы и обсуждаются преимущества и недостатки каждого из методов. Объясняются методы, используемые в биохимии для обеспечения того, чтобы образцы, взятые у пациентов, соответствовали требованиям случайности, даже если это приблизительно. То же самое для фармацевтической промышленности и для моделирования в маркетинговых образцах, используемых в обычной торговле.Таким образом, чтобы впоследствии применить статистические модели, требующие такого требования. В таблице 3 раздела таблиц представлена ​​случайная таблица, более известная как «Случайные числа».

2. ВАЖНОСТЬ ОТБОРА ПРОБ

На протяжении всего курса используются два типа рассуждений: дедуктивное и индуктивное. Первый напрямую связан с теорией вероятностей, которая рассматривается в блоке 4, и что из характеристик совокупности получаются возможные характеристики выборки. Второй тип рассуждений связан с так называемым статистическим выводом: использование характеристик подмножества совокупности (выборки) для того, чтобы делать утверждения (делать выводы) о совокупности в целом. Так будет и с этим устройством.

Выборка, как уже упоминалось, подразумевает некоторую неопределенность, которую необходимо принять для выполнения работы, потому что помимо того факта, что изучение популяции оказывается иногда слишком большой работой, Воннакотт и Воннакотт предлагают следующие дополнительные причины:

  • Ограниченные ресурсы. Другими словами, нет человеческих, материальных или экономических ресурсов для проведения исследования всего населения. Это похоже на то, как когда вы покупаете устройство, подержанный автомобиль (например), вы проверяете в течение нескольких минут (зажигание, небольшой пробег и т. Д.), Чтобы убедиться, что оно работает правильно, а затем вы его покупаете, но вы не ждете, чтобы протестировать его всю свою жизнь. (включив и выключив или просто оставив включенным) перед покупкой. недобор, Это тот случай, когда доступен только один образец. Например, для палеонтологического изучения динозавров (например, T. Rex) было бы очень хорошо иметь хотя бы много ископаемых останков и, таким образом, проводить такие исследования; однако в мире существует только дюжина окаменелых скелетов (почти все неполные) этих существ. Разрушающее тестирование. Это тот случай, когда проведение исследования всей популяции привело бы к уничтожению самой популяции. Например, если вы хотите узнать точное количество гемоглобина у человека, вам придется взять всю кровь. Отбор проб может быть более точным, Это в том случае, когда исследование всего населения может вызвать ошибки из-за своего размера, или, в случае переписи, необходимо использовать недостаточно обученный персонал; в то время как, с другой стороны, исследование выборки может проводиться меньшим, но более подготовленным персоналом.

Поскольку мы упомянули о необходимости проведения выборок, мы продолжим с некоторыми характеристиками, которые они должны иметь, чтобы на самом деле можно было сделать выводы (индукции) по ним в отношении всей совокупности.

3. РАЗМЕР ОБРАЗЦОВ

Чтобы рассчитать размер выборки, необходимо учитывать три фактора:

  1. Процент уверенности, с которой вы хотите обобщить данные из выборки для генеральной совокупности. Процент ошибки, который вы хотите принять при генерализации. Уровень изменчивости, который рассчитывается для проверки гипотезы.
    • Доверие или уверенность процент процент уверенности, что существует обобщить полученные результаты. Это означает, что процент в 100% эквивалентен утверждению, что нет никаких сомнений в том, чтобы обобщать такие результаты, но также подразумевает изучение всех случаев в популяции.

Чтобы избежать очень высокой стоимости исследования или потому, что иногда становится практически невозможно изучить все случаи, требуется более низкий процент достоверности. Обычно в социальных исследованиях ищется 95%.

  • Ошибка или процент ошибки эквивалентно выбору вероятность принятия гипотезы, что является ложным, как если бы это было правдой, или обратное: отвергая истинную гипотезу, потому что считается ложным. Как и в случае уверенности, если вы хотите исключить риск ошибки и рассматривать его как 0%, тогда размер выборки такой же, как и у генеральной совокупности, поэтому вы должны подвергнуться определенному риску ошибиться.

Обычно считается ошибкой от 4% до 6%, учитывая, что доверие и ошибка не дополняют друг друга.

  • Вариабельность вероятность (или процент), с которым оно было принято, и гипотеза будет исследовано в предыдущем исследовании или предварительный тест на текущие исследования было отклонено. Процент, с которым эта гипотеза была принята, называется положительной изменчивостью и обозначается p, а процент, с которым гипотеза была отклонена, - отрицательной изменчивостью, обозначаемой q.

Считаем, что p и q дополняют друг друга, то есть их сумма равна единице: p + q = 1. Кроме того, когда речь идет о максимальной изменчивости, в случае отсутствия антецедентов в исследовании (нет других или предыдущий тест не может быть применен), тогда значения изменчивости равны p = q = 0,5.

После определения этих трех факторов размер выборки можно рассчитать следующим образом.

Говоря о популяции около 10 000 случаев, или минимально этой сумме, мы можем подумать о том, как рассчитать размер выборки с помощью следующих формул. Следует отметить, что эти формулы можно применять приемлемым образом, думая об инструментах, которые не включают открытые вопросы, а их всего около 30.

Мы собираемся представить две формулы, первая из которых применяется в случае, если размер популяции точно не известен, и она:

Куда:

4.5 Систематический

Он аналогичен предыдущему, хотя выбор элементов более удобный. Если нам нужно выбрать 40 элементов из группы из 600, мы начинаем с вычисления отношения 600/40, которое говорит нам, что есть 40 групп из 15 элементов среди 600. Выходной элемент выбирается из первых 15 и предполагает, что это k-й, остальные элементы будут k-м в каждой группе. В частности, если начальным элементом является число 6, остальные будут с числами: 15 + 6, 2 × 15 + 6, ……, 39 × 15 + 6

Эта процедура значительно упрощает выбор элементов, но может испортить репрезентативность выборки, если элементы были пронумерованы по определенному критерию, и все k-е имеют определенную характеристику, что делает форму выборки нерепрезентативной., 4.6 Стратифицированный

Иногда нас интересует, когда популяции очень большие, разделить их на субпопуляции или страты без общих элементов, которые охватывают все население.

Как только это будет сделано, мы можем выбрать простой случайной выборкой из каждой страты количество элементов, равное или пропорциональное размеру страты.

Эта процедура имеет большое преимущество в том, что может быть получена большая точность в неоднородных популяциях (хотя в этом курсе мы не будем изучать необходимые методы).

Если бы мы решили провести исследование заболеваемости табаком в нашем центре, мы могли бы рассуждать следующим образом:

В нашем центре обучаются 2000 студентов: 720 на 3-м курсе ESO, 700 на 4-м курсе ESO, 340 на 1-м курсе бакалавриата и 240 на 2-м году средней школы.

Если мы хотим взять выборку из 100 студентов, чтобы проанализировать распространенность табака в подростковом возрасте, было бы достаточно взять равное количество студентов из каждой страты, то есть 25.

Однако, если вы хотите провести опрос, чтобы узнать мнение учащихся о мерах, принятых школьным советом, более представительным будет выбор из каждой группы, и в количестве, пропорциональном ее размеру, элементы, которые будут составлять пример. Если 3-й год ESO представляет 36% студентов, 36% выборки (то есть 36 студентов) будут выбраны из этой страты путем простой случайной выборки, 35 - для 4-го года ESO и так далее, пока не будут заполнены 100 элементов выборки.

  1. ОБРАЗЕЦ С ПЕРЕМЕЩЕНИЕМ И БЕЗ РАЗМЕЩЕНИЯ

Если мы берем число из урны, мы можем вернуть их в нее или нет, до следующего извлечения. В первом случае это число может повторяться несколько раз, а во втором - каждое число может встречаться один раз. Эти два типа образцов называются соответственно Образцами с заменой и Образцом без замены.

Популяции конечны или бесконечны. Если, например, мы извлекаем 10 шаров подряд без замены из урны, содержащей 100 шаров, мы берем конечную выборку населения; тогда как если мы подбросим монетку 50 раз, мы посчитаем количество орлов, мы столкнемся с бесконечной выборкой населения.

Конечная совокупность, в которой выполняется выборка с заменой, теоретически может считаться бесконечной, поскольку она может брать любое количество выборок, не исчерпывая ее. Для многих практических целей очень большую популяцию можно рассматривать как бесконечную.

  1. ВЕРОЯТНОСТНЫЕ РАСПРЕДЕЛЕНИЯ В ВЫБОРКЕ

Также называется выборочным распределением любого статистика, полученным с помощью выборки. Идея заключается в следующем: если взяты k выборок, все возможные выборки размера n (с заменой или без нее) из совокупности размера NP, и каждая выборка рассчитывается как электронная статистика (среднее значение, медиана, дисперсия и т. Д.), получается серия из k значений: e1, e2, e3,…, ek

Эти значения можно сгруппировать с помощью частотной гистограммы, чтобы оценить форму их распределения. Эта ситуация показана на рисунке 10.1:

Рисунок 6.1. Примеры распределений.

численность населения

Из любой популяции отбирается k выборок; каждый из них позволяет вычислить k статиграфов, с помощью которых можно построить гистограмму, подобную той, которая показана справа на рис. 10.1. Видно, что эта гистограмма приобретает колоколообразную форму при сглаживании ступеней при уменьшении интервалов.

Эта кривая, полученная из выборочных данных, наблюдаемых посредством выборки, асимптотически стремится к другой теоретической кривой при увеличении k, и интервалы становятся бесконечно малыми.

Эта теоретическая кривая является функцией Гаусса согласно Центральной предельной теореме, главной в статистике.

Центральная предельная теорема позволяет установить, что в очень общих условиях, если выборка достаточно велика, теоретическое распределение полученных значений k приближенно является функцией Гаусса. Это основа теории большой выборки. Основные выборочные распределения - это гауссовские функции, однозначно идентифицируемые с их двумя параметрами μ и SE. В таблице 10.1 эти два значения представлены для каждой из наиболее распространенных статистических данных. В первом столбце таблицы указан каждый статистик, во втором столбце дана формула для расчета стандартной ошибки оценки SE. Наконец, третий столбец показывает точечную оценку для получения ожидаемого значения статистики μe,с пояснениями относительно размера выборки, необходимого для того, чтобы такая оценка считалась приемлемой.

  1. ОБРАЗЕЦ РАСПРЕДЕЛЕНИЯ СРЕДНЕЙ

Если выбранная статистика является средним значением, у нас будут выборочные средние.X1,.X2,.X 3,…,.Xk; они обычно распределяются, если k очень велико. На практике достаточно 30 или более значений.

Теоретически, когда k → ∞, то выборочное распределение среднего является асимптотически нормальным и будет совпадать с функцией Гаусса. Это распределение будет иметь ожидаемое значение и дисперсию, что позволит оценить соответствующие значения совокупности. То есть, μ x = μ σ2 x = σ 2 / n = SE2 (x) = VAR (x)

Таблица 7.1. Стандартные ошибки для некоторых выборочных распределений

То есть: среднее арифметическое полученных k средних выборочных значений приблизительно равно среднему значению генеральной совокупности (или истинному значению). Однако это приближение имеет ошибку оценки, называемую типичной ошибкой или стандартной ошибкой оценки, которая в случае среднего

есть: σ x. В клинической литературе чаще всего используется номенклатура SE (x). В таблице 10.1 показаны предыдущие значения для случая среднего арифметического.

Предыдущие соотношения действительны только в том случае, если совокупность бесконечна или конечна, но выборка выполняется с заменой. В противном случае, когда совокупность конечна и пробы отбираются без замены, эти отношения должны быть скорректированы с помощью:

μ x = μ σ2 x = (σ 2 / n) = SE2 (x) = VAR (x)

В Таблице 10.1 ниже представлена ​​прикладная проблема для случая, когда известна вся совокупность, параметры популяции рассчитываются непосредственно с применением формул, приведенных в теме 4, что дает: μ = 4,5 и σ 2 = 1,25., Вышеуказанные отношения можно проверить двумя способами. В первом берутся шесть возможных выборок размера 2 для выборки без замены. Для каждой выборки вычисляется соответствующее среднее значение, затем с помощью этих 6 средних можно вычислить: среднее значение и дисперсию этих шести выборок. Теперь среднее всех средних значений выборки в точности равно среднему значению совокупности, а дисперсия средних значений выборки подтверждает предыдущую взаимосвязь, если применяется поправочный коэффициент для выборок конечного размера.Второй способ (процедура Bootstrap) - это взятие выборок с заменой. Сначала берутся все 16 возможных выборок с заменой размера 2. Затем для шестнадцати выборок вычисляются 16 соответствующих средних. Наконец, вычисляется среднее значение и дисперсия этих 16 значений, снова проверяя отношения, показанные выше, в случае выборок с заменой. Для другой проблемы предполагается, что значения генеральной совокупности известны, и, взяв 50 выборок размера 3, необходимо определить количество случаев, когда результат попадает в интервал (6; 7,796). Чтобы продолжить, сначала нужно вычислить вероятности получения этих предельных результатов, а затем вычислить разность.Для шестнадцати выборок вычисляются 16 соответствующих средних. Наконец, вычисляется среднее значение и дисперсия этих 16 значений, снова проверяя отношения, показанные выше, в случае выборок с заменой. Для другой проблемы предполагается, что значения генеральной совокупности известны, и, взяв 50 выборок размера 3, необходимо определить количество случаев, когда результат попадает в интервал (6; 7,796). Чтобы продолжить, сначала нужно вычислить вероятности получения этих предельных результатов, а затем вычислить разность.Для шестнадцати выборок вычисляются 16 соответствующих средних. Наконец, вычисляется среднее значение и дисперсия этих 16 значений, снова проверяя отношения, показанные выше, в случае выборок с заменой. Для другой проблемы предполагается, что значения генеральной совокупности известны, и, взяв 50 выборок размера 3, необходимо определить количество случаев, когда результат попадает в интервал (6; 7,796). Чтобы продолжить, сначала нужно вычислить вероятности получения этих предельных результатов, а затем вычислить разность.и взяв 50 образцов размера 3, необходимо определить количество случаев, когда результат попадает в интервал (6; 7796). Чтобы продолжить, сначала нужно вычислить вероятности получения этих предельных результатов, а затем вычислить разность.и взяв 50 образцов размера 3, необходимо определить количество случаев, когда результат попадает в интервал (6; 7796). Чтобы продолжить, сначала нужно вычислить вероятности получения этих предельных результатов, а затем вычислить разность.

гауссова вероятность, связанная с интервалом, а затем, умножив эту вероятность на размер выборки, можно ответить на заданный вопрос.

ТАБЛИЦА 7.2: Примерное распределение средних значений.

Если какое-либо из них не выполняется, полученные выводы недействительны. Допущения можно резюмировать следующим образом: для использования Student у вас должны быть нормальные, случайные и независимые выборки. Обратите внимание, что стандартная ошибка оценки SE (e) = σe.

Наиболее частые случаи на практике:

  • Студент для выборки средних

В этом случае e =.x, тогда: μe = μ и SE (e) = σe = DS / n. Поэтому значение сравнения рассчитывается с помощью:

Случайные и независимые выборки берутся из двух нормальных популяций. Идея состоит в том, чтобы выяснить, принадлежат ли обе выборки к одной или разным популяциям. При этом можно увидеть, будет ли заметен эффект «обработок», примененных к образцам, и в этом случае будет казаться, что образцы принадлежат разным популяциям. Он используется в случаях, когда действие лекарственного средства, примененного к группе пациентов, сравнивается с действием другой группы, которой дается плацебо. Также для сравнения двух клинических методов и выявления различий, например: две коммерческие марки плазы, два измерительных прибора, два человека, два разных метода (новый против старого), два протокола и т. Д. С помощью этих сравнений в лаборатории можно выполнить множество внутренних контролей для калибровки,измерить эффективность и т. д. Есть ограничение: одновременно можно сравнивать только два образца и не более. В случае наличия более двух выборок используются модели ANOVA.

  • Сравнение средств

Для этих случаев значение Стьюдента для средних проверок рассчитывается с помощью:

Что контрастирует с tα; υ где υ = n1 + n2 - 2 степени свободы. Есть частные случаи, такие как (а) выборки равного размера и (б) они гомоскедастичны (у них одинаковая дисперсия). В обоих случаях формулы расчета упрощаются.

БИБЛИОГРАФИЯ

  • А. (1998) 1 Вар 25. Овьедореског, К.Г., С.рбом, Д. (1993). PRELIS 2 Справочное руководство пользователя. Чикагоиз, Дж. (1997) Введение в теорию ответа на.tems. Ediciones Pir.mide.MadridSamejima, F. (1.969) Оценка латентных способностей с использованием модели отклика из градуированных баллов. Психометрические монографии, номер 17 Ван дер Линден, У. Дж. И Хэмблтон, Р. К. (ред.) (1997) Справочник по современной теории реакции на предметы, Springer-Velac, New York Spigel, Munrray. «Административная статистика». Издательство McGraw Hill. Издание десятое. +1998.

ДОПОЛНЕНИЯ

Теория рабочих образцов

Загрузите исходный файл

Теория статистических выборок работ