программа узипрограмма узи
Июль 2020
Пн Вт Ср Чт Пт Сб Вс
 12345
6789101112
13141516171819
20212223242526
2728293031  

Медицинская статистика

Коэффициент вариации

Коэффициент вариации – мера относительного разброса случайной величины; показывает, какую долю среднего значения этой величины составляет её средний разброс.

Коэффициент вариации указывается в процентах.

Синонимы: unitized risk – унифицированный риск, coefficient of variation.

Коэффициент вариации равен отношению стандартного отклонения к среднему значению

Коэффициент вариации имеет смысл использовать при ненулевых средних значениях.

Коэффициент полезен в ситуациях, когда о размерах отклонения величины можно судить, зная ее среднее значение.

Иногда используется условная классификация вариабельности выборки на основе коэффициента вариации: при коэффициенте вариации до 10% – выборка  слабо вариабельна, 10 – 20% – средне вариабельна, более 20% – сильно вариабельна.

Выброс

Выброс – резко отклоняющееся значение наблюдаемой величины.

Выбросом считается наблюдение, которое лежит аномально далеко от остальных из серии параллельных наблюдений. Т.е. выбросы – это значения количественного признака, располагающиеся на краях интервала допустимых значений.

Синонимы: maverick – резко выделяющийся результат; straggler – оторвавшийся результат.

Среднее арифметическое

Среднее арифметическое  — число, равное сумме всех чисел множества, делённой на их количество. Является одной из наиболее распространённых мер центральной тенденции.

среднее арифметическое

Доктор Петров выполнил 5 ультразвуковых исследований, а доктор Иванов 3 ультразвуковых исследования. Значит в среднем они выполнили по 4 ультразвуковых исследования на каждого.

С этим средним, несмотря на его важность,  много несуразностей. Как эта: (18+)

В отделении функциональной диагностики работают 4 медсестры. Маша, Таня и Света еще ни разу не целовались с мужчиной, а на Вике пробы ставить негде. А в среднем получается, что все медсестры отделения – простит женщины легкого поведения.

Или

Главный врач получает 500 тысяч рублей, а его девять врачей УЗИ по 20 тысяч. Но в среднем каждый врач получает по 68 тысяч рублей ежемесячно.

Отсюда следует вывод: Арифметическое среднее может использоваться  в  качестве средних значений или центральных тенденций только в том случае, если все значения находятся в достаточно узком диапазоне.

Как только среди исходных значений  появлются пиковые (аномальные) значения, то среднее арифметическое  – перестает выполнять свои функции и вносит ошибку в дальнейшие расчеты.

Например, по последнему примеру, чиновник может решить, что надо повысить налоги и снять доплату за вредность, так как зарплата врача в размере 68 тысяч слишком высокая.

Винсоризованное среднее

Винсоризованное среднее представляет собой винсоризованную статистическую меру центральной тенденции как некую конволюцию среднего арифметического и усеченного среднего.

Расчет винсоризованного среднего сводится к тому, что k% наибольших и k% наименьших значений (обычно от 5% до 25%) заменяется наименьшими и наибольшими значениями из оставшегося массива данных, после чего рассчитывается среднее арифметическое.

Пусть имеется набор данных (отсортированных по возрастанию): 2, 3, 4, 5, 7, 9, 10, 12, 14, 30
Расчет 20% винсоризованного среднего в нашем примере предполагает перед вычислением среднего арифметического замену первых двух и последних двух значений в ряду данных (2, 3 и 14, 30): 4, 4, 4, 5, 7, 9, 10, 12, 12, 12.     После замены и расчета среднего результат = 7,9.

Преимущества
Винсоризованное среднее менее чувствительна к “выбросам” (аутлайерам) чем простое среднее арифметическое при этом оставаясь приемлемой оценкой в ряде статистических моделей. Относится к разряду устойчивых (робастных) мер центральной тенденции.

Недостатки
Применимость усечённого среднего (как и винсоризованного среднего) весьма сомнительна в случаях с небольшим количеством наблюдений. Кроме того, исключение части имеющихся данных не всегда содержательно обоснована.

Среднее усечённое

Среднее усечённое представляет собой статистическую меру центральной тенденции, рассчитанную как среднее значение для имеющегося набора данных, из которого исключены k % наибольших и k % наименьших значений. Как правило, процент удаляемых значений устанавливается в диапазоне от 5 % до 25 %.

Пример: Пусть имеется набор данных (отсортированных по возрастанию): 2, 3, 4, 5, 7, 9, 10, 11, 12, 15.

Расчёт 20 % усечённого среднего в нашем примере предполагает перед вычислением среднего арифметического удаление первых двух и последних двух значений в ряду данных (2, 3 и 12, 15): х, х, 4, 5, 7, 9, 10, 11, х, х.      Результат = 7,6

Преимущества
Усечённое среднее менее чувствительно к выбросам, чем простое среднее арифметическое, при этом оставаясь приемлемой оценкой в ряде статистических моделей. Относится к разряду устойчивых («робастных») мер центральной тенденции.

Недостатки
Применимость усечённого среднего (как и винсоризованного среднего) весьма сомнительна в случаях с небольшим количеством наблюдений. Кроме того, исключение части имеющихся данных не всегда содержательно обоснована.

Среднее гармоническое

Средняя гармоническая величина ( или Среднее гармоническое ) получается от деления кол-ва значений выборки на сумму величин обратных данным:

Среднее геометрическое

Средним геометрическим ряда чисел называется такое число, которым можно заменить каждое из данных чисел так, чтобы их произведение не изменилось. Другими словами, среднее геометрическое чисел равно корню -ной степени из их произведения.

Пример: найти среднее геометрическое ряда:    6, 4, 9

Решение: ряд содержит три числа, поэтому из определения среднее геометрическое этих чисел равно

Интересный факт: среднее геометрическое всегда будет меньше среднего арифметического тех же чисел. За исключением случая, когда все взятые числа равны друг другу.

Описательная статистика

Описательная статистика — один из разделов статистической науки, в рамках которого изучаются методы описания и представления основных свойств данных. Позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Применение описательной статистики включает следующие этапы:
1. Сбор данных
2. Категоризация данных
3. Обобщение данных
4. Представление данных

Для более глубоких выводов о природе рассматриваемых данных используется индуктивная статистика.

В рамках описательной статистики применяются следующие простейшие техники:
* Графическое представление данных.
* Табличное представление данных.
* Использование обобщающих статистик, таких, как математическое ожидание, медиана, дисперсия и т.д.

Обобщающие статистики используются для решения двух основных задач:
1) Показать общее в характере совокупности данных.
2) Показать, в чём и насколько данные различны.

При обобщении количественных величин, таких, как длина, вес или возраст, для решения первой задачи чаще всего применяются среднее арифметическое, медиана или мода, если распределение унимодально. Используются так же квантили – числовые характеристики функции распределения. Для решения второй задачи применяют такие меры неоднородности данных, как дисперсия, квадратный корень из дисперсии – стандартное отклонение, интерквантильный размах, стандартная ошибка среднего.

Методы описательной статистики

Методами описательной статистики называются методы описания выборок х1, х2, … , хn с помощью различных показателей и графиков. Достоинство методов описательной статистики в том, что ее простые и довольно информативные статистические показатели избавляют от необходимости просмотра большого количества значений выборки.

Показатели описательной статистики можно разбить на несколько групп:

1. Показатели положения описывают положение данных (или середины совокупности) на числовой оси:
– Минимальный и максимальный элементы выборки
– Выборочные верхний и нижний квартили
– Среднее
– Выборочная медиана
– Выборочная мода

2. Показатели разброса описывают степень разброса данных относительно своего центра (насколько кучно основная масса данных группируется около середины совокупности)
– Дисперсия выборки
– Выборочное среднее квадратическое отклонение (стандартное отклонение)
– Размах
– Коэффициент эксцесса

3. Показатели асимметрии описывают симметричность распределения данных около своего центра
– Коэффициент асимметрии
– Положение выборочной медианы относительно выборочного среднего и относительно выборочных квартилей
– Гистограмма

4. Показатели, описывающие закон распределения , дают представление о законе распределения данных
– Гистограмма
– Выборочная функция распределения
– Таблица частот

Из перечисленных выше характеристик на практике по традиции чаще всего используют выборочные среднее, медиану и дисперсию (или стандартное отклонение). Однако для получения более точных и достоверных выводов необходимо использовать и другие показатели.

Особое внимание следует обратить на наличие в выборке выбросов – грубых, сильно отличающихся от основной массы, наблюдений. Большинство традиционных статистических методов весьма чувствительны к отклонениям от условий применимости метода. Поэтому выбросы могут не только исказить значение выборочных показателей, но и привести к ошибочным выводам. Подозрение о присутствии таких наблюдений должно возникнуть, если выборочная медиана сильно отличается от выборочного среднего, хотя в целом совокупность симметрична, или, если положение медианы сильно несимметрично относительно минимального и максимального элементов выборки. Проще всего обнаружить выбросы с помощью перехода от выборки к вариационному ряду или гистограмме с большим числом интервалов группировки.

Робастность

Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.

 На практике наличие в выборках даже небольшого числа резко выделяющихся наблюдений (выбросов) способно сильно повлиять на результат исследования, например, метод наименьших квадратов и метод максимального правдоподобия на специфических распределениях подвержены такого рода искажениям, и значения, получаемые в результате исследования, могут перестать нести в себе какой-либо смысл. Для исключения влияния таких помех используются различные подходы для снижения влияния «плохих» наблюдений (выбросов), либо полного их исключения. Основная задача выбросоустойчивых методов — отличить «плохое» наблюдение от «хорошего», притом даже самый простой из подходов — субъективный (основанный на внутренних ощущениях исследователя) — может принести значительную пользу, однако для мотивированной отбраковки все же исследователями применяются методы, имеющие в своей основе некие строгие математические обоснования. Этот процесс представляет собой весьма нетривиальную задачу для статистика и определяет собой одно из направлений статистической науки.

 

Медиана

Медиана (от лат. mediāna — середина) в математической статистике — число, характеризующее выборку (например, набор чисел). Если все элементы выборки различны, то медиана — это такое число выборки, что ровно половина из элементов выборки больше него, а другая половина меньше него. В более общем случае медиану можно найти, упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой является число 5. Если в выборке чётное число элементов, медиана может быть не определена однозначно: для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4).

Также медиану можно определить для случайных величин: в этом случае она делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2).