Популярные виды распределений

Популярные виды распределений

https://t.me/datadeepdive
  1. Равномерное распределение
  2. Распределение Бернулли
  3. Биномиальное распределение
  4. Геометрическое распределение
  5. Отрицательное биномиальное распределение
  6. Гипергеометрическое распределение
  7. Распределение Пуассона
  8. Экспоненциальное распределение
  9. Распределение Вейбулла
  10. Нормальное распределение
  11. Лог-нормальное распределение
  12. Распределение Стьюдента
  13. Распределение Хи-квадрат
  14. Гамма распределение
  15. Бета распределение


Равномерное распределение (Uniform Distribution)

Равномерное распределение — это распределение, при котором все значения в заданном диапазоне имеют одинаковую вероятность. То есть каждое значение в диапазоне [a, b] равновероятно.

Характеристики:

  1. Диапазон: Величины равномерно распределены между минимальным (a) и максимальным (b) значениями.
  2. Постоянная плотность вероятности: Вероятность равномерно распределена по всему диапазону.

Пример: Бросание честной игральной кости.

df <- runif(1000, min = 0, max = 1)

hist(df, 
     breaks = 30, 
     main = "Uniform Distribution", 
     xlab = "Value", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Распределение Бернулли (Bernoulli Distribution)

Распределение Бернулли описывает эксперименты с двумя возможными исходами: успех (1) и неудача (0).

Характеристики:

  1. Вероятность успеха (p).
  2. Вероятность неудачи (q = 1 - p).

Пример: Бросок монеты (орел или решка).

df <- rbinom(1000, size = 1, prob = 0.5)

barplot(table(df), 
        main = "Bernoulli Distribution", 
        xlab = "Outcome", 
        ylab = "Frequency", 
        names.arg = c("Failure", "Success"), 
        col = c("red", "green"))


Биномиальное распределение (Binomial Distribution)

Биномиальное распределение описывает количество успехов в серии независимых испытаний Бернулли.

Характеристики:

  1. Количество испытаний (n).
  2. Вероятность успеха (p): Вероятность успеха в каждом испытании.

Пример: Количество орлов при 10 бросках монеты.

df <- rbinom(1000, size = 10, prob = 0.5)

hist(df, 
     breaks = 30, 
     main = "Binomial Distribution", 
     xlab = "Number of Successes", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Геометрическое распределение (Geometric Distribution)

Геометрическое распределение описывает число испытаний до первого успеха.

Характеристики:

  1. Вероятность успеха (p): Вероятность успеха в каждом испытании.
  2. Дискретное распределение: Число попыток до первого успеха всегда является целым числом.

Пример: Количество бросков монеты до первого выпадения орла.

df <- rgeom(1000, prob = 0.5)

hist(df, 
     breaks = 30, 
     main = "Geometric Distribution", 
     xlab = "Number of Trials", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Отрицательное биномиальное распределение (Negative Binomial Distribution)

Отрицательное биномиальное распределение описывает количество успехов до заданного числа неудач.

Характеристики:

  1. Количество неудач (r).
  2. Вероятность успеха (p): Вероятность успеха в каждом испытании.

Пример: Количество побед до 3-х поражений.

df <- rnbinom(1000, size = 10, prob = 0.5)

hist(df, 
     breaks = 30, 
     main = "Negative Binomial Distribution", 
     xlab = "Number of Successes", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Гипергеометрическое распределение (Hypergeometric Distribution)

Гипергеометрическое распределение описывает вероятность числа успехов в выборке без возвращения.

Характеристики:

  1. Размер выборки (k).
  2. Количество успехов в совокупности (m).
  3. Количество элементов (N).

Пример: Вероятность выбрать 5 красных шариков из 15 без возвращения.

df <- rhyper(1000, m = 10, n = 20, k = 5)

hist(df, 
     breaks = 30, 
     main = "Hypergeometric Distribution", 
     xlab = "Number of Successes", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Распределение Пуассона (Poisson Distribution)

Распределение Пуассона описывает вероятность определенного числа событий, происходящих в фиксированном интервале времени.

Характеристики:

  1. Среднее количество событий (λ): Среднее количество событий за заданный интервал.
  2. Дискретное распределение: Количество событий — целое число.

Пример: Число автомобилей, проезжающих через перекресток за определенный период времени.

df <- rpois(1000, lambda = 5)

hist(df, 
     breaks = 30, 
     main = "Poisson Distribution", 
     xlab = "Number of Events", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Экспоненциальное распределение (Exponential Distribution)

Экспоненциальное распределение описывает время между событиями в потоке Пуассона.

Характеристики:

  1. Среднее время между событиями (1/λ): Обратная величина средней частоты событий (λ).
  2. Непрерывное распределение: Время между событиями — вещественное число.

Пример: Время между прибытием автобусов на остановку.

df <- rexp(1000, rate = 1)

hist(df, 
     breaks = 30, 
     main = "Exponential Distribution", 
     xlab = "Time", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Распределение Вейбулла (Weibull Distribution)

Распределение Вейбулла используется для анализа времени до отказа.

Характеристики:

  1. Форма (k): Параметр, определяющий форму распределения.
  2. Масштаб (λ): Параметр, определяющий масштаб распределения.

Пример: Срок службы устройства до его поломки.

df <- rweibull(1000, shape = 2, scale = 1)

hist(df, 
     breaks = 30, 
     main = "Weibull Distribution", 
     xlab = "Time", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Нормальное распределение (Normal (Gaussian) Distribution)

Нормальное распределение описывает данные, которые имеют тенденцию группироваться вокруг среднего значения и уменьшаются по мере удаления от этого среднего.

Характеристики:

  1. Среднее (μ): Центральная точка распределения.
  2. Стандартное отклонение (σ): Мера разброса данных вокруг среднего.

Пример: Рост людей в популяции.

df <- rnorm(1000, mean = 0, sd = 1)

hist(df, 
     breaks = 30, 
     main = "Normal Distribution", 
     xlab = "Value", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Лог-нормальное распределение (Log Normal Distribution)

Лог-нормальное распределение описывает переменную, логарифм которой нормально распределен.

Характеристики:

  1. Среднее и стандартное отклонение логарифма (μ и σ): Параметры нормального распределения логарифма переменной.

Пример: Доходы людей.

df <- rlnorm(1000, meanlog = 0, sdlog = 1)

hist(df, 
     breaks = 30, 
     main = "Log Normal Distribution", 
     xlab = "Value", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Распределение Стьюдента (Student's t Distribution)

Распределение Стьюдента используется для оценок средних значений маленьких выборок.

Характеристики:

  1. Степени свободы (df): Параметр, определяющий форму распределения.

Пример: Оценка среднего значения популяции по небольшой выборке.

df <- rt(1000, df = 10)

hist(df, 
     breaks = 30, 
     main = "Student's t Distribution", 
     xlab = "Value", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Хи-квадрат распределение (Chi-Squared Distribution)

Хи-квадрат распределение описывает сумму квадратов k независимых стандартных нормальных распределенных переменных.

Характеристики:

  1. Степени свободы (df): Параметр, определяющий форму распределения.

Пример: Тесты независимости в статистике (например, хи-квадрат тест для таблиц сопряженности)

df <- rchisq(1000, df = 10)

hist(df, 
     breaks = 30, 
     main = "Chi-Squared Distribution", 
     xlab = "Value", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Гамма-распределение (Gamma Distribution)

Гамма-распределение моделирует время до k-го события в потоке Пуассона.

Характеристики:

  1. Форма (k): Параметр, определяющий форму распределения.
  2. Масштаб (θ): Параметр, определяющий масштаб распределения.

Пример: Время до k-го события.

df <- rgamma(1000, shape = 2, scale = 1)

hist(df, 
     breaks = 30, 
     main = "Gamma Distribution", 
     xlab = "Value", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


Бета-распределение (Beta Distribution)

Бета-распределение моделирует вероятность успеха в серии экспериментов с известным числом успехов и неудач.

Характеристики:

  1. Параметры формы (α и β): Определяют форму распределения.

Пример: Вероятность успеха в серии экспериментов.

df <- rbeta(1000, shape1 = 2, shape2 = 5)

hist(df, 
     breaks = 30, 
     main = "Beta Distribution", 
     xlab = "Probability", 
     ylab = "Frequency", 
     col = "lightblue", 
     border = "black")


А если хочется прям совсем глубоко погрузиться в тему распределений, то это есть вот тут: https://www.math.wm.edu/~leemis/chart/UDR/UDR.html

Report Page