> Как посчитать количество уникальных значений в колонке DataFrame? (Python)

Уровень: senior · Роль: mobile · Категория: Технические вопросы

Компании: Сбер

Стек: Python

> Пример ответа

Для подсчёта уникальных значений в колонке DataFrame используйте метод nunique() из библиотеки pandas. Он возвращает количество уникальных элементов, исключая NaN по умолчанию.

Пример:

PYTHON
import pandas as pd
df = pd.DataFrame({'col': [1, 2, 2, 3, None, 3]})
unique_count = df['col'].nunique() # Результат: 3 (1, 2, 3)

Если нужно учесть пропущенные значения как отдельную категорию, добавьте параметр dropna=False:

PYTHON
unique_count_with_nan = df['col'].nunique(dropna=False) # Результат: 4

Также можно использовать value_counts() для получения частот каждого уникального значения, а затем взять длину списка:

PYTHON
unique_values = df['col'].value_counts().shape[0] # Аналогично nunique()

Для больших DataFrame предпочтительнее nunique(), так как он оптимизирован по производительности.

> ГОТОВЫ К СЛЕДУЮЩЕМУ СОБЕСЕДОВАНИЮ?

Запустите тренировочную сессию с ИИ и получите детальную обратную связь, чтобы увереннее проходить реальные интервью