Dozhd
Администратор
- Регистрация
- 17 Янв 2014
- Сообщения
- 169.584
- Реакции
- 387.962
Складчина: Анализ данных Python: с 0 до уверенного бизнес-пользователя [Stepik] [Никита Сергеев]
Чему вы научитесь
Основы Python, типов данных и вычислений
ETL (извлечение, преобразования\подготовка\вычисления и загрузка данных) - Pandas
Визуализация данных (на основе Pandas под капотом которого Matplot + немного Seaborn и чуточку Plotly)
Описательные статистики (Pandas)
Сравнение групп (тесты и проверка гипотез) - Pingouin
Поиск скрытых связей между переменными - Pingouin
Классификация объектов, предсказание их принадлежности к определенной группе sklearn
Анализ временных рядов и прогнозирование будущих трендов - statsmodels.TSA
О курсе
Предмет данного курса - простой, лаконичный, удобочитаемый и кроссплатформенный язык программирования Python. Он используется в разработке веб-приложений, анализе данных, искусственном интеллекте, автоматизации, кибербезопасности и многих других областях - и наша область его применения в данном курсе это анализ данных
В вакансиях технических компаний за последние 3 года Python входит в ТОП-1 требуемых технических навыков в области Data Science и Аналитика Данных
Этот курс - это способ максимально быстро ознакомиться с возможностями Python с точки зрения аналитика (бизнес-пользователя). Он спроектирован так, чтобы в самый короткий строк и без излишеств сделать из новичка уверенного бизнес-пользователя основных возможностей Python для анализа данных
Освещенных в курсе возможностей Python достаточно для решения основных бизнес-задач по извлечению, преобразованию\подготовке, визуализации и анализу данных данных. Обучение заточено не просто на заучивание команд и синтаксиса Python, а и на то, чтобы научить "думать на Python" (т.е., сформировать понимание логики его работы и логики разных конкретных библиотек).
Курс сфокусирован не только и не столько на демонстрацию экрана с кодом в ~200 лекциях, а на практическое освоение языка. Поэтому он насыщен практическими заданиями (более 170 ЗАДАНИЙ!), которые не только отлично прорабатывают лекционный материал, а формируют прикладные навыки использования Python
Курс от профессионала в анализе данных: владеющего навыками от обработки данных в MS Excel (вкл. надстройки семейства Power) и статанализа с предиктивной аналитикой в спецпрограммах (SPSS, JASP, Statistica...) - и до языков и методов Data Science применяемых в разработке систем "искусственного интеллекта" (Python, R).
Создатель курса - автор популярной бизнес -литературы (доступна в крупнейших магазинах: Amazon, Ozon, ЛитРес, Ridero...). В частности, автор одного из русскоязычных бестселлеров в категории "Анализ данных" - книги "Аналитика и Data Science для не-аналитиков и даже 100% гуманитариев", а также одной из первых книг отечественных авторов по работе с компонентом ETL Power Query для Excel и Power BI "Power Query: учебное руководство";
Невзирая на массу современных инструментов визуальных инструментов подключения и извлечения данных из баз - Python популярен не только в среде ИТшников, а и обычных бизнес-пользователей (в первую очередь аналитиков). Это как раз тот навык, потраченное на изучение которого время отличная инвестиция!
Курс НЕ ЗАТОЧЕН под конкретную предметную область (учет, коммерция, розница, маркетинг, закупки, проекты, кадры, медицина, строительство и т.д.): он формирует чистое понимание, знания и навыки Python для анализа данных - и с этими знаниями Вы, как эксперт в СВОЕЙ СОБСТВЕННОЙ ПРЕДМЕТНОЙ ОБЛАСТИ (отрасли, дисциплине, сфере, функции...), сможете легко их применить для решения именно Ваших прикладных задач
Обратите внимание, что курс именно о языке Python для бизнес-пользователей и только под задачи анализа данных: а поэтому в нем НЕ БУДЕТ разбора (а если где-то вдруг будет, то поверхностный минимум достаточного для целей данного курса и без углубления в тему) использование его в таких направлениях, к примеру:
Web-разработка
GUI-разработка
разработка ПО
ООП (объектно-ориентированного программирования) и понятия классов, связанных с ними объектов, разбора полиморфизма, наследования, абстракции, инкапсуляции
Статистика и теория вероятности
и т.д.
Для кого этот курс
Планирующим двигаться в ИТ: будущим программистам, тестировщикам, data science-специалистам...
Профессионалам любых специальностей (обычным бизнес-пользователям), интересующихся темой анализа данных
Аналитикам данных любой области \ отрасли
Начальные требования
Базовое умение устанавливать приложения\ПО на свой ПК следуя инструкциям - для прохождения курса нужно будет установить Anaconda\Jupiter Lab (или как альтернатива уметь самостоятельно пользоваться онлайн инструментами совместимыми с Python)
Около5 Гб свободного места на ПК для установки рабочей среды (бесплатной)
Навыки базовых операций с файлами в офисных приложениях: умение открывать, сохранять, удалять, переименовывать, копировать\вставлять, вырезать и т.д.
Понимание базовых математических операций, правил учета скобок; желательно еще основы текстовых операций, а также работы с датами. Понимание структуры\элементов таблицы (строки, столбцы, различать заголовки столбцов и значения на пересечении строк и столбцов). В идеале ориентировочное знание\понимание табличных вычислений (по столбцу целиком) и преобразований (транспонирование, отмена свертывания\мельтинг, join'ы и union'ы....)
Никакой специализированной предварительной подготовки в плане основ программирования или теории вероятности с матстатистикой от студента не требуется - курс реально "с нуля". Важно только желание освоить Python для анализа данных.
Желательно понимание структуры файлов\источников данных с которыми Вы работаете на практике (например, что книга Excel содержит внутри Листы; а XML-файл имеет узлы; а SQL база состоит из схем; и т.д.)
Желательно знание что такое таблицы и диаграммы (визуализации), и умение их "читать" (как минимум базовые: столбиковые, круговые, графики\линии, точечные)
Программа:
Введение
Знакомство с основами Python, его синтаксисом и мат. логикой
Углубление в основы: основные управляющие потоком конструкции
О библиотеках: предназначение, подключения, использования
Основы для быстрого старта: как это все работает в комплексе
ETL: извлечение, преобразование и загрузка данных
Описательные статистики
Визуализации данных
Анализ данных: Сравнение групп
Анализ данных: связи между переменными
Анализ данных: классификация
Мидквэл: анализ и прогнозирование временных рядов statsmodels.tsa
Небольшой факультатив: обзор других отдельных аналитических возм.
Послесловие
Спойлер: Программа подробно
Введение
Пару слов о курсе
Просто зашли поинтересоваться?
Как мы будем учиться
Знакомство с основами Python, его синтаксисом и мат. логикой
О языке Python
Популярные рабочие среды для Python
Знакомство с Jupyter Labs
Работа ячеек и ядра в Jupiter Labs
Нумерация и извлечение элементов в Python
Основы и особенности написания и оформления кода: синтаксис
Типы данных
Переменные
Динамическая типизация
Числовой калькулятор
Текстовые вычисления
А как дела с датами?
Мидквэл-лекция о модулях
Операторы сравнения
Логические операторы: and, or, not
Оператор принадлежности: in \ not in
Условные вычисления: if
Функции: def
Не о Half-Life: lambda-выражения
Итоги знакомства: что из этих основ может пригодиться в анализе
Углубление в основы: основные управляющие потоком конструкции
Что это за инструкции\конструкции
Условное принятие решений: логика if, elif, else
Условное принятие решений: паттерны\шаблоны match
Комбинация конструкций (на примере match и if)
Циклы: for и while
Управление\изменение поведения циклов: break и continue
Обработчики исключений\ошибок: try...except
Управление ресурсами: with (проба работы с файлами)
Итоги инструкций контроля потоков выполнения программы
О библиотеках: предназначение, подключения, использования
Что такое библиотеки или "забудьте (почти)все что мы учили ранее
Массивы и Таблицы
NumPy и SciPy для вычислений
Pandas и Polars: предназначение, отличия, подключение
Matplotlib, Seaborn, Plotly:предназначение, отличия, подключение
StatsModels с TSA: предназначение, отличия, подключение
ML (scikit-learn) с бустингом (...boost)
Вызов подсказок и справок по объектам в библиотеках
Библиотечные итоги
Основы для быстрого старта: как это все работает в комплексе
Большая картина: врубаемся что вообще происходит
Подготовка к написанию кода: подключаем библиотеки
Загрузка данных
Преобразование: очистка данных
Преобразование: добавление новых столбцов
Анализ данных: описательные статистики
Визуализация данных
Анализ данных: аналитическая статистика
Итоги раздела
ETL: извлечение, преобразование и загрузка данных
Общий процесс работы с данными и место в нем ETL
Series, DataFrame, векторные вычисл.(обработка столбцов целиком)
Навигация и отбор из датафрейма нужных данных
Подключение к csv
Подключение к Excel
Самостоятельное задание: проба загрузки таблицы из SPSS
ДатаФрейм и его Представление в Jupyter
Вывод ВСЕХ строк и столбцов
Выгрузка только нужных столбцов
Мидквел:мастер-класс по базовому пониманию справочных материалов
Изменения названий\имен\заголовков столбцов
Перемещение\Изменение порядка столбцов
Типы данных для столбцов: int, float, datetime, string
Выбор столбцов по типу данных
Систематизация чтений\подключений
Вычисление новых столбцов: числовые столбцы
Вычисление новых столбцов: разделение и объединение столбцов
Вычисление новых столбцов: текстовые столбцы
Вычисление новых столбцов: столбцы с датами
Вычисление новых столбцов: условный столбец\перекодировка
Вместо условного столбца: разбиение значений на группы (cut)
Из одного столбца сделать много столбцов с 0\1
Удаление лишних\ненужных столбцов
Систематизация работы со столбцами
Тест по столбцам
Оставление нужных строк сверху\снизу таблицы
Удаление лишних\ненужных строк (порядок, дубликаты)
Фильтрация\Отбор строк для анализа: условие c | и &
Тест по строкам
Стратегии работы с пустыми значениями
Удаление пустых строк и столбцов
Заполнение пустых значений другими значениями
Заполнение вниз\вверх
Интерполяция "пустышек" во времени (периодичные данные)
Комплексные функционалы для АНАЛИЗА пропущенных значений
Тест по пропускам
Стратегии проверки данных: опечатки, смысл, не тот тип
Мидквел-лекция: Основы оконных вычислений
Группировка\Агрегирование: понижение гранулярности таблицы
Транспонирование DataFrame\таблицы
Сводные таблицы (Pivot, Pivot Table, Crosstab)
Мельтинг\Отмена свертывания\Unpivot
Тест по изменению таблицы
Слияние нескольких массивов\таблиц: добавление строк
Слияние нескольких таблиц: добавление столбцов (с исп.ключей)
Тест по джойнам и юнионам
Сохранение данных в файл
Итоги загрузки, очистки и подготовки данных
Описательные статистики
Что такое описательные статистики
Частотный анализ (частотное распределение)
Частоты под несколько переменных
4 группы мер в описательной статистике
Меры центральной тенденции: среднее, мода, медиана
Меры точек относительного разделения : процентили и квартили
Меры рассеивания\вариативности: дисперсия, ст.отклонение, размах
IQR и выбросы\outliers
Комлексный анализ описательных статистик: describe
Ящик с усами: визуал для среднего,квартилей,мин и макс, выбросов
Меры формы распределения: асимметрия и эксцесс
Итоги раздела
Визуализации данных
Что такое визуализации?
Воспоминания как строятся диаграммы
Агрегирующие и неагрегирующие диаграммы
"Плавный" аналог гистограммы: агрегирующая KDE
Столбиковые\Линейчатые диаграммы: вертикальные и горизонтальные
Разбор и управление элементами диаграмм
Цветовое форматирование визуальных элементов
Группировка с распаковкой индекса: метод .groupby() с .unstack()
Столбцы на разные диаграммы (subplots)
Столбиковые диаграммы: с группировкой и с наложением
Погрешности\Коридор прогноза на диаграммах
График
Вторая Y-ось
Комбинированная диаграмма
График\диаграмма с областями
Круговые диаграммы
Диаграмма рассеивания\точечная
Превращаем точки в "пузыри"
Матрица скаттерплотов
Как забрать диаграммы в Power Point
Таблица - также визуальный элемент
Подводим итоги визуализаций
Анализ данных: Сравнение групп
Основные блоки задач, решаемые при анализе данных
Генеральная совокупность и выборка
Гипотезы и вероятность ошибки\значимость
Параметрика\непараметрика
Проверка распределения "на нормальность"
Зависимые (парные, связанные) и Независимые группы
Тест: Систематизация основных понятий
Сравнение независимых групп: 2 группы, параметрика
О навигации по таблицам результатов (вспомним датафреймы)
Сравнение независимых групп: 2 группы, непараметрика
Тест 2-х групп (почти самостоятельное задание)
Сравнение незав. групп:более 2-х групп,параметрика,с пост-хок
Сравнение незав. групп:более 2-х групп,непараметрика, с пост-хок
Сравнение парных\связанных групп: 2 группы, параметрика
Сравнение парных\связанных групп: 2 группы, непараметрика
Сравнение парных групп: более 2-х групп, параметрика, с пост-хок
Помиксуем-ка мы сами...: парные и независимые группы вместе
Сравнение парных групп: более 2-х групп,непараметрика,с пост-хок
Таблицы сопряженности: Хи2 для категориальных признаков, независ
Таблицы сопряженности: МакНемар для категор. признаков в завис.
Разговоры о красивом
Групповые итоги
Анализ данных: связи между переменными
Рассуждения о связях между переменными
Сила, Направленность и Значимая\Неслучайна статистическая связь
Корреляции
Мидквел: многомерность выбросов
Мидквел: многомерная нормальность
Мидквел: корреляционная красота
Корреляция для повторных замеров
Ложные (частные\получастные) корреляции
Анализ надежности-согласованности
Линейная регрессия
Понятие нормализации данных
А если связи нелинейные?
Квантильная регрессия (библиотека statsmodels)
Что такое факторный анализ
Факторный анализ (библиотека factor_analyzer)
Итоги раздела
Анализ данных: классификация
Переходим к классификации и кластеризации
Кто учит алгоритмы? Обучение с учителем
Бинарная логистическая регрессия
Как понять хороша ли модель: Precision, Recall, ROC-AUC
Мультиномиальная логистическая регрессия
Порядковая логистическая регрессия
Ближайшие соседи k-NN
Деревья решений
Ансамбли: RandomForest (случайный лес) как бэггинг подход
Ансамбли: бустинги - каждая модель исправляет предыдущую
А если никто не учит? Обучение без учителя.
Кластерный анализ методом К-средних
Кластеризация на основе плотности DBSCAN
Визуализация кластеров на плоскости t-SNE
Нейросети как сложные классификаторы
Многослойный перцептрон MLP: с учителем
Болцмановские машины (RBM): без учителя
Итоги раздела
Мидквэл: анализ и прогнозирование временных рядов statsmodels.tsa
Что такое временной ряд и работа с ним
Главная ловушка при анализе временных рядов
Основные задачи анализа временных рядов
Компоненты временного ряда: тренд, сезонность, цикл, всплеск
С чего начинается: смотрим "на глазок"
Подавление "шумов":HPF(Hodrick-Prescott Filter) отделение тренда
Анализ сезонности (на ряду с другими компонентами)
(s)ARIMA(x): обучение на временном ряде и его прогнозирование
Итоги временных прогнозов
Небольшой факультатив: обзор других отдельных аналитических возм.
Используем SQL-скрипты в JupiterLabs
Использование Python в Excel 365
Не таблицами едиными: анализ текста, изображений, аудио, видео..
Разработка аналитических приложений
ИИ-помощники при работе с Python
Послесловие
Обобщение курса
Напутствие
Бонус-лекция
Цена 2990 руб.
СКАЧАТЬ
Чему вы научитесь
Основы Python, типов данных и вычислений
ETL (извлечение, преобразования\подготовка\вычисления и загрузка данных) - Pandas
Визуализация данных (на основе Pandas под капотом которого Matplot + немного Seaborn и чуточку Plotly)
Описательные статистики (Pandas)
Сравнение групп (тесты и проверка гипотез) - Pingouin
Поиск скрытых связей между переменными - Pingouin
Классификация объектов, предсказание их принадлежности к определенной группе sklearn
Анализ временных рядов и прогнозирование будущих трендов - statsmodels.TSA
О курсе
Предмет данного курса - простой, лаконичный, удобочитаемый и кроссплатформенный язык программирования Python. Он используется в разработке веб-приложений, анализе данных, искусственном интеллекте, автоматизации, кибербезопасности и многих других областях - и наша область его применения в данном курсе это анализ данных
В вакансиях технических компаний за последние 3 года Python входит в ТОП-1 требуемых технических навыков в области Data Science и Аналитика Данных
Этот курс - это способ максимально быстро ознакомиться с возможностями Python с точки зрения аналитика (бизнес-пользователя). Он спроектирован так, чтобы в самый короткий строк и без излишеств сделать из новичка уверенного бизнес-пользователя основных возможностей Python для анализа данных
Освещенных в курсе возможностей Python достаточно для решения основных бизнес-задач по извлечению, преобразованию\подготовке, визуализации и анализу данных данных. Обучение заточено не просто на заучивание команд и синтаксиса Python, а и на то, чтобы научить "думать на Python" (т.е., сформировать понимание логики его работы и логики разных конкретных библиотек).
Курс сфокусирован не только и не столько на демонстрацию экрана с кодом в ~200 лекциях, а на практическое освоение языка. Поэтому он насыщен практическими заданиями (более 170 ЗАДАНИЙ!), которые не только отлично прорабатывают лекционный материал, а формируют прикладные навыки использования Python
Курс от профессионала в анализе данных: владеющего навыками от обработки данных в MS Excel (вкл. надстройки семейства Power) и статанализа с предиктивной аналитикой в спецпрограммах (SPSS, JASP, Statistica...) - и до языков и методов Data Science применяемых в разработке систем "искусственного интеллекта" (Python, R).
Создатель курса - автор популярной бизнес -литературы (доступна в крупнейших магазинах: Amazon, Ozon, ЛитРес, Ridero...). В частности, автор одного из русскоязычных бестселлеров в категории "Анализ данных" - книги "Аналитика и Data Science для не-аналитиков и даже 100% гуманитариев", а также одной из первых книг отечественных авторов по работе с компонентом ETL Power Query для Excel и Power BI "Power Query: учебное руководство";
Невзирая на массу современных инструментов визуальных инструментов подключения и извлечения данных из баз - Python популярен не только в среде ИТшников, а и обычных бизнес-пользователей (в первую очередь аналитиков). Это как раз тот навык, потраченное на изучение которого время отличная инвестиция!
Курс НЕ ЗАТОЧЕН под конкретную предметную область (учет, коммерция, розница, маркетинг, закупки, проекты, кадры, медицина, строительство и т.д.): он формирует чистое понимание, знания и навыки Python для анализа данных - и с этими знаниями Вы, как эксперт в СВОЕЙ СОБСТВЕННОЙ ПРЕДМЕТНОЙ ОБЛАСТИ (отрасли, дисциплине, сфере, функции...), сможете легко их применить для решения именно Ваших прикладных задач
Обратите внимание, что курс именно о языке Python для бизнес-пользователей и только под задачи анализа данных: а поэтому в нем НЕ БУДЕТ разбора (а если где-то вдруг будет, то поверхностный минимум достаточного для целей данного курса и без углубления в тему) использование его в таких направлениях, к примеру:
Web-разработка
GUI-разработка
разработка ПО
ООП (объектно-ориентированного программирования) и понятия классов, связанных с ними объектов, разбора полиморфизма, наследования, абстракции, инкапсуляции
Статистика и теория вероятности
и т.д.
Для кого этот курс
Планирующим двигаться в ИТ: будущим программистам, тестировщикам, data science-специалистам...
Профессионалам любых специальностей (обычным бизнес-пользователям), интересующихся темой анализа данных
Аналитикам данных любой области \ отрасли
Начальные требования
Базовое умение устанавливать приложения\ПО на свой ПК следуя инструкциям - для прохождения курса нужно будет установить Anaconda\Jupiter Lab (или как альтернатива уметь самостоятельно пользоваться онлайн инструментами совместимыми с Python)
Около5 Гб свободного места на ПК для установки рабочей среды (бесплатной)
Навыки базовых операций с файлами в офисных приложениях: умение открывать, сохранять, удалять, переименовывать, копировать\вставлять, вырезать и т.д.
Понимание базовых математических операций, правил учета скобок; желательно еще основы текстовых операций, а также работы с датами. Понимание структуры\элементов таблицы (строки, столбцы, различать заголовки столбцов и значения на пересечении строк и столбцов). В идеале ориентировочное знание\понимание табличных вычислений (по столбцу целиком) и преобразований (транспонирование, отмена свертывания\мельтинг, join'ы и union'ы....)
Никакой специализированной предварительной подготовки в плане основ программирования или теории вероятности с матстатистикой от студента не требуется - курс реально "с нуля". Важно только желание освоить Python для анализа данных.
Желательно понимание структуры файлов\источников данных с которыми Вы работаете на практике (например, что книга Excel содержит внутри Листы; а XML-файл имеет узлы; а SQL база состоит из схем; и т.д.)
Желательно знание что такое таблицы и диаграммы (визуализации), и умение их "читать" (как минимум базовые: столбиковые, круговые, графики\линии, точечные)
Программа:
Введение
Знакомство с основами Python, его синтаксисом и мат. логикой
Углубление в основы: основные управляющие потоком конструкции
О библиотеках: предназначение, подключения, использования
Основы для быстрого старта: как это все работает в комплексе
ETL: извлечение, преобразование и загрузка данных
Описательные статистики
Визуализации данных
Анализ данных: Сравнение групп
Анализ данных: связи между переменными
Анализ данных: классификация
Мидквэл: анализ и прогнозирование временных рядов statsmodels.tsa
Небольшой факультатив: обзор других отдельных аналитических возм.
Послесловие
Спойлер: Программа подробно
Введение
Пару слов о курсе
Просто зашли поинтересоваться?
Как мы будем учиться
Знакомство с основами Python, его синтаксисом и мат. логикой
О языке Python
Популярные рабочие среды для Python
Знакомство с Jupyter Labs
Работа ячеек и ядра в Jupiter Labs
Нумерация и извлечение элементов в Python
Основы и особенности написания и оформления кода: синтаксис
Типы данных
Переменные
Динамическая типизация
Числовой калькулятор
Текстовые вычисления
А как дела с датами?
Мидквэл-лекция о модулях
Операторы сравнения
Логические операторы: and, or, not
Оператор принадлежности: in \ not in
Условные вычисления: if
Функции: def
Не о Half-Life: lambda-выражения
Итоги знакомства: что из этих основ может пригодиться в анализе
Углубление в основы: основные управляющие потоком конструкции
Что это за инструкции\конструкции
Условное принятие решений: логика if, elif, else
Условное принятие решений: паттерны\шаблоны match
Комбинация конструкций (на примере match и if)
Циклы: for и while
Управление\изменение поведения циклов: break и continue
Обработчики исключений\ошибок: try...except
Управление ресурсами: with (проба работы с файлами)
Итоги инструкций контроля потоков выполнения программы
О библиотеках: предназначение, подключения, использования
Что такое библиотеки или "забудьте (почти)все что мы учили ранее
Массивы и Таблицы
NumPy и SciPy для вычислений
Pandas и Polars: предназначение, отличия, подключение
Matplotlib, Seaborn, Plotly:предназначение, отличия, подключение
StatsModels с TSA: предназначение, отличия, подключение
ML (scikit-learn) с бустингом (...boost)
Вызов подсказок и справок по объектам в библиотеках
Библиотечные итоги
Основы для быстрого старта: как это все работает в комплексе
Большая картина: врубаемся что вообще происходит
Подготовка к написанию кода: подключаем библиотеки
Загрузка данных
Преобразование: очистка данных
Преобразование: добавление новых столбцов
Анализ данных: описательные статистики
Визуализация данных
Анализ данных: аналитическая статистика
Итоги раздела
ETL: извлечение, преобразование и загрузка данных
Общий процесс работы с данными и место в нем ETL
Series, DataFrame, векторные вычисл.(обработка столбцов целиком)
Навигация и отбор из датафрейма нужных данных
Подключение к csv
Подключение к Excel
Самостоятельное задание: проба загрузки таблицы из SPSS
ДатаФрейм и его Представление в Jupyter
Вывод ВСЕХ строк и столбцов
Выгрузка только нужных столбцов
Мидквел:мастер-класс по базовому пониманию справочных материалов
Изменения названий\имен\заголовков столбцов
Перемещение\Изменение порядка столбцов
Типы данных для столбцов: int, float, datetime, string
Выбор столбцов по типу данных
Систематизация чтений\подключений
Вычисление новых столбцов: числовые столбцы
Вычисление новых столбцов: разделение и объединение столбцов
Вычисление новых столбцов: текстовые столбцы
Вычисление новых столбцов: столбцы с датами
Вычисление новых столбцов: условный столбец\перекодировка
Вместо условного столбца: разбиение значений на группы (cut)
Из одного столбца сделать много столбцов с 0\1
Удаление лишних\ненужных столбцов
Систематизация работы со столбцами
Тест по столбцам
Оставление нужных строк сверху\снизу таблицы
Удаление лишних\ненужных строк (порядок, дубликаты)
Фильтрация\Отбор строк для анализа: условие c | и &
Тест по строкам
Стратегии работы с пустыми значениями
Удаление пустых строк и столбцов
Заполнение пустых значений другими значениями
Заполнение вниз\вверх
Интерполяция "пустышек" во времени (периодичные данные)
Комплексные функционалы для АНАЛИЗА пропущенных значений
Тест по пропускам
Стратегии проверки данных: опечатки, смысл, не тот тип
Мидквел-лекция: Основы оконных вычислений
Группировка\Агрегирование: понижение гранулярности таблицы
Транспонирование DataFrame\таблицы
Сводные таблицы (Pivot, Pivot Table, Crosstab)
Мельтинг\Отмена свертывания\Unpivot
Тест по изменению таблицы
Слияние нескольких массивов\таблиц: добавление строк
Слияние нескольких таблиц: добавление столбцов (с исп.ключей)
Тест по джойнам и юнионам
Сохранение данных в файл
Итоги загрузки, очистки и подготовки данных
Описательные статистики
Что такое описательные статистики
Частотный анализ (частотное распределение)
Частоты под несколько переменных
4 группы мер в описательной статистике
Меры центральной тенденции: среднее, мода, медиана
Меры точек относительного разделения : процентили и квартили
Меры рассеивания\вариативности: дисперсия, ст.отклонение, размах
IQR и выбросы\outliers
Комлексный анализ описательных статистик: describe
Ящик с усами: визуал для среднего,квартилей,мин и макс, выбросов
Меры формы распределения: асимметрия и эксцесс
Итоги раздела
Визуализации данных
Что такое визуализации?
Воспоминания как строятся диаграммы
Агрегирующие и неагрегирующие диаграммы
"Плавный" аналог гистограммы: агрегирующая KDE
Столбиковые\Линейчатые диаграммы: вертикальные и горизонтальные
Разбор и управление элементами диаграмм
Цветовое форматирование визуальных элементов
Группировка с распаковкой индекса: метод .groupby() с .unstack()
Столбцы на разные диаграммы (subplots)
Столбиковые диаграммы: с группировкой и с наложением
Погрешности\Коридор прогноза на диаграммах
График
Вторая Y-ось
Комбинированная диаграмма
График\диаграмма с областями
Круговые диаграммы
Диаграмма рассеивания\точечная
Превращаем точки в "пузыри"
Матрица скаттерплотов
Как забрать диаграммы в Power Point
Таблица - также визуальный элемент
Подводим итоги визуализаций
Анализ данных: Сравнение групп
Основные блоки задач, решаемые при анализе данных
Генеральная совокупность и выборка
Гипотезы и вероятность ошибки\значимость
Параметрика\непараметрика
Проверка распределения "на нормальность"
Зависимые (парные, связанные) и Независимые группы
Тест: Систематизация основных понятий
Сравнение независимых групп: 2 группы, параметрика
О навигации по таблицам результатов (вспомним датафреймы)
Сравнение независимых групп: 2 группы, непараметрика
Тест 2-х групп (почти самостоятельное задание)
Сравнение незав. групп:более 2-х групп,параметрика,с пост-хок
Сравнение незав. групп:более 2-х групп,непараметрика, с пост-хок
Сравнение парных\связанных групп: 2 группы, параметрика
Сравнение парных\связанных групп: 2 группы, непараметрика
Сравнение парных групп: более 2-х групп, параметрика, с пост-хок
Помиксуем-ка мы сами...: парные и независимые группы вместе
Сравнение парных групп: более 2-х групп,непараметрика,с пост-хок
Таблицы сопряженности: Хи2 для категориальных признаков, независ
Таблицы сопряженности: МакНемар для категор. признаков в завис.
Разговоры о красивом
Групповые итоги
Анализ данных: связи между переменными
Рассуждения о связях между переменными
Сила, Направленность и Значимая\Неслучайна статистическая связь
Корреляции
Мидквел: многомерность выбросов
Мидквел: многомерная нормальность
Мидквел: корреляционная красота
Корреляция для повторных замеров
Ложные (частные\получастные) корреляции
Анализ надежности-согласованности
Линейная регрессия
Понятие нормализации данных
А если связи нелинейные?
Квантильная регрессия (библиотека statsmodels)
Что такое факторный анализ
Факторный анализ (библиотека factor_analyzer)
Итоги раздела
Анализ данных: классификация
Переходим к классификации и кластеризации
Кто учит алгоритмы? Обучение с учителем
Бинарная логистическая регрессия
Как понять хороша ли модель: Precision, Recall, ROC-AUC
Мультиномиальная логистическая регрессия
Порядковая логистическая регрессия
Ближайшие соседи k-NN
Деревья решений
Ансамбли: RandomForest (случайный лес) как бэггинг подход
Ансамбли: бустинги - каждая модель исправляет предыдущую
А если никто не учит? Обучение без учителя.
Кластерный анализ методом К-средних
Кластеризация на основе плотности DBSCAN
Визуализация кластеров на плоскости t-SNE
Нейросети как сложные классификаторы
Многослойный перцептрон MLP: с учителем
Болцмановские машины (RBM): без учителя
Итоги раздела
Мидквэл: анализ и прогнозирование временных рядов statsmodels.tsa
Что такое временной ряд и работа с ним
Главная ловушка при анализе временных рядов
Основные задачи анализа временных рядов
Компоненты временного ряда: тренд, сезонность, цикл, всплеск
С чего начинается: смотрим "на глазок"
Подавление "шумов":HPF(Hodrick-Prescott Filter) отделение тренда
Анализ сезонности (на ряду с другими компонентами)
(s)ARIMA(x): обучение на временном ряде и его прогнозирование
Итоги временных прогнозов
Небольшой факультатив: обзор других отдельных аналитических возм.
Используем SQL-скрипты в JupiterLabs
Использование Python в Excel 365
Не таблицами едиными: анализ текста, изображений, аудио, видео..
Разработка аналитических приложений
ИИ-помощники при работе с Python
Послесловие
Обобщение курса
Напутствие
Бонус-лекция
Цена 2990 руб.
СКАЧАТЬ
Для просмотра скрытого содержимого вы должны зарегистрироваться
Возможно, Вас ещё заинтересует:
- Сделайте цифровую копию себя и ведите свой проект в одиночку! [Азамат Ушанов]
- Сделайте цифровую копию себя и ведите свой проект в одиночку! [Азамат Ушанов]
- Сделайте цифровую копию себя и ведите свой проект в одиночку! [Азамат Ушанов]
- CODEX для продактов [Евгения Одуд]
- CODEX для продактов [Евгения Одуд]
- Комплект ИИ-помощников [Tomatschool] [Тома Суворова]