• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

На данной программе вы познакомитесь с языком Python — одним из наиболее популярных современных языков программирования, который широко используется в анализе данных. Программа состоит из трех структурных частей:

I. Введение в Python.  Вы научитесь программировать, даже если раньше этого никогда не делали, познакомитесь с базовыми возможностями языка Python, узнаете о его «подводных камнях» и начнёте использовать свои навыки в повседневной работе.
II. Обработка данных в Python. Работа с данными в Python немного похожа на использование систем электронных таблиц — только во много раз мощнее. Буквально одной командой можно выбрать нужные записи из таблицы по заданным критериям, сгруппировать их, вычислить агрегированные значения и визуализировать результат. И это только начало!
III. Сбор данных в Python. Не всегда данные доступны сразу в удобном для обработки виде: они могут быть разбросаны по разным сайтам и храниться в разных форматах. Мы обсудим, как извлекать данные с веб-страниц (веб-скреппинг) и как пользоваться массивами открытых данных, доступных в структурированных форматах (XML, JSON) через API.

Поступление

Документы для приема

Оригинал и копия паспорта или документа, заменяющего его

Оригинал и копия документа об образовании и квалификации или справка об обучении для лиц, получающих высшее образование

Оригинал и копия документа об изменении фамилии, имени, отчества (при необходимости)

Содержание программы

  • Введение в Python. Синтаксис языка. Базовые типы данных: числа, строки, списки, словари, множества. Функции. Классы и объекты. Ввод-вывод. Обработка исключений
  • Введение в анализ табличных данных в Python. Пакет pandas. Объекты Series (последовательность) и DataFrame (таблица). Чтение-запись данных в различных форматах. Запросы к таблицам: выборка строк/столбцов по заданным критериям. Модификация элементов таблицы. Добавление строк/столбцов.
  • Продвинутые возможности pandas. Группировка и агрегирование. Объединение таблиц (различные виды join). Работа с временными рядами. Вычисления: скользящее среднее, кумулятивная сумма и т.д. Работа с пропусками (NA’s). Многомерные данные: мультииндексы. Операции stack-unstack. Построение сводных таблиц (pivot tables).
  • Визуализация данных в Python. Обзор библиотек: matplotlib, pandas, seaborn, plotly, bokeh. Базовые типы визуализаций: графики, столбчатые диаграммы, гистограммы, точечные диаграммы (scatter plots), ящики с усами. Комбинирование различных графических элементов. Построение интерактивных диаграмм с помощью plotly и bokeh.
  • Сбор и подготовка данных. Веб-скреппинг. Библиотека beautifulsoup. Работа с динамическими сайтами с помощью Selenium. Массовый скреппинг с помощью scrapy. Работа со структурироваными данными: JSON и XML. Открытые API.

Преподаватели

Щуров Илья Валерьевич

Выпускник механико-математического факультета МГУ, кандидат физико-математических наук, доцент кафедры высшей математики НИУ ВШЭ. Лауреат конкурса молодых математиков фонда «Династия». Разработал и прочитал ряд курсов по программированию, в том числе обещуниверситетский факультатив «Программирование на языке Python для сбора и обработки данных».

Тамбовцева Алла Андреевна

Преподаватель кафедры высшей математики, программ "Анализ данных в социальных науках", "Математика и статистика" и "Основы программирования в Python".

Сергей Захаров

Менеджер дирекции по большим данным X5 Retail Group. Ранее работал тимлидом команды предиктивной аналитики площадки госзакупок "РТС-Тендер".

Александр Сахнов

Тимлид команды аналитики в X5 Retail Group. Руководит работой по А/В тестированию и ad-hoc аналитике в компании. Преподаватель Школы анализа данных Яндекса.

Подать заявку

Вас могут заинтересовать

  • Очно-заочная форма
  • 608 академических часов, в том числе 414 часов лекций и семинаров.
  • Очно-заочная форма
  • 190 академических часов
  • 24 академических часов