Data Mining: инструментарий

Здравствуйте, уважаемые студенты!

Добро пожаловать на курс Data Mining. Все наши занятия будут включать как лекционную, так и практическую часть. В этом топике мы предлагаем вам список технических средств, программ и библиотек, рекомендуемых, чтобы успешно справиться с практической частью.

Замечание. То что перечислено ниже является именно рекомендуемым -- мы допускаем использование любых языков и фреймворков для выполнения заданий. Будет удобнее, если для выбранного вами языка существуют библиотеки, реализующие операции линейной алгебры, стандартные функции распределения вероятности и рисование графиков. Последнее понадобится на первом же занятии.

Техническое оснащение
  • Для решения семинарских задач могут понадобиться блокнот и ручка.
  • На занятия необходимо приносить персональный компьютер. Операционная система значения не имеет.

Набор рекомендуемых программ

Далее идет список того, что мы просим вас заранее установить на ваши персональные компьютеры.

Python версии 2.7
  1. Текущий дистрибутив для основных операционных систем скачиваем здесь. Примечание. Mac OS X и популярные linux уже содержат инсталляцию python, поэтому установки, как правило не требуется.
  2. Добавить путь к python в переменную среды PATH. Инструкция для windows. В linux и Mac OS X все должно быть и так в порядке.

  3. Открываем cmd/terminal и проверяем

        >> python --version
        Python 2.7.6 # bugfix версия (третья цифра) может отличаться
        

Для тех, кто не знаком с языком python и хочет быстро освоить основы, мы рекомендуем классическую книгу dive into python.

Библиотеки научных вычислений NumPy и SciPy
Установка данных библиотек - это веселый процесс и многое может пойти не так. К счастью, есть множество вариантов установки, и хотя бы один из них должен сработать.

  1. Windows. Проще всего скачать бинарные дистрибутивы под установленную версию python (обратить внимание на разрядность) отсюда. Обязательно ставим NumPy, SciPy, Matplotlib. Также рекомендуем поставить Pandas, Pip и Scikit-learn. Примечание: можно попробовать поставить все вместе из дистрибутива scipy-stack. Кто рискнет -- отпишитесь, пожалуйста, в коментах, как все прошло.
  2. Mac OS X. Здесь простой способ установить необходимы библиотеки -- использовать менеджер пакетов macports. Его будет необходимо предварительно установить. Хорошая инструкция дана на официальном сайте SciPy.
  3. Linux. Можно воспользоваться уже установленным в вашу ОС менеджером пакетов (таким как apt в Ubuntu). Инструкция на сайте SciPy тоже неплоха.

Проверим, что все установилось корректно:

>> python -c "import numpy; print numpy.version.version"
1.6.2
>> python -c "import scipy; print scipy.version.version"
0.11.0 # Ваши версии могут быть старше


Интегрированная среда разработки PyCharm

Мы рекомендуем пользоваться указанной IDE, хотя, если кто-то из вас уже знаком с Python и имеет свои предпочтения, любая IDE сгодится. На наш взгляд данная IDE хороша тем, что она проста в освоении, удобна и поддерживает множество нужных плагинов. Скачать PyCharm Community Edition для всех операционных систем можно здесь.

Git(hub)

Для того, чтобы нам было удобно взаимодействовать при выполнении домашних заданий и проектов, мы будем использовать популярный сервис контроля версий GitHub. Соответственно, необходимо установить себе клиент и настроить его для работы. Туториалов по гитхабу очень много, вот один из миллионов.

Что еще

В этом топике мы привели необходимый минимум технических средств. Совершенно точно в ходе курса нам понадобится установить несколько других библиотек, но при наличии навыка это минутное дело. В любом случае желаем вам успеха и будем готовы ответить на все вопросы, если они появятся.

Удачи и до встречи в среду!

© VK, 2011–2024

Обратная связь

Присоединяйся:

Группа VK
  • Разработка:
    Команда
    VK Education
Версия портала - 5.80.53