Основы data science с Python: анализ данных с помощью Pandas и Matplotlib

Data Science (наука о данных) стала одной из самых востребованных областей в IT-индустрии. Python, благодаря своей простоте и мощным библиотекам, является одним из самых популярных языков для анализа данных. В этом уроке мы познакомимся с основами Data Science, используя две ключевые библиотеки: Pandas для обработки данных и Matplotlib для их визуализации.

Содержание

Подготовка рабочего окружения
Основы Pandas
Основные операции с DataFrame
Визуализация данных с Matplotlib
Практический пример: Анализ данных о продажах
Дополнительные возможности Pandas и Matplotlib
1. Группировка данных:
2. Создание нескольких графиков на одном изображении:
3. Создание круговой диаграммы:
Заключительные советы
Углубите свои знания в Data Science:

Подготовка рабочего окружения

Прежде чем мы начнем, нам нужно убедиться, что у нас установлены необходимые библиотеки. Откройте терминал (командную строку) и выполните следующие команды:

pip install pandas matplotlib

Эта команда установит Pandas и Matplotlib, если они еще не установлены в вашей системе.

Основы Pandas

Pandas — это мощная библиотека для анализа данных, которая предоставляет высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных.

Давайте начнем с импорта Pandas и создания простого DataFrame (основной структуры данных в Pandas):

import pandas as pd

# Создаем простой DataFrame
data = {
    'Имя': ['Алиса', 'Боб', 'Чарли', 'Дэвид'],
    'Возраст': [25, 30, 35, 28],
    'Город': ['Москва', 'Санкт-Петербург', 'Казань', 'Новосибирск']
}

df = pd.DataFrame(data)
print(df)

При запуске этого кода вы увидите следующий вывод:

      Имя  Возраст            Город
0   Алиса       25           Москва
1     Боб       30  Санкт-Петербург
2   Чарли       35           Казань
3   Дэвид       28      Новосибирск

Основные операции с DataFrame

Теперь давайте рассмотрим некоторые базовые операции, которые мы можем выполнять с DataFrame:

# Получение информации о DataFrame
print(df.info())

# Получение статистических данных
print(df.describe())

# Выбор конкретного столбца
print(df['Возраст'])

# Фильтрация данных
print(df[df['Возраст'] > 30])

# Сортировка данных
print(df.sort_values('Возраст', ascending=False))

Визуализация данных с Matplotlib

Matplotlib — это библиотека для создания статических, анимированных и интерактивных визуализаций в Python. Давайте создадим простой график, используя наши данные:

import matplotlib.pyplot as plt

# Создаем столбчатую диаграмму
plt.figure(figsize=(10, 5))
plt.bar(df['Имя'], df['Возраст'])
plt.title('Возраст по именам')
plt.xlabel('Имя')
plt.ylabel('Возраст')
plt.show()

Практический пример: Анализ данных о продажах

Теперь давайте применим наши знания к более реалистичному примеру. Представим, что у нас есть данные о продажах в магазине за неделю:

import pandas as pd
import matplotlib.pyplot as plt

# Создаем DataFrame с данными о продажах
sales_data = {
    'День': ['Пн', 'Вт', 'Ср', 'Чт', 'Пт', 'Сб', 'Вс'],
    'Продажи': [1000, 1200, 1100, 1500, 2000, 2200, 1800],
    'Посетители': [100, 120, 110, 140, 180, 200, 160]
}

df = pd.DataFrame(sales_data)

# Выводим основную информацию о данных
print(df.describe())

# Создаем график продаж
plt.figure(figsize=(12, 6))
plt.plot(df['День'], df['Продажи'], marker='o')
plt.title('Продажи по дням недели')
plt.xlabel('День недели')
plt.ylabel('Продажи (руб.)')
plt.grid(True)
plt.show()

# Создаем scatter plot для анализа связи между посетителями и продажами
plt.figure(figsize=(10, 6))
plt.scatter(df['Посетители'], df['Продажи'])
plt.title('Зависимость продаж от количества посетителей')
plt.xlabel('Количество посетителей')
plt.ylabel('Продажи (руб.)')
plt.grid(True)
plt.show()

Анализируя эти графики, мы можем сделать несколько выводов:

Продажи достигают пика в выходные дни (суббота и воскресенье).
Существует положительная корреляция между количеством посетителей и объемом продаж.

Дополнительные возможности Pandas и Matplotlib

Pandas и Matplotlib предоставляют множество дополнительных возможностей для анализа и визуализации данных. Вот несколько примеров:

1. Группировка данных:

# Группируем данные по дням недели и считаем среднее
grouped = df.groupby('День')['Продажи'].mean()
print(grouped)

2. Создание нескольких графиков на одном изображении:

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 10))

ax1.plot(df['День'], df['Продажи'], marker='o', color='b')
ax1.set_title('Продажи по дням недели')
ax1.set_ylabel('Продажи (руб.)')

ax2.plot(df['День'], df['Посетители'], marker='s', color='g')
ax2.set_title('Посетители по дням недели')
ax2.set_ylabel('Количество посетителей')

plt.tight_layout()
plt.show()

3. Создание круговой диаграммы:

plt.figure(figsize=(10, 10))
plt.pie(df['Продажи'], labels=df['День'], autopct='%1.1f%%')
plt.title('Доля продаж по дням недели')
plt.axis('equal')
plt.show()

Эти примеры демонстрируют лишь малую часть возможностей Pandas и Matplotlib. По мере углубления в Data Science, вы обнаружите еще больше мощных инструментов и методов анализа данных.

«Data Science — это не просто анализ чисел. Это искусство превращения данных в истории, которые помогают принимать лучшие решения. С помощью Python, Pandas и Matplotlib вы делаете первые шаги в этом увлекательном мире. Помните, что каждый график, каждая таблица — это возможность узнать что-то новое и интересное о мире вокруг нас. Продолжайте исследовать, задавать вопросы и искать ответы в данных. Ваше путешествие в мир Data Science только начинается!»

Заключительные советы

Практикуйтесь на реальных данных. Многие организации предоставляют открытые наборы данных, которые вы можете использовать для практики.
Изучайте документацию. Pandas и Matplotlib имеют обширную документацию с множеством примеров.
Присоединяйтесь к сообществу. Существует множество форумов и групп, где вы можете задавать вопросы и делиться своими проектами.
Не останавливайтесь на достигнутом. После освоения основ, рассмотрите возможность изучения более продвинутых библиотек, таких как Seaborn для статистической визуализации или Scikit-learn для машинного обучения.

Удачи в вашем путешествии по миру Data Science!