Como visualizar dados de arquivos CSV com pandas em gráficos e plots

A visualização de dados de arquivos CSV usando o Pandas é uma habilidade essencial para análise de dados e tomada de decisões rápidas e eficientes. Ao representar visualmente os dados, é possível identificar facilmente tendências e padrões, sendo amplamente utilizada em análises empresariais, pesquisas científicas e projetos acadêmicos. Neste artigo, começaremos com operações básicas para carregar dados CSV no Pandas e, utilizando bibliotecas como Matplotlib e Seaborn, ensinaremos como visualizar esses dados de forma atrativa e compreensível. Aproveite para aprimorar suas habilidades em análise de dados com Python.

Índice

Carregamento do arquivo CSV e visualização do resumo dos dados

Usando o Pandas para carregar um arquivo CSV, podemos começar a análise de dados de forma eficiente. Abaixo, mostramos como carregar o arquivo CSV e visualizar um resumo dos dados.

Carregando um arquivo CSV

Usamos a função read_csv() do Pandas para carregar um arquivo CSV. Por exemplo, para carregar um arquivo chamado data.csv, usamos o seguinte código:

import pandas as pd

# Carregar o arquivo CSV
df = pd.read_csv('data.csv')

# Exibir as primeiras linhas do DataFrame
print(df.head())

Esse código carrega os dados do arquivo CSV em um DataFrame do Pandas e exibe as primeiras 5 linhas dos dados.

Visualização do resumo dos dados

Para entender a estrutura dos dados e obter informações estatísticas básicas, utilizamos as seguintes abordagens.

Verificando o número de linhas e colunas dos dados

   print(df.shape)
   # Saída: (número de linhas, número de colunas)

Verificando tipos de dados e valores ausentes

   print(df.info())

Visualizando estatísticas básicas

   print(df.describe())

Verificando uma coluna específica

   print(df['NomeDaColuna'].unique())  # Exibir valores únicos da coluna
   print(df['NomeDaColuna'].value_counts())  # Contar ocorrências dos valores

Essas abordagens ajudam a compreender rapidamente o conteúdo geral dos dados e preparam o caminho para a próxima etapa de visualização.

Criando gráficos básicos com Matplotlib

Ao combinar Pandas com Matplotlib, é possível visualizar dados CSV de forma simples e eficaz. Aqui, mostramos como criar gráficos básicos.

Configuração do Matplotlib

Primeiro, importamos o Matplotlib. Usando o módulo pyplot, podemos criar gráficos de forma rápida e fácil.

import matplotlib.pyplot as plt

# Usando o DataFrame df já carregado
df = pd.read_csv('data.csv')

Criando um gráfico de linha

Gráficos de linha são úteis para visualizar dados temporais ou dados contínuos.

# Plotando dados de "Data" no eixo x e "Vendas" no eixo y
plt.plot(df['Data'], df['Vendas'])
plt.title('Variação das Vendas')
plt.xlabel('Data')
plt.ylabel('Vendas')
plt.xticks(rotation=45)  # Rotacionando rótulos do eixo x
plt.show()

Criando um gráfico de barras

Gráficos de barras são ideais para visualizar valores por categoria.

# Agrupando vendas por categoria e criando um gráfico de barras
category_sales = df.groupby('Categoria')['Vendas'].sum()
category_sales.plot(kind='bar', color='skyblue')
plt.title('Vendas por Categoria')
plt.xlabel('Categoria')
plt.ylabel('Vendas')
plt.show()

Criando um gráfico de dispersão

Gráficos de dispersão são úteis para visualizar a relação entre duas variáveis.

# Plotando a relação entre Preço e Vendas
plt.scatter(df['Preço'], df['Vendas'], alpha=0.7, color='green')
plt.title('Relação entre Preço e Vendas')
plt.xlabel('Preço')
plt.ylabel('Vendas')
plt.show()

Criando um histograma

Histogramas são eficazes para analisar a distribuição de dados.

# Plotando a distribuição de vendas
df['Vendas'].plot(kind='hist', bins=20, color='orange', edgecolor='black')
plt.title('Distribuição das Vendas')
plt.xlabel('Vendas')
plt.ylabel('Frequência')
plt.show()

Com esses gráficos, você pode compreender visualmente as características dos seus dados. A seguir, aprenderemos a criar visualizações mais avançadas com Seaborn.

Utilizando Seaborn para gráficos avançados

O Seaborn é uma biblioteca que trabalha bem com o Pandas e Matplotlib, permitindo a criação de gráficos de alta qualidade de maneira simples. Aqui, exploraremos algumas visualizações avançadas usando o Seaborn.

Configuração do Seaborn

Primeiro, importamos o Seaborn e configuramos o estilo.

import seaborn as sns

# Configurando o estilo
sns.set(style="whitegrid")  
df = pd.read_csv('data.csv')  # Carregar os dados

Visualizando dados categóricos: Boxplot

Para visualizar a distribuição dos dados por categoria, o boxplot é uma excelente opção.

# Visualizando a distribuição das vendas por categoria
sns.boxplot(x='Categoria', y='Vendas', data=df, palette='pastel')
plt.title('Distribuição das Vendas por Categoria')
plt.xlabel('Categoria')
plt.ylabel('Vendas')
plt.show()

Visualizando a correlação: Scatterplot e Linha de Regressão

Usando regplot do Seaborn, podemos adicionar uma linha de regressão ao gráfico de dispersão.

# Plotando a correlação entre Preço e Vendas
sns.regplot(x='Preço', y='Vendas', data=df, scatter_kws={'alpha':0.6}, line_kws={'color':'red'})
plt.title('Correlação entre Preço e Vendas')
plt.xlabel('Preço')
plt.ylabel('Vendas')
plt.show()

Visualizando a distribuição dos dados: Heatmap

Para visualizar a matriz de correlação dos dados, utilizamos um heatmap.

# Calculando a matriz de correlação
correlation_matrix = df.corr()

# Criando o heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Heatmap da Matriz de Correlação')
plt.show()

Relacionando categorias e valores: Violinplot

O violinplot apresenta suavemente a distribuição dos dados por categoria.

# Plotando a distribuição das vendas por categoria
sns.violinplot(x='Categoria', y='Vendas', data=df, palette='muted', inner='quartile')
plt.title('Distribuição das Vendas por Categoria (Violinplot)')
plt.xlabel('Categoria')
plt.ylabel('Vendas')
plt.show()

Destacando tendências nos dados: Countplot

O countplot é útil para visualizar a frequência de ocorrência de dados categóricos.

# Plotando a frequência de categorias de produtos
sns.countplot(x='Categoria', data=df, palette='viridis')
plt.title('Frequência das Categorias de Produtos')
plt.xlabel('Categoria')
plt.ylabel('Frequência')
plt.show()

Usando os gráficos refinados do Seaborn, você pode obter mais insights sobre seus dados. Agora, vamos aprender como visualizar dados extraídos de colunas específicas.

Visualizando dados extraídos de colunas específicas

Na análise de dados, muitas vezes é necessário extrair colunas ou condições específicas e visualizá-las. Vamos ver como filtrar dados e criar os gráficos apropriados.

Extraindo uma coluna e criando um gráfico

Para visualizar dados de uma coluna específica, basta referenciar o nome da coluna do DataFrame.

# Exibindo a distribuição das vendas com um histograma
df['Vendas'].plot(kind='hist', bins=15, color='skyblue', edgecolor='black')
plt.title('Distribuição das Vendas')
plt.xlabel('Vendas')
plt.ylabel('Frequência')
plt.show()

Combinando várias colunas para visualização

Você pode escolher várias colunas para visualizar suas correlações.

# Visualizando a correlação entre Vendas e Preço com um gráfico de dispersão
plt.scatter(df['Preço'], df['Vendas'], color='green', alpha=0.6)
plt.title('Correlação entre Preço e Vendas')
plt.xlabel('Preço')
plt.ylabel('Vendas')
plt.show()

Visualização de dados com base em condições

Você pode especificar condições para extrair e visualizar subconjuntos de dados, permitindo uma análise mais detalhada.

# Extraindo dados com vendas maiores ou iguais a 1000
high_sales = df[df['Vendas'] >= 1000]
plt.plot(high_sales['Data'], high_sales['Vendas'], marker='o', color='

orange')
plt.title('Variação das Vendas com Vendas >= 1000')
plt.xlabel('Data')
plt.ylabel('Vendas')
plt.xticks(rotation=45)
plt.show()

Agrupando e visualizando dados

Você pode agrupar dados por categorias ou atributos específicos e então visualizar os resultados.

# Calculando a média das vendas por categoria
category_avg_sales = df.groupby('Categoria')['Vendas'].mean()

# Exibindo um gráfico de barras
category_avg_sales.plot(kind='bar', color='coral')
plt.title('Média das Vendas por Categoria')
plt.xlabel('Categoria')
plt.ylabel('Média de Vendas')
plt.show()

Extração e visualização de dados com múltiplas condições

Você pode visualizar dados filtrados com várias condições, para um análise ainda mais detalhada.

# Extraindo dados com vendas >= 1000 e preço < 500
filtered_data = df[(df['Vendas'] >= 1000) & (df['Preço'] < 500)]

# Visualizando a correlação com um gráfico de dispersão
plt.scatter(filtered_data['Preço'], filtered_data['Vendas'], color='purple', alpha=0.7)
plt.title('Correlação entre Vendas >= 1000 e Preço < 500')
plt.xlabel('Preço')
plt.ylabel('Vendas')
plt.show()

Com isso, você pode analisar dados específicos e identificar padrões importantes. A seguir, explicaremos como visualizar dados de séries temporais.

Técnicas de visualização de dados temporais

Dados temporais são importantes para analisar tendências e sazonalidades. Aqui, vamos mostrar como visualizar dados temporais com Pandas e bibliotecas de visualização.

Preparando os dados temporais

Primeiro, converta a coluna temporal para o formato datetime do Pandas. Isso permite utilizar as funcionalidades de séries temporais do Pandas.

# Convertendo a coluna de Data para o formato datetime
df['Data'] = pd.to_datetime(df['Data'])

# Ordenando os dados por Data
df = df.sort_values('Data')

# Definindo a Data como índice (opcional)
df.set_index('Data', inplace=True)

Visualizando uma série temporal

Agora, podemos visualizar dados temporais com um gráfico de linha.

# Plotando as vendas ao longo do tempo
df['Vendas'].plot(figsize=(10, 5), color='blue', linewidth=2)
plt.title('Variação das Vendas ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Vendas')
plt.grid(True)
plt.show()

Comparando múltiplas séries temporais

É possível comparar várias séries temporais no mesmo gráfico.

# Plotando vendas e lucro ao longo do tempo
df[['Vendas', 'Lucro']].plot(figsize=(10, 5), linewidth=2)
plt.title('Vendas e Lucro ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Valor')
plt.legend(['Vendas', 'Lucro'])
plt.grid(True)
plt.show()

Analisando sazonalidade e tendências

Você pode decompor dados temporais para analisar sazonalidade e tendências.

from statsmodels.tsa.seasonal import seasonal_decompose

# Decompondo dados de vendas
decomposition = seasonal_decompose(df['Vendas'], model='additive', period=12)

# Exibindo as componentes (tendência, sazonalidade, resíduos)
decomposition.plot()
plt.show()

Visualizando dados em um período específico

Você pode selecionar e plotar dados para um período específico.

# Extraindo dados de 2023
df_2023 = df['2023']
df_2023['Vendas'].plot(figsize=(10, 5), color='green', linewidth=2)
plt.title('Variação das Vendas em 2023')
plt.xlabel('Data')
plt.ylabel('Vendas')
plt.grid(True)
plt.show()

Customizando gráficos temporais

Você pode adicionar marcadores e anotações para destacar tendências em gráficos temporais.

# Adicionando marcadores aos dados de vendas
plt.plot(df.index, df['Vendas'], marker='o', color='red', linewidth=2)
plt.title('Variação das Vendas (com Marcadores)')
plt.xlabel('Data')
plt.ylabel('Vendas')
plt.grid(True)

# Adicionando anotação para o maior valor de vendas
peak_date = df['Vendas'].idxmax()  # Data do maior valor de vendas
peak_value = df['Vendas'].max()
plt.annotate(f'Máximo de Vendas: {peak_value}', xy=(peak_date, peak_value), xytext=(peak_date, peak_value + 100),
             arrowprops=dict(facecolor='black', arrowstyle='->'), fontsize=10)

plt.show()

Criando gráficos interativos temporais

Para criar gráficos interativos, você pode utilizar bibliotecas como Plotly.

import plotly.express as px

# Criando gráfico interativo de vendas ao longo do tempo
fig = px.line(df.reset_index(), x='Data', y='Vendas', title='Variação das Vendas ao Longo do Tempo')
fig.show()

Essas técnicas permitem visualizar dados temporais de forma eficaz e identificar tendências e sazonalidades. A seguir, veremos como plotar múltiplos gráficos simultaneamente.

Como plotar múltiplos gráficos simultaneamente

Durante a análise de dados, exibir múltiplos gráficos ao mesmo tempo facilita a comparação de dados sob diferentes perspectivas. Vamos aprender como plotar múltiplos gráficos simultaneamente usando Matplotlib e Seaborn.

Plotando múltiplos gráficos com Matplotlib

Usando subplot no Matplotlib, é possível criar vários gráficos em uma única figura.

import matplotlib.pyplot as plt

# Criando gráficos em 2 linhas e 2 colunas
fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# Gráfico 1: Variação das Vendas
axes[0, 0].plot(df.index, df['Vendas'], color='blue', linewidth=2)
axes[0, 0].set_title('Variação das Vendas')
axes[0, 0].set_xlabel('Data')
axes[0, 0].set_ylabel('Vendas')

# Gráfico 2: Variação do Lucro
axes[0, 1].plot(df.index, df['Lucro'], color='green', linewidth=2)
axes[0, 1].set_title('Variação do Lucro')
axes[0, 1].set_xlabel('Data')
axes[0, 1].set_ylabel('Lucro')

# Gráfico 3: Distribuição das Vendas (Histograma)
axes[1, 0].hist(df['Vendas'], bins=15, color='orange', edgecolor='black')
axes[1, 0].set_title('Distribuição das Vendas')
axes[1, 0].set_xlabel('Vendas')
axes[1, 0].set_ylabel('Frequência')

# Gráfico 4: Relação entre Preço e Vendas (Dispersão)
axes[1, 1].scatter(df['Preço'], df['Vendas'], color='purple', alpha=0.7)
axes[1, 1].set_title('Relação entre Preço e Vendas')
axes[1, 1].set_xlabel('Preço')
axes[1, 1].set_ylabel('Vendas')

# Ajustando o layout
plt.tight_layout()
plt.show()

Plotando múltiplos gráficos com Seaborn

Usando o FacetGrid do Seaborn, você pode dividir dados por categoria e plotar múltiplos gráficos.

import seaborn as sns

# Criando gráficos de vendas por categoria
g = sns.FacetGrid(df, col="Categoria", col_wrap=3, height=4)
g.map(sns.lineplot, "Data", "Vendas")
g.set_titles("{col_name}")
g.set_axis_labels("Data", "Vendas")
plt.show()

Sobrepondo gráficos diferentes em uma única figura

É possível sobrepor diferentes tipos de gráficos em uma única figura para facilitar comparações.

fig, ax1 = plt.subplots(figsize=(10, 6))

# Plotando as vendas como gráfico de linha
ax1.plot(df.index, df['Vendas'], color='blue', label='Vendas')
ax1.set_xlabel('Data')
ax1.set_ylabel('Vendas', color='blue')
ax1.tick_params(axis='y', labelcolor='blue')

# Sobrepondo o lucro como gráfico de barras
ax2 = ax1.twinx()  # Criando um segundo eixo y
ax2.bar(df.index, df['Lucro'], color='orange', alpha=0.6, label='Lucro')
ax2.set_ylabel('Lucro', color='orange')
ax2.tick_params(axis='y', labelcolor='orange')

# Título e legenda
fig.suptitle('Comparação entre Vendas e Lucro')
fig.legend(loc='upper left', bbox_to_anchor=(0.1, 0.9))
plt.show()

Salvando gráficos individuais

Para salvar gráficos individuais, use savefig() para cada gráfico.

# Salvando a variação das vendas ao longo do tempo
df['Vendas'].plot()
plt.title('Variação das Vendas')
plt.savefig('sales_trend.png')
plt.clf()  # Limpa o gráfico atual

# Salvando a distribuição das vendas
df['Vendas'].plot(kind='hist', bins=15, color='orange', edgecolor='black')
plt.title('Distribuição das Vendas')
plt.savefig('sales_distribution.png')
plt.clf()

Salvando gráficos interativos

Os gráficos interativos criados com Plotly podem ser salvos no formato HTML.

import plotly.express as px

# Criando um gráfico interativo de vendas
fig = px.line(df.reset_index(), x='Data', y='Vendas', title='Variação das Vendas')

# Salvando o gráfico em formato HTML
fig.write_html('interactive_sales_plot.html')

Verificando os gráficos salvos

Você pode abrir a imagem salva diretamente no Python usando o código abaixo.

from PIL import Image

# Abrindo a imagem salva
img = Image.open('sales_trend.png')
img.show()

Essas técnicas permitem salvar e compartilhar gráficos de maneira eficaz. Por fim, faremos um resumo do artigo.

Resumo

Neste artigo, exploramos como usar a biblioteca Pandas do Python para visualizar dados CSV. Abordamos desde o carregamento dos dados, criação de gráficos básicos, visualização de séries temporais, exibição de múltiplos gráficos e personalização de gráficos, até o salvamento e compartilhamento dos resultados.

A visualização de dados é uma habilidade importante para comunicar informações de forma clara. Com o Pandas, Matplotlib e Seaborn, é possível identificar padrões e tendências de maneira eficiente. Além disso, as opções de salvar e criar gráficos interativos permitem uma apresentação dinâmica dos resultados.

Utilzize essas técnicas para realizar análises mais eficientes e criar apresentações impactantes.