Visualização e manipulação

Ao começar uma análise exploratória de dados, nossa primeira tarefa é abrir a tabela. Nesta visualização é importante verificar se ocorreram possíveis erros de leitura do arquivo:

  • Cada observação ficou em uma linha?

  • Cada variável em uma coluna?

  • O nome das variáveis ficaram na primeira linha da tabela?

Respondendo a estas perguntas, já podemos ter a primeira impressão sobre os dados.

Um ponto importante, que muitas vezes é ignorado, é olhar a aparência da tabela para alguns registros. O objetivo dessa avaliação visual (que pode ser feita navegando pela tabela e olhando o padrão de preenchimento) é verificar se não ocorreram deslocamentos de campos, o que pode acontecer na extração de grandes bancos de dados. Um exemplo desse deslocamento é apresentado na Figura 7.

Figura 7: Exemplo de deslocamento de campos na tabela “funcionario”.

Digamos que a tabela “funcionario” fosse enorme, e em algum momento na coluna estado_civil passássemos a enxergar um número, que provavelmente deveria estar na coluna seguinte (nfilhos). Claramente esta tabela sofreu um problema de importação ou de extração, que causou o deslocamento dos dados. Vamos ver como descobrir esse tipo de situação de forma prática.

Quando ocorre o deslocamento de dados, é necessário realizar uma investigação para determinar o que causou o problema, que pode ser na importação/exportação, mas também pode ser mais grave como um problema no banco de dados.

Para um exemplo prático de visualização de uma tabela de dados será utilizada a tabela “funcionario”, disponível neste link, que está no formato csv. O formato csv é um arquivo texto que traz cada observação da tabela em uma linha e os valores das variáveis separados por um delimitador, normalmente a vírgula (,). A tabela “funcionario” utiliza como delimitador de coluna o ponto e vírgula (;) e como separador de número decimal o ponto (.). É preciso ter cuidado com estes delimitadores quando utilizar formato numérico brasileiro, isto é, ponto como separador de milhar e vírgula como separador decimal.

Guest User