Mas afinal, o que são dados?
Define-se dados como
“Representação de fatos, conceitos e instruções, por meio de sinais, de maneira formalizada, possível de ser transmitida ou processada pelo homem ou por máquinas.” (MICHAELIS online, 2021)
Então, tudo que é registrado de alguma forma é um dado. Podemos classificar os dados em dois tipos: dados estruturados ou não estruturados (Figura 1) e, dependendo do seu formato, podem ser armazenados em diversos tipos de arquivos (tabelas, imagens, áudios, e-mails etc). Esses arquivos são armazenados em estrutruturas maiores chamadas de repositórios ou bancos de dados.
Figura 1: Diferença entre dados estruturados e não estruturados.
Dados não estruturados não possuem um organização em formato de tabela, podem ser imagens, áudios, vídeos, textos em pdf e e-mails entre outros. Podem conter um mais destes tipos no mesmo banco de dados. Alguns exemplos de dados não estruturados são as imagens de leitura digital dos caixas eletrônicos, identificação facial e dados de redes sociais.
Os dados (estruturados) são armazenados em tabelas nas quais cada linha contém os dados de uma observação e as características de cada observação são dispostas em colunas. Assim, a tabela de dados contém um número de linhas igual ao número observações e um número de colunas igual ao número de variáveis de cada observação. Como exemplos de dados estruturados temos: a lista de passageiros de um avião onde é informado o seu nome, RG, destino, horário de embarque, horário de desembarque e número do assento. Outro exemplo é a lista de clientes de um banco com nome, endereço, RG, CPF, data de nascimento, data de abertura da conta, tipo de conta, agência, tipo de cartão, bandeira do cartão e limite de crédito.
Este texto foi construído para dados estruturados, considerando a importância e frequência deste tipo de informação no dia a dia.
Para este texto foram criadas tabelas com dados hipotéticos, que servirão para ilustrar os conceitos. Na Figura 2 vemos uma dessas tabelas, de nome “funcionario”.
Figura 2: Variáveis e Observações da tabela “funcionario”.
A tabela “funcionario” possui 40 linhas (observações ou registros) e 8 colunas (variáveis ou campos). Cada linha desta tabela representa um funcionário e cada coluna representa uma característica do funcionário.
As tabelas podem ser de diversos formatos, entre eles, arquivos com as extensões CSV, XLSX e TXT. Neste texto usaremos o CSV que é um arquivo que pode ser manipulado por editores de textos e planilhas eletrônicas.
Outra característica importante em uma tabela de dados, é que ela normalmente possui um ou mais identificadores para cada observação (linha), chamados de chave (key) ou ID (identificador). Essas variáveis são importantes para processos de busca, ordenação e cruzamento de dados e podem ser do tipo chave primária ou chave secundária:
Chave primária (primary key) : é uma variável ou uma combinação de variáveis cujos valores identificam uma, e somente uma observação em uma tabela.
Chave secundária: também conhecida como chave estrangeira (foreign key) é uma variável que permite a referência a registros vindos de outra tabela e por isso não precisa ser única como a chave primária. A chave secundária é um campo ou um conjunto de campos que compõem a chave primária da tabela referenciada.
Na Figura 3 podemos visualizar esses conceitos com o acréscimo da tabela “venda”. A chave primária da tabela “funcionario” é a variável id_funcionario . A chave primária da tabela “venda” é a variável id_venda . A chave secundária da tabela “venda” é a variável id_funcionario . Com essa chave cruzar a tabela “funcionario” com a tabela “venda”, indicando qual funcionário realizou aquela venda.
Figura 3: Chaves das tabelas “funcionario” e “venda”.
Agora que já entendemos a estrutura de uma tabela de dados, vamos focar nas variáveis desta tabela e entender quais são seus possíveis tipos de variáveis.