Microdados no R

microdadosrA disponibilidade de bases de dados cresce exponencialmente, enquanto a capacidade dos pesquisadores em Ciência Política em trata-las não acompanha o mesmo ritmo. Isso fez e tem feito com que muitos estudos e pesquisas sejam feitas com dados de outras pesquisas, que muitas vezes são de outras áreas. Afinal, quem nunca “pegou emprestado” uma tabela com alguns dados de um artigo interessante?  Pois bem, mas que tal aprender a trabalhar e a tratar as bases na sua origem? Ter a confiança, riqueza e a precisão que sua pesquisa merece?

O processo de entender e acessar essas bases de dados não é trivial, demanda um conhecimento mínimo de software estatístico e da organização dos arquivos que compõem as bases de dados. Este post é para aqueles que já conhecem o R (entenda) e pretende ajudar o leitor a acessar os microdados do IBGE e INEP. Se você está acostumado a trabalhar com o SPSS, clique aqui.

Nos dois primeiros tópicos pretende-se acessar, baixar e compreender a lógica dos dados da PNAD disponibilizada pelo IBGE. Vale destacar que o raciocínio da organização dos arquivos é o mesmo quando comparado aos microdados da educação. Como exemplo para ilustrar a escolha das variáveis, vamos nos próximos passos selecionar os dados de renda, escolaridade, cor ou raça, idade, estado civil, entre outros, para os arquitetos com base da PNAD de 2011.

 

abertura

Video 1

No tópico “Importar os dados para o R” pretende-se apresentar sete formas distintas de extrair informações de dados disponibilizados em arquivos de texto. Sendo oportuno salientar que cada função do R utilizada tem uma finalidade específica, e que conhecer diversas formas de importar dados é importante para resolver problemas distintos. Permite ainda resolver o mesmo problema de diversas formas, adequando há sua capacidade computacional. Usando o função read.fwf() é possível importar dados sem separação entre as colunas onde não existe o dicionário. Certamente é a forma mais demorada. Video 2

As funções do pacote SAScii, elaborado por Anthony Damico,  uma forma rápida e fácil para importar dados armazenados em arquivos de texto que tenham dicionário em formato do software SAS. A maioria dos dados disponibilizados pelo IBGE e pelo Inep podem ser importados utilizando as funções desse pacote.

Video 3

Para transformar arquivos txt em csv, com separação entre as colunas, pode-se utilizar a função fwf2csv() elaborada por Marcos F Silva. Essa forma de trabalhar é útil para os usuários que desejam apenas importar os dados usando o R e em seguida trabalhar com outro software, ou, para os usuários que desejam trabalhar com o pacote sqldf. Serão utilizadas duas formas para obter o dicionário de dados, a) carregando o dicionário disponibilizado pelo IBGE, e b) importando o dicionário com a função getdic(), também elaborada por Marcos F Silva.

cd4 cod1 sqlOs próximos passos exigem que o leitor tenha um conhecimento mínimo de SQL. Segundo a wikipédia, Structured Query Language, ou Linguagem de Consulta Estruturada ou SQL, é a linguagem de pesquisa declarativa padrão para banco de dados relacional (base de dados relacional). Muitas das características originais do SQL foram inspiradas na álgebra relacional. Para entender o raciocínio de banco de dados sem necessitar fazer uma matéria em um curso de ciência da computação, nada melhor que os tutoriais do youtube e as apostilas sobre o assunto. Destacando que o conhecimento necessário é a noção do que é um banco de dados (composto por várias tabelas), chave primária, chave estrangeira e o comando SELECT.
O pacote sqldf permite extrair dados selecionados de forma rápida de arquivos csv. Útil para trabalhar com arquivos csv grandes, ou quando a capacidade de memória ram  é limitada.

 

Os comandos apresentados até o momento facilitam a extração dos dados considerando que os arquivos a serem abertos são grandes. Contudo, quando necessitamos tirar a média de um vetor muito grande, que deve ser carregado na memória do R, os comandos que utilizamos até então não ajudam. Ou seja, aprendemos a tirar informações “pequenas” de arquivos grandes. Assim, os dois próximos comandos que serão apresentados tem como diferencial permitir realizar cálculos sem que os dados sejam carregados na memória do R.

read.SAScii.sql()

O melhor dos mundos, importar um arquivo txt para uma base SQLite em um único comando. Veja como essa maravilha funciona:

 

Na próxima artigo seguirei com a análise de grande bases de dados, dessa vez trabalhando com os dados do censo demográfico de 2010. Sendo apresentado funções mais ligadas a extrair estatísticas e criar tabelas

Dúvidas? Sugestões? O que vocês acharam? Deixe um comentário!!!

Um abraço e até a próxima,

Roney Fraga

 


Fatal error: Uncaught Exception: 12: REST API is deprecated for versions v2.1 and higher (12) thrown in /home/storage/4/6f/c7/pesquisamaconica/public_html/metodologiapolitica/wp-content/plugins/seo-facebook-comments/facebook/base_facebook.php on line 1273