Este projeto é uma ferramenta de análise de dados que lê arquivos CSV do Cadastro Nacional da Pessoa Jurídica (CNPJ) disponíveis no portal de dados abertos do governo brasileiro dados.gov.br.
O código contém uma lógica para extrair todos os dados de forma automática do arquivo decompress.py
. Em seguida, os dados são extraídos de três bases diferentes:
1.A função get_df_estab
busca as informações gerais das empresas, como ‘CNPJ BÁSICO’, ‘NOME FANTASIA’, ‘CEP’, ‘UF’, ‘CNAE’ e ‘SITUAÇÃO CADASTRAL’.
2.A função get_df_company
busca informações como ‘CNPJ BÁSICO’ e ‘CAPITAL SOCIAL DA EMPRESA’.
3.A função get_df_cnae
busca a descrição do CNAE.
Após a extração dos dados, a função merge_comp_estab_cnae
realiza a transformação dos dados e carrega-os em gráficos para uma visualização mais intuitiva.
tqdm
para a barra de progressopandas
para manipulação e análise de dadosos
para interação com o sistema operacionalconcurrent.futures
para execução paralelatime
para operações de tempomatplotlib.pyplot
eseaborn
para visualização de dadosshutil
para operações de arquivo de alto nível
Este projeto é uma ferramenta valiosa para qualquer pessoa interessada em analisar dados relacionados a empresas brasileiras de maneira eficiente e eficaz. Ele automatiza muitas das tarefas tediosas associadas à limpeza e transformação de dados, permitindo que os usuários se concentrem na análise e interpretação dos resultados.