Skip to content

Big Data project with pandas to read csv and raw data files and work with them

Notifications You must be signed in to change notification settings

natan5388/BigData_project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Sobre o projeto

Projeto final feito para a disciplina Topicos de big data em python, cursando na estácio em 18/11/2022, prof. docente: @EvandroJRSilva feito por mim e com ajuda de dois colegas. Adicionarei o @ posteriomente

Formato do projeto

Cada pasta contem tanto o programa (.py) quanto a database (.csv) que ele trabalha. O projeto é composto por todas as pastas e sub-arquivos juntos, apesar de ser possivel trabalha-los separadamente tambem, esse é tambem o motivo do read.csv estar nesse formato (subpasta/arquivo.csv).

Requisitos do projeto

Manipulações mínimas necessárias (Em pelo menos 5 bases de dados):

  • Garantir, em um objeto do tipo DataFrame, que cada linha corresponda a uma observação e cada coluna a um atributo.
  • Imprimir o tipo de dado de cada coluna.
  • Imprimir a média aritmética, desvio-padrão, moda, mediana, maior e menor valor de cada coluna. Quando possível, apresentar esses valores estatísticos sobre todos os dados.
  • Ordenar de forma ascendente e descendente de acordo com cada coluna.
  • Apresentar, para cada coluna, as observações cujos valores estejam abaixo e acima da média. Primeiro mostrar os valores abaixo, e depois mostrar os acima.
  • Caso exista valores ausentes na base de dados escolhida, preencher os dados vazios pela média da coluna.
  • Escolher dois atributos de forma aleatória e plotar um gráfico dividindo pelas classes. Ex.: em uma base com 3 classes, a primeira classe plotada como círculo, a segunda como + e a terceira como *.

Disclaimer

Realmente algumas databases não está claro onde os dados são categoricos ou numericos. então re-intero que todos os dados passados ao plot como classe são categoricos. alguns programas tem o link para o site e fonte da respectiva "Base de dados".
Para facilitar a leitura das tabelas recomenda-se o uso da extensão Rainbow CSV no VS Code.

About

Big Data project with pandas to read csv and raw data files and work with them

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages