Projeto final feito para a disciplina Topicos de big data em python, cursando na estácio em 18/11/2022, prof. docente: @EvandroJRSilva feito por mim e com ajuda de dois colegas. Adicionarei o @ posteriomente
Cada pasta contem tanto o programa (.py) quanto a database (.csv) que ele trabalha. O projeto é composto por todas as pastas e sub-arquivos juntos, apesar de ser possivel trabalha-los separadamente tambem, esse é tambem o motivo do read.csv
estar nesse formato (subpasta/arquivo.csv).
Manipulações mínimas necessárias (Em pelo menos 5 bases de dados):
- Garantir, em um objeto do tipo DataFrame, que cada linha corresponda a uma observação e cada coluna a um atributo.
- Imprimir o tipo de dado de cada coluna.
- Imprimir a média aritmética, desvio-padrão, moda, mediana, maior e menor valor de cada coluna. Quando possível, apresentar esses valores estatísticos sobre todos os dados.
- Ordenar de forma ascendente e descendente de acordo com cada coluna.
- Apresentar, para cada coluna, as observações cujos valores estejam abaixo e acima da média. Primeiro mostrar os valores abaixo, e depois mostrar os acima.
- Caso exista valores ausentes na base de dados escolhida, preencher os dados vazios pela média da coluna.
- Escolher dois atributos de forma aleatória e plotar um gráfico dividindo pelas classes. Ex.: em uma base com 3 classes, a primeira classe plotada como círculo, a segunda como + e a terceira como *.
Realmente algumas databases não está claro onde os dados são categoricos ou numericos. então re-intero que todos os dados passados ao plot como classe são categoricos. alguns programas tem o link para o site e fonte da respectiva "Base de dados".
Para facilitar a leitura das tabelas recomenda-se o uso da extensão Rainbow CSV
no VS Code.