Skip to content

Latest commit

 

History

History
29 lines (26 loc) · 1.86 KB

readme.md

File metadata and controls

29 lines (26 loc) · 1.86 KB

Sobre o projeto

Projeto final feito para a disciplina Topicos de big data em python, cursando na estácio em 18/11/2022, prof. docente: @EvandroJRSilva feito por mim e com ajuda de dois colegas. Adicionarei o @ posteriomente

Formato do projeto

Cada pasta contem tanto o programa (.py) quanto a database (.csv) que ele trabalha. O projeto é composto por todas as pastas e sub-arquivos juntos, apesar de ser possivel trabalha-los separadamente tambem, esse é tambem o motivo do read.csv estar nesse formato (subpasta/arquivo.csv).

Requisitos do projeto

Manipulações mínimas necessárias (Em pelo menos 5 bases de dados):

  • Garantir, em um objeto do tipo DataFrame, que cada linha corresponda a uma observação e cada coluna a um atributo.
  • Imprimir o tipo de dado de cada coluna.
  • Imprimir a média aritmética, desvio-padrão, moda, mediana, maior e menor valor de cada coluna. Quando possível, apresentar esses valores estatísticos sobre todos os dados.
  • Ordenar de forma ascendente e descendente de acordo com cada coluna.
  • Apresentar, para cada coluna, as observações cujos valores estejam abaixo e acima da média. Primeiro mostrar os valores abaixo, e depois mostrar os acima.
  • Caso exista valores ausentes na base de dados escolhida, preencher os dados vazios pela média da coluna.
  • Escolher dois atributos de forma aleatória e plotar um gráfico dividindo pelas classes. Ex.: em uma base com 3 classes, a primeira classe plotada como círculo, a segunda como + e a terceira como *.

Disclaimer

Realmente algumas databases não está claro onde os dados são categoricos ou numericos. então re-intero que todos os dados passados ao plot como classe são categoricos. alguns programas tem o link para o site e fonte da respectiva "Base de dados".
Para facilitar a leitura das tabelas recomenda-se o uso da extensão Rainbow CSV no VS Code.