Skip to content

Latest commit

 

History

History
21 lines (18 loc) · 879 Bytes

atividades_2020_2.md

File metadata and controls

21 lines (18 loc) · 879 Bytes

Atividades

Descrição resumidada das atividades avaliativas

Unidade I

  • Escolha uma base de dados de textos. De preferência com textos pequenos (frases)
  • Construir um código capaz de:
    • Tratar os dados:
      • Remover pontuação
      • Tornar tadas as palavras minúsculas
      • Extrair a "Raiz" / Radical das palavras
      • Retirar palavras vazias (stop words)
    • Gerar uma representação numérica (vetor) para cada texto (frase)
      • Bag of Words
    • Testar se a representação numéricas é coerente
      • Escolher pelo menos três frases e calcular o vetor bag of word destas
      • Calcular o grau de similaridade entre cada frase escolhida e a frase equivalente na base de dados
    • Realizar uma discussão crítica sobre este processo
      • Em torno de um parágrafo

A entrega pode ser via arquivo do colaboratory research (Colab).