Zadanie polega na stworzeniu klasy do odczytywania treści z plików (docelowo statutów). Wartością wejściową ekstraktora tekstu jest ścieżka do pliku, na początku jedynie pdf, txt inne formaty, które są względnie proste do przetworzenia. Na wyjściu powinna się pojawić informacja jaki jest to rodzaj pliku (czy na pewno jest to statut i pojawiają się tam informacje o zasadach) oraz czy lista poszczególnych paragrafów, które później mogę zostać sklasyfikowane jako zgodne, albo nie zgodne z prawem.