Webarchiv.[cz] | Manuál pro MANUÁLNÍ přípravu semínek pro sklizně
- Webarchiv.[cz] | Manuál pro MANUÁLNÍ přípravu semínek pro sklizně
- Požadavky
- Nejdříve si v terminálu nastavíme požadované proměné do svého prostředí
- Seeder API - harvests
- Následně pak již jenom využívat přirozeného prostřédí terminálu
- Získání semínek připravených ke sklizni
- Zpracovaní semínek
- Reference
- Není zapracováno
Software | Verze |
---|---|
terminal | |
git | |
curl |
Je třeba mít vytvořený přístupový token do aplikace Seeder.
url pro obsah proměné je třeba získat po dohohodě
Operační systém | terminal | Nastavení promměné | Obsah proměnné | Nastavení |
---|---|---|---|---|
Linux | bash | SEEDER_HOST | url_seeder_api | |
Microsoft | cmd | SEEDER_HOST | url_seeder_api | set SEEDER_HOST=https://app.webarchiv.cz |
Microsoft | powershell | SEEDER_HOST | url_seeder_api | |
Apple | SEEDER_HOST | url_seeder_api |
Pptřebná práva k provoznímu prostředí
Operační systém | terminal | Nastavení promměné | Obsah proměnné | Nastavení |
---|---|---|---|---|
Linux | bash | SEEDER_USERNAME | username | |
Microsoft | cmd | SEEDER_USERNAME | username | set SEEDER_USERNAME=user |
Microsoft | powershell | SEEDER_USERNAME | username | |
Apple | SEEDER_USERNAME | username |
pro datum
Operační systém | terminal | Nastavení promměné | Obsah proměnné | Nastavení |
---|---|---|---|---|
Linux | bash | SEEDER_DATE | dateType.day | |
Microsoft | cmd | SEEDER_DATE | dateType.day | set SEEDER_DATE=[dateType.day] |
Microsoft | powershell | SEEDER_DATE | dateType.day | |
Apple | SEEDER_DATE | dateType.day |
Nejdříve si v terminálu vytvoříme několik "funkci" pomocí variabilního prostředí
Výsledná "funkce" by měla zaručit pohodlný dotaz na kurátorský tool které sklizně obsahují semínka.
POST <SEEDER_HOST>/API/ - U USERNAME /
Operační systém | terminal | Nastavení promměné | Obsah proměnné | Nastavení |
---|---|---|---|---|
Linux | bash | SEEDER_SET_CREDENTIALS | dateType.day | |
Microsoft | cmd | SEEDER_GET_LIST | dateType.day | set SEEDER_GET_LIST=%SEEDER_HOST%/seeder/harvests/%SEEDER_DATE% |
Microsoft | powershell | SEEDER_GET_SEEDS | dateType.day | |
Apple | SEEDER_GET_SEEDS | dateType.day |
Výsledná "funkce" by měla zaručit pohodlný dotaz na kurátorský tool které sklizně obsahují semínka.
GET <SEEDER_HOST>/harvests/<SEEDER_DATE>/
Operační systém | terminal | Nastavení promměné | Obsah proměnné | Nastavení |
---|---|---|---|---|
Linux | bash | SEEDER_GET_HARVEST | dateType.day | |
Microsoft | cmd | SEEDER_GET_LIST | dateType.day | set SEEDER_GET_LIST=%SEEDER_HOST%/seeder/harvests/%SEEDER_DATE% |
Microsoft | powershell | SEEDER_GET_SEEDS | dateType.day | |
Apple | SEEDER_GET_SEEDS | dateType.day |
harvest shortcut_urls
SEEDER_GET_LIST/harvest
SEEDER_GET_LIST/shortcut_urls
proměná by ve výsledku měla být používana jako funkce které výsledkem je pohodlný dotaz na wekurátorský tool a stáhnout semínka.
GET <SEEDER_HOST>/harvests/<SEEDER_DATE>/<fileType.seeds>/-/[]/./<fileType.seed.fileformat>>
Operační systém | terminal | Nastavení promměné | Obsah proměnné | Nastavení |
---|---|---|---|---|
Linux | bash | SEEDER_GET_URLS | dateType.day | |
Microsoft | cmd | SEEDER_GET_URLS | dateType.day | set SEEDER_API_DATE=SEEDER_HOST/harvests/SEEDER_DATE |
Microsoft | powershell | SEEDER_GET_URLS | dateType.day | |
Apple | SEEDER_GET_URLS | dateType.day |
SEEDER_GET_LIST/harvest
SEEDER_GET_LIST/shortcut_urls
proměná by ve výsledku měla být zkratkou pro pohodlný dotaz pomocí cURL na wekurátorský tool a umět stáhnout semínka klizně.
Operační systém | terminal | Nastavení promměné | Obsah proměnné | Nastavení |
---|---|---|---|---|
Linux | bash | SEEDER_GET_HARVEST | ||
Microsoft | cmd | SEEDER_GET_HARVEST | set SEEDER_GET_HARVEST=SEEDER_HOST/harvests/ | |
Microsoft | powershell | SEEDER_GET_HARVEST | ||
Apple | SEEDER_GET_HARVEST |
SEEDER_GET_LIST/harvest
SEEDER_GET_LIST/shortcut_urls
Seeder poskytuje po ověření na svém api generované seznamy semínínek. K seznamům zdrojů lze přistupovat ze dvou pohledů.
Níže uvedené jsou adresy URL pro získávání semínek pro konkrétní sklizeňí, nebo výpis dostupných URL dle frekvence zařazení pro konkrétní den.
Z pohledu sklizně jako zastřešující nebo jako k seznamu semínek dle frekvence jejich sklízení:
/seeder/harvests/[dateType.day]/harvests | Seznam URL pro datum |
/seeder/harvests/1234/urls | All seeds for Harvest |
/seeder/harvests/[dateType.day]/shortcut_urls | Seznam URL pro datum |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-V1.txt | Jednou za rok (ročně) |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-V2.txt | Dvakrát za rok (půlročně) |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-V4.txt | Čtyřikrát za rok (čtvrletně) |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-V6.txt | Šestkrát za rok (každé dva měsíce) |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-V12.txt | Dvanáctkrát za rok (měsíčně) |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-V52.txt | Týdně |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-V365.txt | Denně |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-OneShot.txt | Jednorázově |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-ArchiveIt.txt | ArchiveIt |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-VNC.txt | VNC: Výběrové custom |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-Tests.txt | Tests |
/seeder/harvests/[dateType.day]/seeds-[dateType.day]-Totals.txt | Totals: Všechna semínka |
( kurátorksky označená sklizeň s příznakem ( zamražení semínek v čase ) )
curl SEEDER_GET_LIST/harvests > harvest.txt
curl SEEDER_GET_LIST/urls_shortcut > urls_shortcut.txt
curl SEEDER_GET_SEEDS/harvests/ < harvest-[dateType.day].txt
curl SEEDER_GET_SEEDS/harvests/ < urls_shortcut-[dateType.day].txt
Sloučení semínek se děje pomocí nástrojů příkazové řádky a pomocí programů poskytovaných operačním systémem.
Každý operační systém má svá specifika, možnosti a omezení. Proto pro práci s textem doporučuji využívat unixové nástroje.
Postupně budeme použití pro terminál doplňovat, jinak veškeré ukázky probíhaji v terminálu bash.
Operační systém | terminal | Příkaz | Parametry | Run | ||
---|---|---|---|---|---|---|
Linux | bash | sort | ||||
Microsoft | cmd | sort | ```type file.txt | sort /unique``` | ||
microsoft | cmd | sort | ```type file.txt | powershell -nop "$input | sort -unique``` | |
Microsoft | powershell | sort | ```Get-Content file.txt | Sort-Object -unique``` | ||
Apple | sort |
Seeder API
Metadatová specifikace projektu grainery/harvest
- Doplnění jak nákládat s konfiguračním souborem crawler-config
- Doplnění proměnných pro práci s crawlerem
- Doplnění jak pracovat přes API s crawlerem