Skip to content

Latest commit

 

History

History
79 lines (73 loc) · 4.06 KB

ManualZatvy.md

File metadata and controls

79 lines (73 loc) · 4.06 KB

Manuál žatvy

1. Check tabuľky

1. zistenie sklizní, ktoré treba odpáliť.

2. Vygenerovanie odpovedajúcich semienok

Generácia v Sidri

  • 1. Choď do "semínkovače"
  • 2. ctrl+a -označ všetko

3. Práca v terminály


1. nahoď si pracovné prostredie via

screen -r 

2. Utvorenie seeds-YYYY-MM-varianty-varianty.txt

Vleze sa do dovnútra k seeds, rozložené po rokoch. Vytvoriť vo formáte a názve seeds-2017-02-a pripona sklizne, V - je výberova, V1M .txt. Pre kazdu jednu variantu semienka zvlast, zlucia sa v ktoku c. 3. Spolu so seederom sa vygenerujú príslušné semienka a zavedú sa do príslušných súborov.
ŠPECIALITKA: Plus semienka pre 
  • no contracts>http://intranet.webarchiv.cz/seeds/no_contracts.php, su s príponou NoContracts (je to V-NC)
  • cuni
  • Cuni sa negeneruju, sú vo vonkajšom adresári a vedľa - crawler beans. Pevne zadefinovaný odkaz na nich v beans.cxml

3. Zlúčenie seedov

Deje sa cez zložku "jobs" reálne v koreni tj ../YYYY a via jobs do crawler config.
Semienka si treba vysortiť na unique a vizuálne ešte raz skontrolovať. Ak by bolo niečo divné, poslať hneď podnet kurátorom, že čo ako to majú u seba.
$ sort 2017/seeds-2017-03-* seeds-CUNI.txt seeds-oneshot.cz > seeds.txt

$ -u -nique sa dela vo vimu : sort u a idealne skontrolovat data, veci co zacinaju na http, a rozne slashe na zaciatku upravit, a poznamenta kuratorkam

4. Ocheckovat commit na minulom mesiaci

$ git status

5. Nastavenie Crawlerbeans.cxml:

Values changing with each crawl:

-metadata.jobName=Serials 2017-02-1M_2M_CUNI_ArchiveIt
-metadata.description=Pravidelná sklizeň semínek s měsíční frekvencí, pravidelná sklizeň semínek s dvojměsíční frekvencí, sklizeň webů Karlovy univerzity, archivace semínek s nízkou frekvencí přidaných za minulý měsíc.
-warcWriter.prefix=Serials-2017-02-1M_2M_CUNI_ArchiveIt
-warcWriter.storePaths=/mnt/archives/archive14/2017/serials/Serials-2017-02-1M_2M_CUNI_ArchiveIt
+metadata.jobName=Serials[medzera]2017-03-1M_6M_NoContract_CUNI_ArchiveIt
+metadata.description=Pravidelná sklizeň semínek s měsíční frekvencí, pravidelná sklizeň semínek s půlroční frekvencí, sklizeň semínek bez smlouvy, sklizeň webů Karlovy univerzity, archivace semínek s nízkou frek vencí přidaných za minulý měsíc.
+warcWriter.prefix=Serials-2017-03-1M_6M_NoContract_CUNI_ArchiveIt
+warcWriter.storePaths=/mnt/archives/archive14/2017/serials/Serials-2017-03-1M_6M_NoContract_CUNI_ArchiveIt

5. Kontrola zmien a push na github

pridanie súborov do gitu:
$ git add crawler-beans.cxml seeds.txt 2017/seeds-2017-02-*

skontrolovať, čo je vybrané:
$ git status
a pak to tam odpálkovať s príslušným označením DOBEHLEJ sklizne - tá súčasná [3] sa zálohuje až dobehne
$ git commit -m 'Serials 2017[medzera]02[medzera]1M_6M_NoContract_CUNI_ArchiveIt'

Skontrolovať o kolko komitov sme dozadu, overiť, či je všetko správne, lebo hrozí nebezpečie inkonzistencie
$ git push

4. Odštartovať novú sklizeň

  • Pustiť si lokál GUI inštanciu Heritrixu na https://10.10.0.200:7778/ .
  • Ocheckovat sklizeň a zrušiť ju ak ešte si frčí: PAUSE, TEARDOWN.
  • Tip: ak si to frčí beztak ďalej, nezostáva, než zhodiť Heritrix komplet. Skontrolovať ale najprv, či idealne warcy su uzavrete - žiadan status open, invalid apod.

    Následne znova nahodenie: zájsť do koreňa všetkých heritrixov a pustiť si skripta: ./start3.sh
  • Kým dobehne, ocheckovat git, či semienka boli z dobehnutej sklizne commitnute, potom git staus - čo sa v lokálnom zmenili. odpáliť cestou: cd 2017, aby bola priama cesta k seeds a pak pridať vybrané súbory.