Skip to content
JanMeritus edited this page Jul 31, 2017 · 5 revisions

Manuál žatvy

1. Check tabuľky

1. zistenie sklizní, ktoré treba odpáliť.

2. Vygenerovanie odpovedajúcich semienok

Generácia v Sidri

  • 1. Choď do "semínkovače"
  • 2. ctrl+a -označ všetko

3. Práca v terminály


1. nahoď si pracovné prostredie via

screen -r 
cd /opt/heritrix/jobs/Crawler-config/Monthly-crawls/2017

2. Utvorenie seeds-YYYY-MM-varianty-varianty.txt

Vleze sa do dovnútra k seeds, rozložené po rokoch. Vytvoriť vo formáte a názve seeds-2017-02-a pripona sklizne, V - je výberova, V1M .txt Spolu so seederom sa vygenerujú príslušné semienka a zavedú sa do príslušných súborov.
ŠPECIALITKA: Plus semienka pre cuni a no contracts>> http://intranet.webarchiv.cz/seeds/no_contracts.php, su s príponou NoContracts (je to V-NC)
Cuni su vo vonkajšom adresári a vedľa - crawler beans. Pevne zadefinovaný odkaz na nich v beans.cxml

Alebo seedy hod hore od seba:

scp seeds-2017-07* [email protected]:/opt/heritrix/jobs/Crawler-config/Monthly-crawls/2017 

3. Zlúčenie seedov

Deje sa cez zložku jobs v koreni všetkých heritrixov a via jobs do crawler config.
Semienka si treba vysortiť na unique a vizuálne ešte raz skontrolovať. Ak by bolo niečo divné, poslať hneď podnet kurátorom, že čo ako to majú u seba.
$ sort 2017/seeds-2017-03-* seeds-CUNI.txt seeds-oneshot.cz > seeds.txt

$ -u -nique sa dela vo vimu : sort u a idealne skontrolovat data, veci co zacinaju na http, a rozne slashe na zaciatku upravit, a poznamenta kuratorkam

ak je problem s windowsovskymi znakmi treba nato substitute regexom vo vim-e:

:%s/ Ctrl -V Ctrl-M>/\r/g

pricom dolezite je robit speci znak cez ctrl-m/v

4. Ocheckovat commit na minulom mesiaci

$ git status

5. Nastavenie Crawlerbeans.cxml:

Values changing with each crawl:

-metadata.jobName=Serials 2017-02-1M_2M_CUNI_ArchiveIt
-metadata.description=Pravidelná sklizeň semínek s měsíční frekvencí, pravidelná sklizeň semínek s dvojměsíční frekvencí, sklizeň webů Karlovy univerzity, archivace semínek s nízkou frekvencí přidaných za minulý měsíc.
-warcWriter.prefix=Serials-2017-02-1M_2M_CUNI_ArchiveIt
-warcWriter.storePaths=/mnt/archives/archive14/2017/serials/Serials-2017-02-1M_2M_CUNI_ArchiveIt
+metadata.jobName=Serials[medzera]2017-03-1M_6M_NoContract_CUNI_ArchiveIt
+metadata.description=Pravidelná sklizeň semínek s měsíční frekvencí, pravidelná sklizeň semínek s půlroční frekvencí, sklizeň semínek bez smlouvy, sklizeň webů Karlovy univerzity, archivace semínek s nízkou frek vencí přidaných za minulý měsíc.
+warcWriter.prefix=Serials-2017-03-1M_6M_NoContract_CUNI_ArchiveIt
+warcWriter.storePaths=/mnt/archives/archive14/2017/serials/Serials-2017-03-1M_6M_NoContract_CUNI_ArchiveIt

5. Kontrola zmien a push na github

pridanie súborov do gitu:
$ git add crawler-beans.cxml seeds.txt 2017/seeds-2017-02-*

skontrolovať, čo je vybrané:
$ git status
a pak to tam odpálkovať s príslušným označením DOBEHLEJ sklizne - tá súčasná [3] sa zálohuje až dobehne
$ git commit -m 'Serials 2017[medzera]02[medzera]1M_6M_NoContract_CUNI_ArchiveIt'

Skontrolovať o kolko komitov sme dozadu, overiť, či je všetko správne, lebo hrozí nebezpečie inkonzistencie
$ git push

4. Odštartovať novú sklizeň

  • Pustiť si lokál GUI inštanciu Heritrixu na https://10.10.0.200:7778/ .
  • Ocheckovat sklizeň a zrušiť ju ak ešte si frčí: PAUSE, TEARDOWN.
Tip: ak si to frčí beztak ďalej, nezostáva, než zhodiť Heritrix komplet. Skontrolovať ale najprv, či idealne warcy su uzavrete - žiadan status open, invalid apod.

Následne znova nahodenie: zájsť do koreňa všetkých heritrixov a pustiť si skripta: ./start3.sh
  • Kým dobehne, ocheckovat git, či semienka boli z dobehnutej sklizne commitnute, potom git staus - čo sa v lokálnom zmenili. odpáliť cestou: cd 2017, aby bola priama cesta k seeds a pak pridať vybrané súbory.