Skip to content

Ztein/ragsimple

Repository files navigation

Riksbank RAG - Se hur korven tillverkas!

Ett pedagogiskt exempel för att lära sig bygga en komplett RAG-pipeline.

Vad gör detta projekt?

vi har skrapat innehåll från riksbank.se finns i raw_files.zip

Vi har förberett en mycket enkel vektordatabas med ett API som vi kan starta för att testa att köra frågor mot. Vi har förberett en enkel chattaplikation som låter dig som utvecklare testa att du får relevanta svar från vår RAG.

Det du som utvecklare ska göra är att bygga metoden för att dela upp artiklar och PDF:er:er i chunks efter några olika chunkingstrategier, sedan ska du embedda dessa och lagra i den enkla vektordatabasen Därefter testa med den enkla chattapplikationen så att du ser vad som händer när vi stoppar in de extraherade chunksen in i kontexten och kan få bättre svar.

Färdiga exempel

chunker_example.py

En konkret implementation av sliding window chunking-strategin. Kan användas som:

  1. Backup-lösning om du kör fast med din egen implementation
  2. Generera chunks för att populera vektordatabasen

Kör med:

python chunker_example.py

Detta processerar 200 filer från raw_files och genererar chunks till data/chunks/chunks.jsonl.

embedder_example.py

En konkret implementation av embedding-processen med OpenAI's text-embedding-3-small modell. Används för att skapa vektorer av chunksen och spara dem till den formatet som den enkla vektordatabasen kräver.

Funktioner:

  • Idempotent (kan köras flera gånger utan att göra om arbete)
  • Parallella anrop (snabbare bearbetning)
  • Sparar till data/riksbank.se.csv

Kör med:

python embedder_example.py

Se till att du har OPENAI_API_KEY i din .env fil.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages