diff --git a/.github/workflows/cd.yml b/.github/workflows/cd.yml index 44e57aa..8e6ff02 100644 --- a/.github/workflows/cd.yml +++ b/.github/workflows/cd.yml @@ -47,8 +47,7 @@ jobs: username: ${{ secrets.SERVER_USERNAME }} key: ${{ secrets.SERVER_PRIVATE_KEY }} script: | - cd ~/ai-server - + docker stop ai-server || true docker rm ai-server || true @@ -61,53 +60,4 @@ jobs: --name ai-server \ --env-file .env \ -p 8000:8000 \ - ${{ secrets.DOCKER_USERNAME }}/gotcha-ai:latest - - notify: - needs: deploy - runs-on: ubuntu-latest - - - - steps: - - name: Slack notification on success - if: success() - uses: slackapi/slack-github-action@v2 - with: - method: chat.postMessage - token: ${{ secrets.SLACK_BOT_TOKEN }} - payload: | - { - "channel": "${{ secrets.SLACK_CHANNEL_ID }}", - "text": "✅ *배포 성공:* ${{ github.repository }} 저장소의 `${{ github.ref_name }}` 브랜치가 성공적으로 배포되었습니다.", - "blocks": [ - { - "type": "section", - "text": { - "type": "mrkdwn", - "text": "*Status:* `${{ job.status }}`\n*Commit:* <${{ github.server_url }}/${{ github.repository }}/commit/${{ github.sha }}|${{ github.sha }}>\n*Actor:* ${{ github.actor }}" - } - } - ] - } - - - name: Slack notification on failure - if: failure() - uses: slackapi/slack-github-action@v2 - with: - method: chat.postMessage - token: ${{ secrets.SLACK_BOT_TOKEN }} - payload: | - { - "channel": "${{ secrets.SLACK_CHANNEL_ID }}", - "text": "❌ *배포 실패:* ${{ github.repository }} 저장소의 `${{ github.ref_name }}` 브랜치 배포가 실패했습니다.", - "blocks": [ - { - "type": "section", - "text": { - "type": "mrkdwn", - "text": "*Status:* `${{ job.status }}`\n*Commit:* <${{ github.server_url }}/${{ github.repository }}/commit/${{ github.sha }}|${{ github.sha }}>\n*Actor:* ${{ github.actor }}" - } - } - ] - } \ No newline at end of file + ${{ secrets.DOCKER_USERNAME }}/gotcha-ai:latest \ No newline at end of file diff --git a/config.py b/config.py deleted file mode 100644 index 601b601..0000000 --- a/config.py +++ /dev/null @@ -1,294 +0,0 @@ - -TEXT_THRESHOLD=0.7 - -# QuickDraw 데이터 설정 -IMAGE_SIZE = (32, 32) # 이미지 크기 (너비, 높이) -ENG_CATEGORIES= [ - "aircraft carrier", - "airplane", - "alarm clock", - "ambulance", - "angel", - "apple", - "arm", - "axe", - "backpack", - "banana", - "bandage", - "baseball", - "basketball", - "bat", - "bathtub", - "bed", - "bee", - "bicycle", - "bird", - "birthday cake", - "book", - "bowtie", - "bread", - "broom", - "bucket", - "bus", - "bush", - "butterfly", - "cake", - "calendar", - "camera", - "campfire", - "candle", - "car", - "carrot", - "cat", - "cell phone", - "chair", - "church", - "circle", - "cloud", - "compass", - "computer", - "cookie", - "couch", - "cow", - "crab", - "crocodile", - "crown", - "cup", - "dog", - "dolphin", - "donut", - "door", - "duck", - "ear", - "elephant", - "envelope", - "eye", - "eyeglasses", - "face", - "fan", - "fire hydrant", - "fish", - "flower", - "fork", - "frog", - "frying pan", - "garden", - "giraffe", - "grapes", - "guitar", - "hammer", - "hat", - "helicopter", - "hexagon", - "hockey stick", - "horse", - "ice cream", - "jacket", - "kangaroo", - "keyboard", - "knife", - "ladder", - "laptop", - "leaf", - "leg", - "lighthouse", - "lightning", - "lion", - "lobster", - "lollipop", - "mailbox", - "map", - "marker", - "megaphone", - "moon", - "motorbike", - "mountain", - "mug" -] -ENG_CATEGORIES= [ - "aircraft carrier", - "airplane", - "alarm clock", - "ambulance", - "angel", - "apple", - "arm", - "axe", - "backpack", - "banana", - "bandage", - "baseball", - "basketball", - "bat", - "bathtub", - "bed", - "bee", - "bicycle", - "bird", - "birthday cake", - "book", - "bowtie", - "bread", - "broom", - "bucket", - "bus", - "bush", - "butterfly", - "cake", - "calendar", - "camera", - "campfire", - "candle", - "car", - "carrot", - "cat", - "cell phone", - "chair", - "church", - "circle", - "cloud", - "compass", - "computer", - "cookie", - "couch", - "cow", - "crab", - "crocodile", - "crown", - "cup", - "dog", - "dolphin", - "donut", - "door", - "duck", - "ear", - "elephant", - "envelope", - "eye", - "eyeglasses", - "face", - "fan", - "fire hydrant", - "fish", - "flower", - "fork", - "frog", - "frying pan", - "garden", - "giraffe", - "grapes", - "guitar", - "hammer", - "hat", - "helicopter", - "hexagon", - "hockey stick", - "horse", - "ice cream", - "jacket", - "kangaroo", - "keyboard", - "knife", - "ladder", - "laptop", - "leaf", - "leg", - "lighthouse", - "lightning", - "lion", - "lobster", - "lollipop", - "mailbox", - "map", - "marker", - "megaphone", - "moon", - "motorbike", - "mountain", - "mug" -] - -KOR_CATEGORIES= [ - "항공모함", - "비행기", - "알람시계", - "앰뷸런스", - "천사", - "사과", - "팔", - "도끼", - "백팩", - "바나나", - "붕대", - "야구공", - "농구공", - "야구배트", - "욕조", - "침대", - "꿀벌", - "자전거", - "새", - "생일케이크", - "책", - "나비넥타이", - "빵", - "빗자루", - "양동이", - "버스", - "수풀", - "나비", - "케이크", - "달력", - "카메라", - "모닥불", - "양초", - "차", - "당근", - "고양이", - "핸드폰", - "의자", - "교회", - "동그라미", - "구름", - "컴파스", - "컴퓨터", - "쿠키", - "소파", - "소", - "게", - "악어", - "왕관", - "컵", - "개", - "돌고래", - "도넛", - "문", - "오리", - "귀", - "코끼리", - "편지봉투", - "눈", - "안경", - "얼굴", - "선풍기", - "소화기", - "물고기", - "꽃", - "포크", - "개구리", - "프라이팬", - "정원", - "기린", - "포도", - "기타", - "망치", - "모자", - "헬리콥터", - "육각형", - "하키 채", - "말", - "아이스크림", - "재킷", - "캥거루", "키보드", "칼", "사다리", "노트북", "나뭇잎", "다리", "등대", "번개", "사자", "가재", "막대사탕", "우체통", "지도", "보드마카", "확성기", "달", "오토바이", "산", "머그컵"] - -MODEL_PATH= 'src/image/trained_model/' \ No newline at end of file diff --git a/models/classifying_model.pth b/models/classifying_model.pth new file mode 100644 index 0000000..ad01257 Binary files /dev/null and b/models/classifying_model.pth differ diff --git a/requirements.txt b/requirements.txt index 89a7212..0780db4 100644 --- a/requirements.txt +++ b/requirements.txt @@ -1,4 +1,16 @@ +fastapi uvicorn python-multipart -fastapi -openai \ No newline at end of file +transformers +httpx +Pillow +--extra-index-url https://download.pytorch.org/whl/cpu +torch +torchvision +pydantic +openai +requests +easyocr +numpy +opencv-python-headless +boto3 \ No newline at end of file diff --git a/src/api/captioning.py b/src/api/captioning.py new file mode 100644 index 0000000..9d4a4e3 --- /dev/null +++ b/src/api/captioning.py @@ -0,0 +1,32 @@ +from fastapi import APIRouter, HTTPException, Request +from pydantic import BaseModel, Field + +from src.core.caption import generate_caption + +router = APIRouter( + tags=["Image Captioning"] +) + +class ImageReq(BaseModel): + image_url: str = Field(description="S3 이미지 URL") + +class CaptionRes(BaseModel): + caption: str = Field(description="이미지를 묘사하는 문장") + +@router.post( + "/caption", + summary="이미지 문장 추출 API", + description="S3 이미지 URL을 받아 해당 이미지를 묘사하는 적절한 문장을 반환합니다.", + response_model=CaptionRes, +) +async def caption_image(request: Request, body: ImageReq): + try: + response = await request.app.state.http.get(body.image_url) + response.raise_for_status() + if not response.headers.get("content-type", "").startswith("image/"): + raise HTTPException(415, "지원하지 않는 콘텐츠 유형입니다. 이미지 파일만 허용됩니다.") + caption = generate_caption(response.content) + except Exception as e: + raise HTTPException(status_code=500, detail=f"이미지 처리 중 오류가 발생했습니다: {e}") + + return CaptionRes(caption=caption) \ No newline at end of file diff --git a/src/api/classifying.py b/src/api/classifying.py new file mode 100644 index 0000000..335afd8 --- /dev/null +++ b/src/api/classifying.py @@ -0,0 +1,40 @@ +from fastapi import APIRouter, HTTPException, Request +from pydantic import BaseModel, Field +from src.core.classify import classify +router = APIRouter( + tags=["Image Classification"], +) + +class ImageReq(BaseModel): + image_url: str = Field(description="S3 이미지 URL") + +class AiPrediction(BaseModel): + predicted: str = Field(description="예측된 카테고리 (한국어)") + confidence: float = Field(description="신뢰도 점수") + +class ClassifyRes(BaseModel): + filename: str = Field(description="이미지 파일 이름") + result: list[AiPrediction] = Field(description="분류 결과 리스트") + + + + +@router.post( + "/classify", + summary="이미지 분류 API", + description="S3 이미지 URL을 받아 해당 이미지의 분류 결과를 반환합니다.", + response_model=ClassifyRes, +) +async def classify_image(request: Request, body: ImageReq): + try: + response = await request.app.state.http.get(body.image_url) + response.raise_for_status() + if not response.headers.get("content-type", "").startswith("image/"): + raise HTTPException(415, "Unsupported content-type") + predictions = classify(response.content) + except Exception as e: + raise HTTPException(status_code=500, detail=f"Error processing image: {e}") + + filename = body.image_url.split("/")[-1] + result = [AiPrediction(**pred) for pred in predictions] + return ClassifyRes(filename=filename, result=result) \ No newline at end of file diff --git a/src/api/image_routes.py b/src/api/image_routes.py deleted file mode 100644 index 0e1edb7..0000000 --- a/src/api/image_routes.py +++ /dev/null @@ -1,80 +0,0 @@ -from typing import Dict, Any, List - -from fastapi import APIRouter, File, UploadFile, Body, HTTPException -# from src.image import classifier, preprocessor, img_caption -from pydantic import BaseModel, Field -# import requests -from io import BytesIO -router = APIRouter(prefix="/image", tags=['Image']) - - -class AiPrediction(BaseModel): - predicted: str - confidence: float - -class ClassifyRes(BaseModel): - filename: str = Field(description="Image filename") - result: List[AiPrediction] = Field(description="Classifying result") - -class ImageReq(BaseModel): - imageURL: str = Field(description = "Image URL") - -@router.post( - "/classify", - summary="이미지 분류 API", - description="S3 이미지 URL을 받아 QuickDraw 345개 클래스를 기반으로 분류합니다.", - response_model=ClassifyRes, -) -async def classify(request: ImageReq = Body(...)): - # try: - # response = requests.get(request.imageURL) - # response.raise_for_status() # HTTPError 발생시 예외 처리 - # except Exception as e: - # raise HTTPException(status_code=400, detail=f"Image processing error: {str(e)}") - # - # try: - # bytes_img = response.content - # img = preprocessor.preproc(bytes_img) - # result = classifier.classify(img) - # except Exception as e: - # raise HTTPException(status_code=500, detail=f"Classification error: {str(e)}") - - result = [ - {'predicted': '항공모함', 'confidence': 0.85}, - {'predicted': '비행기', 'confidence': 0.10 }, - {'predicted': '커피', 'confidence' : 0.05} - ] - filename = request.imageURL.split("/")[-1] - return ClassifyRes(filename=filename, result=result) - - - -@router.post( - '/caption', - summary="이미지 문장 추출 API", - description="S3 이미지 URL을 받아 해당 이미지를 묘사하는 적절한 문장을 반환합니다.", -responses={ - 200:{ - "description":"성공", - "content" :{ - "application/json" : { - "example": "a black and white drawing of cat" - } - } - } -}) -async def captioning(request: ImageReq = Body(...)): - # try: - # response = requests.get(request.imageURL) - # response.raise_for_status() # HTTPError 발생시 예외 처리 - # except Exception as e: - # raise HTTPException(status_code=400, detail=f"Image processing error: {str(e)}") - # - # try: - # bytes_img = response.content - # img = preprocessor.preproc(bytes_img) - # caption = img_caption.get_caption(img) - # except Exception as e: - # raise HTTPException(status_code=500, detail=f"Captioning error: {str(e)}") - - return "a black and white drawing of cat" \ No newline at end of file diff --git a/src/api/lulu_routes.py b/src/api/lulu.py similarity index 52% rename from src/api/lulu_routes.py rename to src/api/lulu.py index 27881e8..1c54eb5 100644 --- a/src/api/lulu_routes.py +++ b/src/api/lulu.py @@ -1,68 +1,45 @@ -from typing import List - -from fastapi import APIRouter, Body +from fastapi import APIRouter, Body from pydantic import BaseModel, Field - -from src.chat.lulu import LuLuAI import os -router = APIRouter(prefix = '/lulu', tags = ['LuLu']) +from src.core.lulu import LuLuAI -OPENAI_API_KEY = os.getenv("OPENAI_API_KEY") +router = APIRouter( + prefix="/lulu", + tags=["LuLu"], +) +OPENAI_API_KEY = os.getenv("OPENAI_API_KEY") lulu = LuLuAI(api_key=OPENAI_API_KEY) - +class LuLuStartRes(BaseModel): + game_id: str = Field(..., description="게임 ID") @router.get( "/start", summary="루루 게임 시작 요청 API", - responses={ - 200: - { - "description": "성공", - "content": { - "application/json": { - "example" :{ - "game_id" : "1" - } - } - } - } - } ) def start_game(): game_id = lulu.create_game() - return { "game_id" : game_id } + return LuLuStartRes(game_id=game_id) + +class LuLuTaskGenerateRes(BaseModel): + keyword: str = Field(..., description="제시된 키워드") + situation: str = Field(..., description="시적인 상황 설명") @router.get( "/task/{game_id}", summary = "루루가 키워드와 상황을 그림 과제를 제시합니다.", - responses={ - 200:{ - "description":"성공", - "content": { - "application/json" : { - "example" : { - "keyword" : "고양이", - "situation": "고양이가 나무 위에서 자고있는 모습" - } - } - } - } - } ) -def generate_task(game_id: str): - task = lulu.generate_drawing_task(game_id) - return task - - +async def generate_task(game_id: str): + task = await lulu.generate_drawing_task(game_id) + return LuLuTaskGenerateRes(keyword=task["keyword"], situation=task["situation"]) class EvaluationReq(BaseModel): description: str = Field(..., description="그린 그림에 대한 설명") - +# todo: 루루 응답 스키마 관련 리팩토링(core 계층에서부터) @router.post( "/task/{game_id}", summary="그린 그림에 대한 설명을 루루에게 제출하고 평가를 받습니다.", @@ -75,8 +52,8 @@ class EvaluationReq(BaseModel): "score": 20, "feedback": "뜨거운 태양과 모래사장이라... 이게 무슨 뜻이야? 시적 묘사를 제대로 이해하고 있나? 흐름과 장막, 마지막 이야기를 속삭이는 곳, 잃어버린 순간들이 춤추는 곳... 이런 모든 것들이 바다를 묘사하는 것이지. 너의 그림은 바다의 본질을 전혀 담아내지 못했어. 예술적 표현력이나 창의성은 어디에 있는 거야? 너의 그림은 완성도나 기법 면에서도 많이 부족하다. 다시 그려와.", "task": { - "hidden_keyword": "바다", - "poetic_description": "무심한 흐름이 청아한 장막을 존중하며, 세상의 마지막 이야기를 속삭이는 곳, 이를테면 그곳은 용기와 두려움이 공존하는 곳. 언젠가 잃어버린 모든 순간들이 수면 아래에서 춤추는 곳...", + "keyword": "바다", + "situation": "무심한 흐름이 청아한 장막을 존중하며, 세상의 마지막 이야기를 속삭이는 곳, 이를테면 그곳은 용기와 두려움이 공존하는 곳. 언젠가 잃어버린 모든 순간들이 수면 아래에서 춤추는 곳...", "game_id": "5055" }, "game_id": "5055" @@ -86,7 +63,7 @@ class EvaluationReq(BaseModel): } } ) -def evaluate_task(game_id: str, req: EvaluationReq = Body()): - evaluation = lulu.evaluate_drawing(game_id, req.description) +async def evaluate_task(game_id: str, req: EvaluationReq = Body()): + evaluation = await lulu.evaluate_drawing(game_id, req.description) lulu.flush_game_data(game_id) - return evaluation + return evaluation \ No newline at end of file diff --git a/src/api/masking.py b/src/api/masking.py new file mode 100644 index 0000000..be78248 --- /dev/null +++ b/src/api/masking.py @@ -0,0 +1,44 @@ +from io import BytesIO + +from fastapi import APIRouter, UploadFile, File, HTTPException +from src.core.mask import mask_text, upload_to_s3, S3_BUCKET_NAME +from PIL import Image +import uuid +router = APIRouter( + tags=["Image Masking"] +) + +@router.post( + "/upload", + summary="이미지 텍스트 마스킹 및 S3 업로드 API", + description="업로드된 이미지 파일에서 텍스트를 마스킹하고, 마스킹된 이미지를 S3에 업로드한 후 해당 이미지의 URL을 반환합니다.", + responses={ + 200: {"message": "업로드된 이미지의 S3 URL"}, + + } +) +async def mask_image(file: UploadFile = File(...)): + if not S3_BUCKET_NAME: + raise HTTPException(status_code=500, detail="S3_BUCKET_NAME 환경 변수가 설정되지 않았습니다.") + + try: + contents = await file.read() + img = Image.open(BytesIO(contents)).convert("RGB") + except Exception as e: + raise HTTPException(status_code=400, detail=f"이미지 파일을 읽는 도중 오류가 발생했습니다: {e}") + + masked_img = mask_text(img) + + masked_img_buffer = BytesIO() + masked_img.save(masked_img_buffer, format="PNG") + masked_img_buffer.seek(0) + + file_extension = file.filename.split(".")[-1] if "." in file.filename else "png" + s3_filename = f"masked_images/{uuid.uuid4()}.{file_extension}" + + try: + s3_url = upload_to_s3(masked_img_buffer, s3_filename) + except Exception as e: + raise HTTPException(status_code=500, detail=f"S3 이미지 업로드 중에 오류가 발생했습니다 : {e}") + + return {"message" : s3_url} diff --git a/src/api/myomyo.py b/src/api/myomyo.py new file mode 100644 index 0000000..bc7d0c1 --- /dev/null +++ b/src/api/myomyo.py @@ -0,0 +1,89 @@ +from fastapi import APIRouter, HTTPException, Body +from pydantic import BaseModel, Field +from typing import List +from src.core.myomyo import MyoMyoAI +import os + +OPENAI_API_KEY = os.getenv("OPENAI_API_KEY") +myomyo = MyoMyoAI(api_key=OPENAI_API_KEY) + +router = APIRouter( + prefix="/myomyo", + tags=["MyoMyo AI"] +) + + +class GPTResponse(BaseModel): + message: str = Field(..., description="AI가 생성한 메시지") + +# START_GAME +class GameStartReq(BaseModel): + players: List[str] = Field(..., description="게임에 참여할 플레이어 이름 List") + +@router.post("/{game_id}/start", summary="게임 시작 메시지 API") +async def start_game(game_id: str, request: GameStartReq = Body(...)): + message = await myomyo.game_start_message(game_id=game_id, players=request.players) + return GPTResponse(message=message) + +class RoundStartReq(BaseModel): + round_num: int = Field(..., description="현재 라운드 번호") + total_rounds: int = Field(..., description="전체 라운드 수") + +@router.post("/{game_id}/round/start", summary="라운드 시작 메시지 API") +async def start_round(game_id: str, request: RoundStartReq = Body(...)): + message = await myomyo.round_start_message( + game_id=game_id, + round_num=request.round_num, + total_rounds=request.total_rounds + ) + return GPTResponse(message=message) + + +class GuessStartReq(BaseModel): + round_num: int = Field(..., description="현재 라운드 번호") + total_rounds: int = Field(..., description="전체 라운드 수") + drawer: str = Field(..., description="그림을 그린 플레이어 이름") + guesser: str = Field(..., description="그림을 맞출 플레이어 이름") + +@router.post('/{game_id}/guess/start/', summary="추측 시작 시 묘묘의 도발 메시지") +async def start_guess(game_id: str, request: GuessStartReq = Body(...)): + message = await myomyo.guess_start_message(game_id=game_id, round_num=request.round_num, total_rounds=request.total_rounds, drawer=request.drawer, guesser=request.guesser) + return GPTResponse(message=message) + +class MakeGuessReq(BaseModel): + image_description: str = Field(..., description="그림에 대한 설명") + +@router.post("/{game_id}/guess", summary="AI 정답 추론 API") +async def make_guess(game_id: str, request: MakeGuessReq = Body(...)): + message = await myomyo.guess_message( + game_id=game_id, + image_description=request.image_description + ) + return GPTResponse(message=message) + +class GuessReactReq(BaseModel): + is_correct: bool = Field(..., description="추측의 정답 여부") + answer: str = Field(..., description="실제 정답") + guesser: str = Field(default=None, description="추측한 플레이어") + +@router.post("/{game_id}/guess/react", summary="예측 결과 반응 메시지 API") +async def react_to_guess(game_id: str, request: GuessReactReq = Body(...)): + message = await myomyo.react_to_guess_message( + game_id=game_id, + is_correct=request.is_correct, + guesser=request.guesser, + answer=request.answer + ) + return GPTResponse(message=message) + +class GameEndReq(BaseModel): + winner: str = Field(..., description="묘묘의 승리 여부") + +@router.post("/{game_id}/end", summary="게임 종료 메시지 API") +async def end_game(game_id: str, request: GameEndReq = Body(...)): + message = await myomyo.game_end_message( + game_id=game_id, + is_myomyo_win=request.winner == "AI" + ) + myomyo.cleanup_game(game_id=game_id) + return GPTResponse(message=message) \ No newline at end of file diff --git a/src/api/myomyo_routes.py b/src/api/myomyo_routes.py deleted file mode 100644 index dcaccad..0000000 --- a/src/api/myomyo_routes.py +++ /dev/null @@ -1,222 +0,0 @@ -from typing import List - -from fastapi import APIRouter, Body -from pydantic import BaseModel, Field - -from src.chat.myomyo import MyoMyoAI -import os - -router = APIRouter(prefix="/chat", tags=['Chat']) -OPENAI_API_KEY = os.getenv("OPENAI_API_KEY") - -myomyo = MyoMyoAI(api_key=OPENAI_API_KEY) - -# START_GAME -class GameStartReq(BaseModel): - players: List[str] = Field(..., description="게임에 참여할 플레이어 이름 List") - - - -@router.post( - "/{game_id}/start", - summary="게임 시작 메시지 API", - description="게임 시작에 따른 묘묘의 도발 메시지를 반환합니다.", - responses={ - 200:{ - "description": "성공", - "content":{ - "application/json" :{ - "example" : { - "game_id": "1", - "message": "안녕하세여, 창모, 릴러말즈 친구들! 이번엔 묘묘가 총을 잡았다니까 맘 놓지 마! 내가 정확하게 그림을 맞추고 너희들을 제압해볼 건데, 준비 됐어? 꼭 즐겁게 놀자구~ ;)" - } - } - } - } - } -) -async def start_game(game_id: str, request: GameStartReq = Body(..., example= { "players": [ "창모", "릴러말즈" ]})): - # message = await myomyo.game_start_message(game_id=game_id, players=request.players) - # return message - return "서버 점검중이다묘!" - -# START_ROUND -class RoundStartReq(BaseModel): - roundNum: int = Field(..., description="현재 라운드(1~3)") - totalRounds: int = Field(..., description="총 라운드 수(3)") - - -@router.post( - path="/{game_id}/round/start", - summary="라운드 시작 메시지 API", - description="라운드 시작에 따른 묘묘의 도발 메시지를 반환합니다.", - responses={ - 200: { - "description": "성공", - "content": { - "application/json": { - "example": { - "game_id": "1", - "message": "자, 이번에는 내가 예리한 눈썰미로 정답 맞출 차례니까, 신나게 그려봐! 😉🎨✨" - } - } - } - } - } -) -async def start_round(game_id: str, request: RoundStartReq = Body(..., example={ - "roundNum" : 1, - "totalRounds" : 3 -})): - # message = await myomyo.round_start_message( - # game_id=game_id, - # round_num=request.roundNum, - # total_rounds=request.totalRounds - # ) - # return message - return "서버 점검 중이다묘!" - - -class RoundEndReq(BaseModel): - roundNum: int - totalRounds: int - winner: str - -@router.post( - path="/{game_id}/round/end", - summary = "라운드 종료 메시지 API", - description="라운드 종료 및 결과에 따른 묘묘의 반응 메시지를 반환합니다." -) -async def round_end(game_id: str, request: RoundEndReq = Body): - # message = await myomyo.round_end_message( - # game_id = game_id, - # round_num = request.roundNum, - # total_rounds = request.totalRounds, - # is_myomyo_win= (request.winner == "AI") - # ) - # return message - return "서버 점검 중이다묘!" - - - - - -class GuessStartReq(BaseModel): - roundNum: int - totalRounds: int - drawer: str - guesser: str - - -# GUESS_START -@router.post( - path = '/{game_id}/guess/start/', - summary = "추측 시작 시 묘묘의 도발 메시지" -) -async def guess_start(game_id: str, request: GuessStartReq = Body(...,)): - # message = await myomyo.guess_start_message(game_id=game_id, round_num=request.roundNum, total_rounds=request.totalRounds, drawer=request.drawer, guesser = request.guesser) - # return message - return "서버 점검중이다묘!" -# MAKE_GUESS -class MakeGuessReq(BaseModel): - imageDescription: str = Field(..., description="그림에 대한 설명") - - -# GUESS_SUBMIT -@router.post( - "/{game_id}/guess", - summary="AI 정답 추론 API", - description="그림에 대한 설명을 받아 해당 그림이 나타내는 정답을 추론하여 메시지로 반환합니다.", - responses={ - 200: { - "description": "성공", - "content" : { - "application/json" :{ - "example": { - "game_id": "1", - "message": "노란 꽃에 바람을 불고 있는 한 남자? 우웅, 감이 와! '해바라기' 맞지? 내 추측이 맞다면 너에게 천재적 감각을 인정해줄게! 😉🌻✨" - } - } - } - } - } -) -async def make_guess(game_id: str, request: MakeGuessReq = Body(..., example={ - "image_description": "노란 꽃에 바람을 불고 있는 한 남자" -})): - # message = await myomyo.guess_message( - # game_id=game_id, - # image_description=request.imageDescription - # ) - # return message - return "서버 점검중이다묘!" - -# GUESS_REACT -class GuessReactReq(BaseModel): - is_correct: bool = Field(..., alias="isCorrect", description="추측의 정답 여부") - answer: str = Field(..., description="실제 정답") - guesser: str = Field(default=None, description="추측한 플레이어") - -# GUESS_RESULT -@router.post( - "/{game_id}/guess/react", - summary="예측 결과 반응 메시지 API", - description="예측 결과에 대한 묘묘의 반응", - responses={ - 200: { - "description" : "성공", - "content" : { - "application/json" : { - "example" : { - "game_id": "1", - "message": "민들레였어? 허허, 릴러말즈, 이번엔 잘 맞췄네. 하지만 다음엔 이길 거니까 기대해 봐! 😈" - } - } - } - } - } -) -async def guess_react(game_id: str, request: GuessReactReq = Body(..., example={ - "is_correct" : True, - "answer" : "민들레", - "guesser" : "릴러말즈" -})): - # message = await myomyo.react_to_guess_message( - # game_id=game_id, - # is_correct=request.is_correct, - # guesser=request.guesser, - # answer=request.answer - # ) - # return message - return "서버 점검줌이다묘!" - - -class EndGameReq(BaseModel): - winner: str = Field(..., description="묘묘의 승리 여부") - -# GAME_END -@router.post( - path="/{game_id}/end", - summary="게임 종료 메시지 API", - description="게임 종료 로직 처리 및 결과에 대한 묘묘의 반응을 반환합니다.", - responses={ - 200: { - "description" : "성공", - "content" : { - "application/json" : { - "example":{ - "game_id": "1", - "message": "헉, 너네 둘이서 날 이기다니... 😒💔 근데 내가 질 줄 알았냐? 너무 신나지마, 다음엔 내가 이길거라구! 기다려봐~ 😏🔥" - } - } - } - } - }) -async def end_game(game_id: str, request: EndGameReq = Body(...,)): - # message = await myomyo.game_end_message( - # game_id=game_id, - # is_myomyo_win=request.winner == "AI" - # ) - # myomyo.cleanup_game(game_id=game_id) - # return message - return "서버 점검중이다묘!" \ No newline at end of file diff --git a/src/chat/lulu.py b/src/chat/lulu.py deleted file mode 100644 index 0628113..0000000 --- a/src/chat/lulu.py +++ /dev/null @@ -1,243 +0,0 @@ -from openai import OpenAI -from threading import Lock -from typing import Dict, List -import json -import random - - -class LuLuAI: - _instance = None - _lock = Lock() - - def __new__(cls, *args, **kwargs): - with cls._lock: - if cls._instance is None: - cls._instance = super(LuLuAI, cls).__new__(cls) - cls._instance._initialized = False - return cls._instance - - def __init__(self, api_key: str, model: str = "gpt-4.1"): - """ - LuLu AI 초기화 (한 번만 실행됨) - - Args: - api_key: OpenAI API 키 - model: 사용할 GPT 모델 (기본값: gpt-4) - """ - with self._lock: - if self._initialized: - return - self.client = OpenAI(api_key=api_key) - self.model = model - self._initialized = True - self.active_games = {} # gameId별 현재 task만 저장 - self.global_used_keywords = [] # 전역 사용된 키워드 저장 (최대 30개) - - def create_game(self) -> str: - """ - 새 게임 시작 및 4자리 gameId 발급 - - Returns: - str: 생성된 4자리 gameId - """ - # 중복되지 않는 4자리 숫자 생성 - while True: - game_id = f"{random.randint(1000, 9999)}" - if game_id not in self.active_games: - break - - self.active_games[game_id] = None # 아직 task 생성 안됨 - return game_id - - def _update_global_keywords(self, new_keyword: str): - """ - 전역 키워드 목록 업데이트 (최대 30개 유지) - - Args: - new_keyword: 새로 추가할 키워드 - """ - if new_keyword not in self.global_used_keywords: - self.global_used_keywords.append(new_keyword) - # 30개를 초과하면 가장 오래된 것부터 제거 - if len(self.global_used_keywords) > 30: - self.global_used_keywords.pop(0) - - def flush_game_data(self, game_id: str): - """ - 특정 게임 ID의 데이터를 삭제 - - Args: - game_id: 삭제할 게임 ID - - Returns: - bool: 삭제 성공 여부 - """ - if game_id in self.active_games: - del self.active_games[game_id] - - - def generate_drawing_task(self, game_id: str) -> Dict: - """ - 요청 단계: AI가 추상적이고 시적인 표현으로 그림 과제 제시 - - Args: - game_id: 게임 ID - - Returns: - Dict: {"keyword": str, "situation": str, "game_id": str} - """ - if game_id not in self.active_games: - raise ValueError("Invalid game ID") - task = { - "keyword": "달", - "situation": "밤이 깊어질 때, 하늘의 은밀한 친구가 창문 너머로 속삭이고 있어. 그 둥근 미소가 어둠 속에서 혼자 빛나고 있는데, 왜인지 모르게 마음이 차분해져. 그 장면, 나한테 다시 보여줄 수 있을까?", - "game_id": game_id - } - self.active_games[game_id] = task - - return task - - - # system_prompt = f""" - # 너는 꿈과 환상을 다루는 신비로운 이야기꾼이야. - # 사용자에게 그림을 그리게 하고 싶은데, 직접적으로 말하지 말고 매우 추상적이고 시적으로 표현해줘. - # - # 규칙: - # - 핵심 키워드(명사)를 정하되, 절대 그 단어를 직접 언급하지 마 - # - 해석의 여지가 많도록 추상적으로 - # - # {f"이미 사용된 키워드들 (절대 사용하지 마): {', '.join(self.global_used_keywords)}" if self.global_used_keywords else ""} - # - # 다양한 주제를 다뤄줘 (자연, 감정, 사물, 추상 개념, 동물, 건물, 음식, 계절, 색깔, 직업 등). - # - # 출력은 반드시 JSON 형식으로: - # {{"keyword": "숨겨진 키워드", "situation": "시적이고 추상적인 묘사"}} - # """ - # try: - # response = self.client.chat.completions.create( - # model=self.model, - # messages=[ - # {"role": "system", "content": system_prompt}, - # {"role": "user", "content": "새로운 그림 주제를 시적으로 표현해줘."} - # ], - # temperature=1.0, - # max_tokens=2048, - # top_p=1.0 - # ) - # - # # JSON 파싱 - # content = response.choices[0].message.content.strip() - # print(content) - # - # task_data = json.loads(content) - # task_data["game_id"] = game_id - # self.global_used_keywords.append(task_data['keyword']) - # self.active_games[game_id] = task_data - # return task_data - # - # except Exception as e: - # print(f"Error generating task: {e}") - # # 기본값 반환 - # fallback_task = { - # "keyword": "달", - # "situation": "밤이 깊어질 때, 하늘의 은밀한 친구가 창문 너머로 속삭이고 있어. 그 둥근 미소가 어둠 속에서 혼자 빛나고 있는데, 왜인지 모르게 마음이 차분해져. 그 장면, 나한테 다시 보여줄 수 있을까?", - # "game_id": game_id - # } - # return fallback_task - - - def evaluate_drawing(self, game_id: str, drawing_description: str) -> Dict: - """ - 평가 단계: AI가 사용자의 그림을 숨겨진 키워드와 비교하여 평가 - - Args: - game_id: 게임 ID - drawing_description: 사용자가 그린 그림의 텍스트 설명 - - Returns: - Dict: {"score": int, "feedback": str, "task": Dict} - """ - if game_id not in self.active_games: - raise ValueError("Invalid game ID") - - current_task = self.active_games[game_id] - - evaluation = { - "score": 35, - "feedback": "평가 시스템에 오류가 생겻다루!", - "task": current_task, - "game_id": game_id - } - - return evaluation - # # 가장 최근 과제 가져오기 - # if current_task is None: - # raise ValueError("No task found for this game.") - # - # - # system_prompt = f""" - # 너는 루루, 미대 입시를 담당하는 깐깐하고 까칠한 평가관이야. - # 예술에 대한 기준이 높고, 직설적으로 말하는 스타일이야. - # - # 숨겨진 정답 키워드: {current_task['keyword']} - # 원본 시적 묘사: {current_task['situation']} - # - # 평가 기준: - # - 숨겨진 키워드를 제대로 파악했는가? - # - 예술적 표현력과 창의성은? - # - 전체적인 완성도와 기법은? - # - # 루루의 말투 특징: - # - 직설적이고 신랄함 - # - 인정할 때는 칭찬을 아끼지 않아 - # - 미대생들한테 하는 것처럼 전문적이고 차가운 톤 - # - # 0-100점 사이로 평가해. 숨겨진 키워드를 그림 안에 담았다면 30점 이상을 주고, 담지 못했다면 30점 이하를 주도록 해. - # 30점 이상이 합격이야. - # - # 출력 형식 (JSON): - # {{ - # "score": 총점(0-100), - # "feedback": "루루의 깐깐하고 직설적인 피드백 (한국어)" - # }} - # """ - # - # user_prompt = f""" - # 다음은 사용자의 그림을 설명하는 문장이야 : "{drawing_description}" - # - # 이 문장을 보고 어떤 그림일지를 생각해보고, 이 그림을 평가해줘. - # - # 그림을 설명하는 문장에 대한 언급은 하지 말아줘. - # """ - # - # - # - # try: - # response = self.client.chat.completions.create( - # model=self.model, - # messages=[ - # {"role": "system", "content": system_prompt}, - # {"role": "user", "content": user_prompt} - # ], - # temperature=0.2, - # max_tokens=300, - # top_p=1.00 - # ) - # - # content = response.choices[0].message.content.strip() - # evaluation = json.loads(content) - # evaluation["task"] = current_task - # evaluation["game_id"] = game_id - # - # return evaluation - # - # except Exception as e: - # print(f"Error evaluating drawing: {e}") - # # 기본 평가 반환 - # fallback_evaluation = { - # "score": 35, - # "feedback": "하... 평가 시스템에 오류가 생겼는데 그것도 모르고 그림만 그리고 있었나? 기본기부터 다시 해.", - # "task": current_task, - # "game_id": game_id - # } - # return fallback_evaluation diff --git a/src/config.py b/src/config.py new file mode 100644 index 0000000..61ec45e --- /dev/null +++ b/src/config.py @@ -0,0 +1,43 @@ +from pydantic import BaseModel +from typing import List +import os + +class Settings(BaseModel): + CAPTIONING_MODEL: str = "Salesforce/blip-image-captioning-base" # CAPTIONING MODEL : BLIP + CLASSIFYING_MODEL_PATH: str = "models/classifying_model.pth" # CLASSIFYING MODEL : EFFICIENTNET_B0, fine-tuned with quick-draw dataset + AWS_ACCESS_KEY_ID: str = os.getenv("AWS_S3_ACCESS_KEY_ID") + AWS_SECRET_ACCESS_KEY: str = os.getenv("AWS_S3_SECRET_ACCESS_KEY") + AWS_REGION: str = os.getenv("AWS_S3_REGION") + S3_BUCKET_NAME: str = os.getenv("AWS_S3_BUCKET_NAME") + NUM_CLASSES: int = 100 # Number of categories in the quick-draw dataset + + ENG_CATEGORIES: List[str] = [ + "aircraft carrier", "airplane", "alarm clock", "ambulance", "angel", "apple", "arm", "axe", "backpack", + "banana", + "bandage", "baseball", "basketball", "bat", "bathtub", "bed", "bee", "bicycle", "bird", "birthday cake", + "book", "bowtie", "bread", "broom", "bucket", "bus", "bush", "butterfly", "cake", "calendar", + "camera", "campfire", "candle", "car", "carrot", "cat", "cell phone", "chair", "church", "circle", + "cloud", "compass", "computer", "cookie", "couch", "cow", "crab", "crocodile", "crown", "cup", + "dog", "dolphin", "donut", "door", "duck", "ear", "elephant", "envelope", "eye", "eyeglasses", + "face", "fan", "fire hydrant", "fish", "flower", "fork", "frog", "frying pan", "garden", "giraffe", + "grapes", "guitar", "hammer", "hat", "helicopter", "hexagon", "hockey stick", "horse", "ice cream", "jacket", + "kangaroo", "keyboard", "knife", "ladder", "laptop", "leaf", "leg", "lighthouse", "lightning", "lion", + "lobster", "lollipop", "mailbox", "map", "marker", "megaphone", "moon", "motorbike", "mountain", "mug" + ] + + KOR_CATEGORIES: List[str] = [ + "항공모함", "비행기", "알람시계", "앰뷸런스", "천사", "사과", "팔", "도끼", "백팩", "바나나", + "붕대", "야구공", "농구공", "야구배트", "욕조", "침대", "꿀벌", "자전거", "새", "생일케이크", + "책", "나비넥타이", "빵", "빗자루", "양동이", "버스", "수풀", "나비", "케이크", "달력", + "카메라", "모닥불", "양초", "차", "당근", "고양이", "핸드폰", "의자", "교회", "동그라미", + "구름", "컴파스", "컴퓨터", "쿠키", "소파", "소", "게", "악어", "왕관", "컵", + "개", "돌고래", "도넛", "문", "오리", "귀", "코끼리", "편지봉투", "눈", "안경", + "얼굴", "선풍기", "소화기", "물고기", "꽃", "포크", "개구리", "프라이팬", "정원", "기린", + "포도", "기타", "망치", "모자", "헬리콥터", "육각형", "하키 채", "말", "아이스크림", "재킷", + "캥거루", "키보드", "칼", "사다리", "노트북", "나뭇잎", "다리", "등대", "번개", "사자", + "가재", "막대사탕", "우체통", "지도", "보드마카", "확성기", "달", "오토바이", "산", "머그컵" + ] + + TEXT_THRESHOLD: float = 0.5 + +settings = Settings() diff --git a/src/chat/__init__.py b/src/core/__init__.py similarity index 100% rename from src/chat/__init__.py rename to src/core/__init__.py diff --git a/src/core/caption.py b/src/core/caption.py new file mode 100644 index 0000000..5eb2b72 --- /dev/null +++ b/src/core/caption.py @@ -0,0 +1,33 @@ +from transformers import BlipProcessor, BlipForConditionalGeneration +from PIL import Image +from io import BytesIO +import torch +from src.config import settings + +print('BLIP 모델 로딩중....') +processor = BlipProcessor.from_pretrained(settings.CAPTIONING_MODEL) +model = BlipForConditionalGeneration.from_pretrained(settings.CAPTIONING_MODEL) +device = torch.device("cuda" if torch.cuda.is_available() else "cpu") +model.to(device) +print('BLIP 모델 로딩완료!') + + + +def generate_caption(image: bytes) -> str: + """ + 이미지 캡션 생성 함수 + + Args: + image (bytes): 이미지 바이트 데이터 + + Returns: + str: 생성된 캡션 + """ + image = Image.open(BytesIO(image)).convert("RGB") + inputs = processor(image, return_tensors="pt").to(device) + + with torch.no_grad(): + out = model.generate(**inputs) + + caption = processor.decode(out[0], skip_special_tokens=True) + return caption diff --git a/src/core/classify.py b/src/core/classify.py new file mode 100644 index 0000000..b016efe --- /dev/null +++ b/src/core/classify.py @@ -0,0 +1,60 @@ +from PIL import Image +from io import BytesIO +import torch +import torch.nn as nn +from torchvision import transforms as T +from torchvision.models import efficientnet_b0 +from typing import List +from src.config import settings + +device = torch.device("cuda" if torch.cuda.is_available() else "cpu") + +def load_model(model_path: str, num_classes: int) -> nn.Module: + model = efficientnet_b0(weights=None) + num_ftrs = model.classifier[1].in_features + model.classifier[1] = nn.Linear(num_ftrs, num_classes) + checkpoint = torch.load(model_path, map_location=device) + if 'model_state_dict' in checkpoint: + model.load_state_dict(checkpoint['model_state_dict']) + else: + model.load_state_dict(checkpoint) + model.to(device) + model.eval() + return model + + +classifier = load_model(settings.CLASSIFYING_MODEL_PATH, settings.NUM_CLASSES) + +encode_image = T.Compose([ + T.Resize(256), + T.CenterCrop(224), + T.RandomHorizontalFlip(), + T.RandomRotation(10), + T.ToTensor(), + T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) + ]) + + +def classify(image_bytes: bytes) -> List[dict]: + """ + 이미지 분류 함수 + 1. 이미지 전처리 + 2. 모델 추론 + 3. 상위 3개 카테고리 및 신뢰도 반환 + 4. 한글 카테고리로 매핑하여 반환 + 5. 반환 형식: List[{"predicted": 카테고리, "confidence": 신뢰도}] + 6. 신뢰도는 퍼센트(%)로 반환 + """ + image = Image.open(BytesIO(image_bytes)).convert("RGB") + img_tensor = encode_image(image).unsqueeze(0).to(device) + with torch.no_grad(): + outputs = classifier(img_tensor) + probabilities = torch.nn.functional.softmax(outputs[0], dim=0) + top3_prob, top3_catid = torch.topk(probabilities, 3) + results = [] + for i in range(top3_prob.size(0)): + results.append({ + "predicted": settings.KOR_CATEGORIES[top3_catid[i]], # 한글 카테고리로 변경 + "confidence": top3_prob[i].item() * 100 + }) + return results \ No newline at end of file diff --git a/src/core/lulu.py b/src/core/lulu.py new file mode 100644 index 0000000..a268b06 --- /dev/null +++ b/src/core/lulu.py @@ -0,0 +1,209 @@ +from openai import AsyncOpenAI +from threading import Lock +from typing import Dict, List +import json +import random + + +class LuLuAI: + _instance = None + _lock = Lock() + + def __new__(cls, *args, **kwargs): + with cls._lock: + if cls._instance is None: + cls._instance = super(LuLuAI, cls).__new__(cls) + cls._instance._initialized = False + return cls._instance + + def __init__(self, api_key: str, model: str = "gpt-4.1"): + """ + LuLu AI 초기화 (한 번만 실행됨) + + Args: + api_key: OpenAI API 키 + model: 사용할 GPT 모델 (기본값: gpt-4) + """ + with self._lock: + if self._initialized: + return + self.client = AsyncOpenAI(api_key=api_key) + self.model = model + self._initialized = True + self.active_games = {} # gameId별 현재 task만 저장 + self.global_used_keywords = [] # 전역 사용된 키워드 저장 (최대 30개) + + def create_game(self) -> str: + """ + 새 게임 시작 및 4자리 gameId 발급 + + Returns: + str: 생성된 4자리 gameId + """ + # 중복되지 않는 4자리 숫자 생성 + while True: + game_id = f"{random.randint(1000, 9999)}" + if game_id not in self.active_games: + break + + self.active_games[game_id] = None # 아직 task 생성 안됨 + return game_id + + def _update_global_keywords(self, new_keyword: str): + """ + 전역 키워드 목록 업데이트 (최대 30개 유지) + + Args: + new_keyword: 새로 추가할 키워드 + """ + if new_keyword not in self.global_used_keywords: + self.global_used_keywords.append(new_keyword) + # 30개를 초과하면 가장 오래된 것부터 제거 + if len(self.global_used_keywords) > 30: + self.global_used_keywords.pop(0) + + def flush_game_data(self, game_id: str): + """ + 특정 게임 ID의 데이터를 삭제 + + Args: + game_id: 삭제할 게임 ID + + Returns: + bool: 삭제 성공 여부 + """ + if game_id in self.active_games: + del self.active_games[game_id] + + + async def generate_drawing_task(self, game_id: str) -> Dict: + """ + 요청 단계: AI가 추상적이고 시적인 표현으로 그림 과제 제시 + + Args: + game_id: 게임 ID + + Returns: + Dict: {"keyword": str, "situation": str, "game_id": str} + """ + if game_id not in self.active_games: + raise ValueError("Invalid game ID") + + system_prompt = f""" + 너는 꿈과 환상을 다루는 신비로운 이야기꾼이야. + 사용자에게 그림을 그리게 하고 싶은데, 직접적으로 말하지 말고 매우 추상적이고 시적으로 표현해줘. + + 규칙: + - 핵심 키워드(명사)를 정하되, 절대 그 단어를 직접 언급하지 마 + - 해석의 여지가 많도록 추상적으로 + + {f"이미 사용된 키워드들 (절대 사용하지 마): {', '.join(self.global_used_keywords)}" if self.global_used_keywords else ""} + + 다양한 주제를 다뤄줘 (자연, 감정, 사물, 추상 개념, 동물, 건물, 음식, 계절, 색깔, 직업 등). + + 출력은 반드시 JSON 형식으로: + {{"keyword": "숨겨진 키워드", "situation": "시적이고 추상적인 묘사"}} + """ + try: + response = await self.client.chat.completions.create( + model=self.model, + messages=[ + {"role": "system", "content": system_prompt}, + {"role": "user", "content": "새로운 그림 주제를 시적으로 표현해줘."} + ], + temperature=1.0, + max_tokens=2048, + top_p=1.0 + ) + + # JSON 파싱 + content = response.choices[0].message.content.strip() + print(content) + + task_data = json.loads(content) + task_data["game_id"] = game_id + self.global_used_keywords.append(task_data['keyword']) + self.active_games[game_id] = task_data + return task_data + + except Exception as e: # json 파싱 오류 등 + raise RuntimeError(f"Error generating drawing task: {e}") # 상위에서 처리하도록 예외 던짐, todo: 전역 핸들러 추가 + + + + async def evaluate_drawing(self, game_id: str, drawing_description: str) -> Dict: + """ + 평가 단계: AI가 사용자의 그림을 숨겨진 키워드와 비교하여 평가 + + Args: + game_id: 게임 ID + drawing_description: 사용자가 그린 그림의 텍스트 설명 + + Returns: + Dict: {"score": int, "feedback": str, "task": Dict} + """ + if game_id not in self.active_games: + raise ValueError("Invalid game ID") + + current_task = self.active_games[game_id] + + # 가장 최근 과제 가져오기 + if current_task is None: + raise ValueError("No task found for this game.") + + system_prompt = f""" + 너는 루루, 미대 입시를 담당하는 깐깐하고 까칠한 평가관이야. + 예술에 대한 기준이 높고, 직설적으로 말하는 스타일이야. + + 숨겨진 정답 키워드: {current_task['keyword']} + 원본 시적 묘사: {current_task['situation']} + + 평가 기준: + - 숨겨진 키워드를 제대로 파악했는가? + - 예술적 표현력과 창의성은? + - 전체적인 완성도와 기법은? + + 루루의 말투 특징: + - 직설적이고 신랄함 + - 인정할 때는 칭찬을 아끼지 않아 + - 미대생들한테 하는 것처럼 전문적이고 차가운 톤 + + 0-100점 사이로 평가해. 숨겨진 키워드를 그림 안에 담았다면 30점 이상을 주고, 담지 못했다면 30점 이하를 주도록 해. + 30점 이상이 합격이야. + + 출력 형식 (JSON): + {{ + "score": 총점(0-100), + "feedback": "루루의 깐깐하고 직설적인 피드백 (한국어)" + }} + """ + + user_prompt = f""" + 다음은 사용자의 그림을 설명하는 문장이야 : "{drawing_description}" + + 이 문장을 보고 어떤 그림일지를 생각해보고, 이 그림을 평가해줘. + + 그림을 설명하는 문장에 대한 언급은 하지 말아줘. + """ + + try: + response = await self.client.chat.completions.create( + model=self.model, + messages=[ + {"role": "system", "content": system_prompt}, + {"role": "user", "content": user_prompt} + ], + temperature=0.2, + max_tokens=300, + top_p=1.00 + ) + + content = response.choices[0].message.content.strip() + evaluation = json.loads(content) + evaluation["task"] = current_task + evaluation["game_id"] = game_id + + return evaluation + + except Exception as e: # json 파싱 오류 등 + raise RuntimeError(f"Error evaluating drawing: {e}") # 상위에서 처리하도록 예외 던짐, todo: 전역 핸들러 추가 \ No newline at end of file diff --git a/src/core/mask.py b/src/core/mask.py new file mode 100644 index 0000000..162a410 --- /dev/null +++ b/src/core/mask.py @@ -0,0 +1,53 @@ +from PIL import Image, ImageDraw +import easyocr +import numpy as np +import boto3 +from src.config import settings + +s3_client = boto3.client( + 's3', + aws_access_key_id=settings.AWS_ACCESS_KEY_ID, + aws_secret_access_key=settings.AWS_SECRET_ACCESS_KEY, + region_name=settings.AWS_REGION +) +S3_BUCKET_NAME = settings.S3_BUCKET_NAME + +reader = easyocr.Reader(['en', 'ko']) + + +def recog_text(image: Image): + """ + Args: image + Returns: 이미지가 인식된 바운딩 박스 + """ + image_np = np.array(image) + + results = reader.readtext(image_np) + + filtered_boxes = [box for box, text, conf in results if conf >= settings.TEXT_THRESHOLD] + + # for i, box in enumerate(filtered_boxes): + # print(f"[{i + 1}] 박스 좌표 (신뢰도 ≥ {settings.TEXT_THRESHOLD}): {box}") + + return filtered_boxes + +def mask_text(image: Image): + """ + Args: PIL Image(RGB), 바운딩 박스 + Returns: 마스킹 된 이미지 데이터 + """ + boxes = recog_text(image) + masked = image.copy() + draw = ImageDraw.Draw(masked) + for box in boxes: + box = [(int(point[0]), int(point[1])) for point in box] + draw.polygon(box, fill=(255, 255, 255)) + return masked + +def upload_to_s3(buffer, filename): + s3_client.upload_fileobj(buffer, S3_BUCKET_NAME, filename) + return f"https://{S3_BUCKET_NAME}.s3.amazonaws.com/{filename}" + + + + diff --git a/src/chat/myomyo.py b/src/core/myomyo.py similarity index 98% rename from src/chat/myomyo.py rename to src/core/myomyo.py index 4c31f5c..621a4e5 100644 --- a/src/chat/myomyo.py +++ b/src/core/myomyo.py @@ -1,6 +1,6 @@ from typing import Dict, List from threading import Lock -from openai import OpenAI +from openai import AsyncOpenAI class MyoMyoAI: """ @@ -28,7 +28,7 @@ def __init__(self, api_key: str, model: str = "gpt-3.5-turbo"): with self._lock: if self._initialized: return - self.client = OpenAI(api_key=api_key) + self.client = AsyncOpenAI(api_key=api_key) self.model = model self._initialized = True self.game_histories = {} # game_id로 구분됨 @@ -109,7 +109,7 @@ async def generate_response(self, game_id: str, prompt: str, role: str = "system }) try: - responses = self.client.chat.completions.create( + responses = await self.client.chat.completions.create( model = self.model, messages = messages, temperature = 0.8, # 모델 출력의 무작위성 제어 @@ -198,7 +198,7 @@ async def react_to_guess_message(self, game_id: str, is_correct: bool, answer: s 묘묘의 반응 """ - if guesser == '묘묘' or guesser is None: + if guesser == 'AI' or guesser is None: # 묘묘의 추측 prompt = f"""너(묘묘)가 방금 추측을 했어. {f"정답은 '{answer}'야" if is_correct else ""}. 너의 추측은 {'맞았어' if is_correct else '틀렸어'}. 이 결과에 대한 너의 반응을 짧고 도발적으로 말해줘.""" diff --git a/src/image/__init__.py b/src/image/__init__.py deleted file mode 100644 index e69de29..0000000 diff --git a/src/image/classifier.py b/src/image/classifier.py deleted file mode 100644 index 3575698..0000000 --- a/src/image/classifier.py +++ /dev/null @@ -1,116 +0,0 @@ -# import config -# import time -# import torch -# import torch.nn as nn -# import torch.nn.functional as F -# import logging -# from torchvision import transforms as T -# from torchvision.models import efficientnet_b0 -# import glob -# import os -# -# # EfficientNet에 맞는 이미지 전처리 (ImageNet 표준) -# encode_image = T.Compose([ -# T.Resize(256), -# T.CenterCrop(224), -# T.RandomHorizontalFlip(), -# T.RandomRotation(10), -# T.ToTensor(), -# T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) -# ]) -# -# # 최신 모델 파일 찾기 -# pattern = os.path.join(config.MODEL_PATH, "*.pth") -# file_list = glob.glob(pattern) -# latest_file = max(file_list, key=os.path.getctime) -# -# logging.info("EfficientNet 모델 로딩 중...") -# device = "cuda" if torch.cuda.is_available() else "cpu" -# -# # EfficientNet 모델 생성 및 로드 -# def load_efficientnet_model(model_path, num_classes): -# """EfficientNet 모델 로드""" -# try: -# # 저장된 모델 정보 로드 -# checkpoint = torch.load(model_path, map_location=device) -# -# # EfficientNet-B0 모델 생성 -# model = efficientnet_b0(weights=None) # 가중치 없이 모델 구조만 로드 -# -# # 분류기 레이어 수정 -# num_ftrs = model.classifier[1].in_features -# model.classifier[1] = nn.Linear(num_ftrs, num_classes) -# -# # 저장된 가중치 로드 -# if 'model_state_dict' in checkpoint: -# # 새로운 형식 (딕셔너리 형태) -# model.load_state_dict(checkpoint['model_state_dict']) -# logging.info("딕셔너리 형태의 체크포인트에서 모델 로드") -# else: -# # 이전 형식 (직접 state_dict) -# model.load_state_dict(checkpoint) -# logging.info("직접 state_dict에서 모델 로드") -# -# return model -# -# except Exception as e: -# logging.error(f"EfficientNet 모델 로드 실패: {e}") -# # 대안: 기본 EfficientNet 모델 생성 (사전 훈련된 가중치 사용) -# logging.info("기본 EfficientNet 모델로 대체...") -# model = efficientnet_b0(weights='IMAGENET1K_V1') -# num_ftrs = model.classifier[1].in_features -# model.classifier[1] = nn.Linear(num_ftrs, num_classes) -# return model -# -# # 모델 로드 -# model = load_efficientnet_model(latest_file, len(config.KOR_CATEGORIES)) -# model.to(device) -# model.eval() # 평가 모드 -# logging.info("EfficientNet 모델 로드 완료!") -# -# def classify(image): -# """ -# 이미지를 분류하고 상위 3개 예측 결과를 반환 -# -# Args: -# image: PIL Image 객체 -# -# Returns: -# list: 상위 3개 예측 결과 (클래스명, 신뢰도 포함) -# """ -# try: -# # 이미지 전처리 -# image_tensor = encode_image(image).unsqueeze(0).to(device) -# -# o1 = time.time() -# logging.info("EfficientNet 모델 예측중 ....") -# -# with torch.no_grad(): -# outputs = model(image_tensor) # 모델 추론 -# probabilities = F.softmax(outputs, dim=1) # 확률 변환 -# top3_prob, top3_indices = torch.topk(probabilities, 3) # 상위 3개 예측 가져오기 -# -# o2 = time.time() -# logging.info(f"EfficientNet 모델 예측 걸린 시간 : {o2-o1:.2f}초.") -# -# # 결과 반환 (기존 형식과 동일) -# results = [] -# for i in range(3): -# class_idx = top3_indices[0][i].item() -# confidence = top3_prob[0][i].item() * 100 -# -# results.append({ -# 'predicted': config.KOR_CATEGORIES[class_idx], -# 'confidence': confidence -# }) -# -# return results -# -# except Exception as e: -# logging.error(f"분류 중 오류 발생: {e}") -# # 오류 발생 시 기본값 반환 -# return [ -# {'predicted': 'unknown', 'confidence': 0.0}, -# {'predicted': 'unknown', 'confidence': 0.0}, -# {'predicted': 'unknown', 'confidence': 0.0} -# ] \ No newline at end of file diff --git a/src/image/img_caption.py b/src/image/img_caption.py deleted file mode 100644 index b9a8776..0000000 --- a/src/image/img_caption.py +++ /dev/null @@ -1,19 +0,0 @@ -# from transformers import BlipProcessor, BlipForConditionalGeneration -# from PIL import Image -# import torch -# -# -# print('BLIP 모델 로딩중....') -# processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base") -# model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base") -# print('BLIP 모델 로딩완료!') -# -# -# -# def get_caption(image: Image) -> str: -# inputs = processor(images=image, return_tensors="pt") -# -# with torch.no_grad(): -# output_ids = model.generate(**inputs) -# caption = processor.decode(output_ids[0], skip_special_tokens=True) -# return caption \ No newline at end of file diff --git a/src/image/model.py b/src/image/model.py deleted file mode 100644 index f8dbec7..0000000 --- a/src/image/model.py +++ /dev/null @@ -1,33 +0,0 @@ -# import torch.nn as nn -# -# class CNNModel(nn.Module): -# def __init__(self, output_classes: int, dropout=0.2): -# super(CNNModel, self).__init__() -# -# # CNN Layer 정의 -# self.conv_layer = nn.Sequential( -# nn.Conv2d(3, 32, 2), # (3, 32, 32) → (32, 31, 31) -# nn.ReLU(), -# nn.Conv2d(32, 64, 2), # (32, 31, 31) → (64, 30, 30) -# nn.ReLU(), -# nn.MaxPool2d(2, 2), # (64, 30, 30) → (64, 15, 15) -# -# nn.Conv2d(64, 128, 3), # (64, 15, 15) → (128, 13, 13) -# nn.ReLU(), -# nn.Conv2d(128, 256, 3), # (128, 13, 13) → (256, 11, 11) -# nn.ReLU(), -# nn.MaxPool2d(3, 2), # (256, 11, 11) → (256, 5, 5) -# ) -# -# # Fully Connected Layer 정의 -# self.classifier = nn.Sequential( -# nn.Dropout(dropout), -# nn.Linear(256 * 5 * 5, output_classes), # Flatten 후 최종 분류 -# nn.LogSoftmax(dim=1) # LogSoftmax (NLLLoss 사용) -# ) -# -# def forward(self, x): -# x = self.conv_layer(x) # CNN Layer -# x = x.view(x.size(0), -1) # Flatten -# x = self.classifier(x) # FC Layer -# return x \ No newline at end of file diff --git a/src/image/preprocessor.py b/src/image/preprocessor.py deleted file mode 100644 index f8a6ea4..0000000 --- a/src/image/preprocessor.py +++ /dev/null @@ -1,13 +0,0 @@ -import io -from PIL import Image -# from src.image.text_masking import mask_text - -# def preproc(image_bytes: bytes): -# """ -# 이미지 전처리 함수 -# 1. PIL.Image로 변환 -# 2. 텍스트 검출 후 masking -# """ - # image = Image.open(io.BytesIO(image_bytes)).convert('RGB') - # masked_img = mask_text(image) - # return masked_img diff --git a/src/image/text_masking.py b/src/image/text_masking.py deleted file mode 100644 index c32b123..0000000 --- a/src/image/text_masking.py +++ /dev/null @@ -1,42 +0,0 @@ -# import io -# from PIL import Image, ImageDraw -# import config -# # import easyocr -# import numpy as np -# -# # reader = easyocr.Reader(['en', 'ko']) -# -# def recog_text(image: Image): -# """ -# Args: image -# Returns: 이미지가 인식된 바운딩 박스 -# """ -# image_np = np.array(image) -# -# results = reader.readtext(image_np) -# -# filtered_boxes = [box for box, text, conf in results if conf >= config.TEXT_THRESHOLD] -# -# for i, box in enumerate(filtered_boxes): -# print(f"[{i + 1}] 박스 좌표 (신뢰도 ≥ {config.TEXT_THRESHOLD}): {box}") -# -# return filtered_boxes -# -# -# -# def mask_text(image: Image): -# """ -# Args: PIL Image(RGB), 바운딩 박스 -# Returns: 마스킹 된 이미지 데이터 -# """ -# boxes = recog_text(image) -# masked = image.copy() -# draw = ImageDraw.Draw(masked) -# for box in boxes: -# box = [(int(point[0]), int(point[1])) for point in box] -# draw.polygon(box, fill=(255, 255, 255)) -# return masked -# -# -# -# diff --git a/src/main.py b/src/main.py index 2b096e0..bd35e06 100644 --- a/src/main.py +++ b/src/main.py @@ -1,19 +1,31 @@ -import uvicorn from fastapi import FastAPI -from src.api.image_routes import router as image_router -from src.api.myomyo_routes import router as chat_router -from src.api.lulu_routes import router as lulu_router +from src.api.captioning import router as caption_router +from src.api.myomyo import router as myomyo_router +from src.api.lulu import router as lulu_router +from src.api.classifying import router as classification_router +from src.api.masking import router as masking_router +import httpx + +async def lifespan(app): + app.state.http = httpx.AsyncClient( + timeout=httpx.Timeout(10.0), + limits=httpx.Limits(max_keepalive_connections=100, max_connections=200), + ) + yield + await app.state.http.aclose() + + app = FastAPI( title="Gotcha! AI Server", description="AI Server", docs_url="/docs", openapi_url="/openapi.json", - redoc_url="/redoc" + redoc_url="/redoc", + lifespan=lifespan, ) -app.include_router(image_router, prefix='/api/v1') - -app.include_router(chat_router, prefix='/api/v1') - - +app.include_router(caption_router, prefix='/api/v1') +app.include_router(classification_router, prefix='/api/v1') +app.include_router(masking_router, prefix='/api/v1') +app.include_router(myomyo_router, prefix='/api/v1') app.include_router(lulu_router, prefix='/api/v1') \ No newline at end of file diff --git a/train/img.png b/train/img.png deleted file mode 100644 index 3199b7c..0000000 Binary files a/train/img.png and /dev/null differ diff --git a/train/readme.md b/train/readme.md deleted file mode 100644 index 6ea509a..0000000 --- a/train/readme.md +++ /dev/null @@ -1,22 +0,0 @@ -# Quickdraw Classifier - -## 개요 -EfficientNet-B0 모델을 Google의 QuickDraw 데이터셋으로 파인튜닝하여 손으로 그린 스케치를 분류하는 프로젝트입니다. - -## 데이터셋 정보 - -- 데이터셋: Google QuickDraw Dataset -- 카테고리: 345개 클래스 (사과, 고양이, 자동차 등) -- 데이터 형태: 28x28 픽셀 흑백 이미지 -- 총 데이터: 345개 클래스 * 1000장 - -## 모델 아키텍처 - -- 베이스 모델: EfficientNet-B0 -- 입력 크기: 224x224 (QuickDraw 이미지를 업스케일링) -- 출력: 345개 클래스 분류 - - -## 훈련 결과 시각화 - -![img.png](img.png) \ No newline at end of file diff --git a/train/train_efficientnet_b0.ipynb b/train/train_efficientnet_b0.ipynb deleted file mode 100644 index 8f50f97..0000000 --- a/train/train_efficientnet_b0.ipynb +++ /dev/null @@ -1,1458 +0,0 @@ -{ - "cells": [ - { - "cell_type": "code", - "execution_count": 2, - "id": "84612cf8", - "metadata": {}, - "outputs": [], - "source": [ - "# all name of the quick drawings\n", - "classes = [\n", - " \"aircraft carrier\",\n", - " \"airplane\",\n", - " \"alarm clock\",\n", - " \"ambulance\",\n", - " \"angel\",\n", - " \"animal migration\",\n", - " \"ant\",\n", - " \"anvil\",\n", - " \"apple\",\n", - " \"arm\",\n", - " \"asparagus\",\n", - " \"axe\",\n", - " \"backpack\",\n", - " \"banana\",\n", - " \"bandage\",\n", - " \"barn\",\n", - " \"baseball bat\",\n", - " \"baseball\",\n", - " \"basket\",\n", - " \"basketball\",\n", - " \"bat\",\n", - " \"bathtub\",\n", - " \"beach\",\n", - " \"bear\",\n", - " \"beard\",\n", - " \"bed\",\n", - " \"bee\",\n", - " \"belt\",\n", - " \"bench\",\n", - " \"bicycle\",\n", - " \"binoculars\",\n", - " \"bird\",\n", - " \"birthday cake\",\n", - " \"blackberry\",\n", - " \"blueberry\",\n", - " \"book\",\n", - " \"boomerang\",\n", - " \"bottlecap\",\n", - " \"bowtie\",\n", - " \"bracelet\",\n", - " \"brain\",\n", - " \"bread\",\n", - " \"bridge\",\n", - " \"broccoli\",\n", - " \"broom\",\n", - " \"bucket\",\n", - " \"bulldozer\",\n", - " \"bus\",\n", - " \"bush\",\n", - " \"butterfly\",\n", - " \"cactus\",\n", - " \"cake\",\n", - " \"calculator\",\n", - " \"calendar\",\n", - " \"camel\",\n", - " \"camera\",\n", - " \"camouflage\",\n", - " \"campfire\",\n", - " \"candle\",\n", - " \"cannon\",\n", - " \"canoe\",\n", - " \"car\",\n", - " \"carrot\",\n", - " \"castle\",\n", - " \"cat\",\n", - " \"ceiling fan\",\n", - " \"cell phone\",\n", - " \"cello\",\n", - " \"chair\",\n", - " \"chandelier\",\n", - " \"church\",\n", - " \"circle\",\n", - " \"clarinet\",\n", - " \"clock\",\n", - " \"cloud\",\n", - " \"coffee cup\",\n", - " \"compass\",\n", - " \"computer\",\n", - " \"cookie\",\n", - " \"cooler\",\n", - " \"couch\",\n", - " \"cow\",\n", - " \"crab\",\n", - " \"crayon\",\n", - " \"crocodile\",\n", - " \"crown\",\n", - " \"cruise ship\",\n", - " \"cup\",\n", - " \"diamond\",\n", - " \"dishwasher\",\n", - " \"diving board\",\n", - " \"dog\",\n", - " \"dolphin\",\n", - " \"donut\",\n", - " \"door\",\n", - " \"dragon\",\n", - " \"dresser\",\n", - " \"drill\",\n", - " \"drums\",\n", - " \"duck\",\n", - " \"dumbbell\",\n", - " \"ear\",\n", - " \"elbow\",\n", - " \"elephant\",\n", - " \"envelope\",\n", - " \"eraser\",\n", - " \"eye\",\n", - " \"eyeglasses\",\n", - " \"face\",\n", - " \"fan\",\n", - " \"feather\",\n", - " \"fence\",\n", - " \"finger\",\n", - " \"fire hydrant\",\n", - " \"fireplace\",\n", - " \"firetruck\",\n", - " \"fish\",\n", - " \"flamingo\",\n", - " \"flashlight\",\n", - " \"flip flops\",\n", - " \"floor lamp\",\n", - " \"flower\",\n", - " \"flying saucer\",\n", - " \"foot\",\n", - " \"fork\",\n", - " \"frog\",\n", - " \"frying pan\",\n", - " \"garden hose\",\n", - " \"garden\",\n", - " \"giraffe\",\n", - " \"goatee\",\n", - " \"golf club\",\n", - " \"grapes\",\n", - " \"grass\",\n", - " \"guitar\",\n", - " \"hamburger\",\n", - " \"hammer\",\n", - " \"hand\",\n", - " \"harp\",\n", - " \"hat\",\n", - " \"headphones\",\n", - " \"hedgehog\",\n", - " \"helicopter\",\n", - " \"helmet\",\n", - " \"hexagon\",\n", - " \"hockey puck\",\n", - " \"hockey stick\",\n", - " \"horse\",\n", - " \"hospital\",\n", - " \"hot air balloon\",\n", - " \"hot dog\",\n", - " \"hot tub\",\n", - " \"hourglass\",\n", - " \"house plant\",\n", - " \"house\",\n", - " \"hurricane\",\n", - " \"ice cream\",\n", - " \"jacket\",\n", - " \"jail\",\n", - " \"kangaroo\",\n", - " \"key\",\n", - " \"keyboard\",\n", - " \"knee\",\n", - " \"knife\",\n", - " \"ladder\",\n", - " \"lantern\",\n", - " \"laptop\",\n", - " \"leaf\",\n", - " \"leg\",\n", - " \"light bulb\",\n", - " \"lighter\",\n", - " \"lighthouse\",\n", - " \"lightning\",\n", - " \"line\",\n", - " \"lion\",\n", - " \"lipstick\",\n", - " \"lobster\",\n", - " \"lollipop\",\n", - " \"mailbox\",\n", - " \"map\",\n", - " \"marker\",\n", - " \"matches\",\n", - " \"megaphone\",\n", - " \"mermaid\",\n", - " \"microphone\",\n", - " \"microwave\",\n", - " \"monkey\",\n", - " \"moon\",\n", - " \"mosquito\",\n", - " \"motorbike\",\n", - " \"mountain\",\n", - " \"mouse\",\n", - " \"moustache\",\n", - " \"mouth\",\n", - " \"mug\",\n", - " \"mushroom\",\n", - " \"nail\",\n", - " \"necklace\",\n", - " \"nose\",\n", - " \"ocean\",\n", - " \"octagon\",\n", - " \"octopus\",\n", - " \"onion\",\n", - " \"oven\",\n", - " \"owl\",\n", - " \"paint can\",\n", - " \"paintbrush\",\n", - " \"palm tree\",\n", - " \"panda\",\n", - " \"pants\",\n", - " \"paper clip\",\n", - " \"parachute\",\n", - " \"parrot\",\n", - " \"passport\",\n", - " \"peanut\",\n", - " \"pear\",\n", - " \"peas\",\n", - " \"pencil\",\n", - " \"penguin\",\n", - " \"piano\",\n", - " \"pickup truck\",\n", - " \"picture frame\",\n", - " \"pig\",\n", - " \"pillow\",\n", - " \"pineapple\",\n", - " \"pizza\",\n", - " \"pliers\",\n", - " \"police car\",\n", - " \"pond\",\n", - " \"pool\",\n", - " \"popsicle\",\n", - " \"postcard\",\n", - " \"potato\",\n", - " \"power outlet\",\n", - " \"purse\",\n", - " \"rabbit\",\n", - " \"raccoon\",\n", - " \"radio\",\n", - " \"rain\",\n", - " \"rainbow\",\n", - " \"rake\",\n", - " \"remote control\",\n", - " \"rhinoceros\",\n", - " \"rifle\",\n", - " \"river\",\n", - " \"roller coaster\",\n", - " \"rollerskates\",\n", - " \"sailboat\",\n", - " \"sandwich\",\n", - " \"saw\",\n", - " \"saxophone\",\n", - " \"school bus\",\n", - " \"scissors\",\n", - " \"scorpion\",\n", - " \"screwdriver\",\n", - " \"sea turtle\",\n", - " \"see saw\",\n", - " \"shark\",\n", - " \"sheep\",\n", - " \"shoe\",\n", - " \"shorts\",\n", - " \"shovel\",\n", - " \"sink\",\n", - " \"skateboard\",\n", - " \"skull\",\n", - " \"skyscraper\",\n", - " \"sleeping bag\",\n", - " \"smiley face\",\n", - " \"snail\",\n", - " \"snake\",\n", - " \"snorkel\",\n", - " \"snowflake\",\n", - " \"snowman\",\n", - " \"soccer ball\",\n", - " \"sock\",\n", - " \"speedboat\",\n", - " \"spider\",\n", - " \"spoon\",\n", - " \"spreadsheet\",\n", - " \"square\",\n", - " \"squiggle\",\n", - " \"squirrel\",\n", - " \"stairs\",\n", - " \"star\",\n", - " \"steak\",\n", - " \"stereo\",\n", - " \"stethoscope\",\n", - " \"stitches\",\n", - " \"stop sign\",\n", - " \"stove\",\n", - " \"strawberry\",\n", - " \"streetlight\",\n", - " \"string bean\",\n", - " \"submarine\",\n", - " \"suitcase\",\n", - " \"sun\",\n", - " \"swan\",\n", - " \"sweater\",\n", - " \"swing set\",\n", - " \"sword\",\n", - " \"syringe\",\n", - " \"t-shirt\",\n", - " \"table\",\n", - " \"teapot\",\n", - " \"teddy-bear\",\n", - " \"telephone\",\n", - " \"television\",\n", - " \"tennis racquet\",\n", - " \"tent\",\n", - " \"The Eiffel Tower\",\n", - " \"The Great Wall of China\",\n", - " \"The Mona Lisa\",\n", - " \"tiger\",\n", - " \"toaster\",\n", - " \"toe\",\n", - " \"toilet\",\n", - " \"tooth\",\n", - " \"toothbrush\",\n", - " \"toothpaste\",\n", - " \"tornado\",\n", - " \"tractor\",\n", - " \"traffic light\",\n", - " \"train\",\n", - " \"tree\",\n", - " \"triangle\",\n", - " \"trombone\",\n", - " \"truck\",\n", - " \"trumpet\",\n", - " \"umbrella\",\n", - " \"underwear\",\n", - " \"van\",\n", - " \"vase\",\n", - " \"violin\",\n", - " \"washing machine\",\n", - " \"watermelon\",\n", - " \"waterslide\",\n", - " \"whale\",\n", - " \"wheel\",\n", - " \"windmill\",\n", - " \"wine bottle\",\n", - " \"wine glass\",\n", - " \"wristwatch\",\n", - " \"yoga\",\n", - " \"zebra\",\n", - " \"zigzag\",\n", - " ]" - ] - }, - { - "cell_type": "code", - "execution_count": 1, - "id": "26aa66aa", - "metadata": {}, - "outputs": [], - "source": [ - "import os\n", - "import torch\n", - "import torch.nn as nn\n", - "import torch.optim as optim\n", - "from torch.utils.data import DataLoader\n", - "from torchvision import datasets, transforms, models\n", - "from torchvision.models import efficientnet_b0, EfficientNet_B0_Weights\n", - "import matplotlib.pyplot as plt\n", - "import numpy as np\n", - "import time\n", - "from tqdm import tqdm" - ] - }, - { - "cell_type": "code", - "execution_count": 3, - "id": "2a58206e", - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "사용 장치: cuda:0\n" - ] - } - ], - "source": [ - "# 장치 설정\n", - "device = torch.device(\"cuda:0\" if torch.cuda.is_available() else \"cpu\")\n", - "print(f\"사용 장치: {device}\")" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "id": "39cbc6a7", - "metadata": {}, - "outputs": [], - "source": [ - "# 데이터 경로\n", - "data_dir = \"../../../../Desktop/BE_thief/train/quickdraw_dataset\"" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "id": "d220311a", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "'12.8'" - ] - }, - "execution_count": 5, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "torch.version.cuda" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "id": "d260f5dc", - "metadata": {}, - "outputs": [], - "source": [ - "# 데이터 전처리 및 증강\n", - "data_transforms = {\n", - " 'train': transforms.Compose([\n", - " transforms.Resize(256),\n", - " transforms.CenterCrop(224),\n", - " transforms.RandomHorizontalFlip(),\n", - " transforms.RandomRotation(10),\n", - " transforms.ToTensor(),\n", - " transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])\n", - " ]),\n", - " 'val': transforms.Compose([\n", - " transforms.Resize(256),\n", - " transforms.CenterCrop(224),\n", - " transforms.ToTensor(),\n", - " transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])\n", - " ]),\n", - "}" - ] - }, - { - "cell_type": "code", - "execution_count": 7, - "id": "e9a7a418", - "metadata": {}, - "outputs": [], - "source": [ - "# 데이터셋 로드\n", - "def load_datasets():\n", - " # train과 validation 폴더가 미리 나누어져 있다고 가정\n", - " # 없다면 아래 주석 처리된 코드를 사용하여 데이터셋을 분할할 수 있습니다\n", - " \n", - " # 데이터셋이 이미 train/val로 나뉘어 있는 경우\n", - " if os.path.isdir(os.path.join(data_dir, 'train')) and os.path.isdir(os.path.join(data_dir, 'val')):\n", - " image_datasets = {\n", - " 'train': datasets.ImageFolder(os.path.join(data_dir, 'train'), data_transforms['train']),\n", - " 'val': datasets.ImageFolder(os.path.join(data_dir, 'val'), data_transforms['val'])\n", - " }\n", - " else:\n", - " # 데이터셋이 나뉘어 있지 않은 경우, 전체 데이터셋을 로드하고 분할\n", - " full_dataset = datasets.ImageFolder(data_dir, data_transforms['train'])\n", - " \n", - " # 클래스 이름과 인덱스 가져오기\n", - " class_names = full_dataset.classes\n", - " print(f\"클래스 개수: {len(class_names)}\")\n", - " print(f\"클래스 목록: {class_names}\")\n", - " \n", - " # 데이터셋 분할 (80% 훈련, 20% 검증)\n", - " train_size = int(0.8 * len(full_dataset))\n", - " val_size = len(full_dataset) - train_size\n", - " train_dataset, val_dataset = torch.utils.data.random_split(full_dataset, [train_size, val_size])\n", - " \n", - " # val 데이터셋은 다른 변환 적용\n", - " val_dataset.dataset.transform = data_transforms['val']\n", - " \n", - " image_datasets = {\n", - " 'train': train_dataset,\n", - " 'val': val_dataset\n", - " }\n", - " \n", - " # 데이터로더 생성\n", - " dataloaders = {\n", - " 'train': DataLoader(image_datasets['train'], batch_size=32, shuffle=True, num_workers=4),\n", - " 'val': DataLoader(image_datasets['val'], batch_size=32, shuffle=False, num_workers=4)\n", - " }\n", - " \n", - " dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}\n", - " class_names = image_datasets['train'].dataset.classes if hasattr(image_datasets['train'], 'dataset') else image_datasets['train'].classes\n", - " \n", - " print(f\"데이터셋 크기: train={dataset_sizes['train']}, val={dataset_sizes['val']}\")\n", - " print(f\"클래스 개수: {len(class_names)}\")\n", - " \n", - " return dataloaders, dataset_sizes, class_names" - ] - }, - { - "cell_type": "code", - "execution_count": 8, - "id": "d8efa701", - "metadata": {}, - "outputs": [], - "source": [ - "# EfficientNet-B0 모델 로드 및 수정\n", - "def setup_model(num_classes):\n", - " # 사전 훈련된 EfficientNet-B0 모델 불러오기\n", - " model = efficientnet_b0(weights=EfficientNet_B0_Weights.IMAGENET1K_V1)\n", - " \n", - " # 마지막 분류기 레이어 수정 (QuickDraw 클래스 수에 맞게)\n", - " num_ftrs = model.classifier[1].in_features\n", - " model.classifier[1] = nn.Linear(num_ftrs, num_classes)\n", - " \n", - " # 모델을 지정된 장치(GPU/CPU)로 이동\n", - " model = model.to(device)\n", - " \n", - " return model" - ] - }, - { - "cell_type": "code", - "execution_count": 9, - "id": "9442775c", - "metadata": {}, - "outputs": [], - "source": [ - "\n", - "# 학습 함수\n", - "def train_model(model, dataloaders, dataset_sizes, criterion, optimizer, scheduler, num_epochs=25):\n", - " since = time.time()\n", - " \n", - " best_model_wts = model.state_dict()\n", - " best_acc = 0.0\n", - " \n", - " # 학습 과정 기록\n", - " history = {\n", - " 'train_loss': [],\n", - " 'val_loss': [],\n", - " 'train_acc': [],\n", - " 'val_acc': []\n", - " }\n", - " \n", - " for epoch in range(num_epochs):\n", - " print(f'Epoch {epoch+1}/{num_epochs}')\n", - " print('-' * 10)\n", - " \n", - " # 각 에포크는 학습과 검증 단계가 있음\n", - " for phase in ['train', 'val']:\n", - " if phase == 'train':\n", - " model.train() # 학습 모드 설정\n", - " else:\n", - " model.eval() # 평가 모드 설정\n", - " \n", - " running_loss = 0.0\n", - " running_corrects = 0\n", - " \n", - " # 데이터 반복\n", - " for inputs, labels in tqdm(dataloaders[phase]):\n", - " inputs = inputs.to(device)\n", - " labels = labels.to(device)\n", - " \n", - " # 파라미터 그래디언트 초기화\n", - " optimizer.zero_grad()\n", - " \n", - " # 순전파\n", - " with torch.set_grad_enabled(phase == 'train'):\n", - " outputs = model(inputs)\n", - " _, preds = torch.max(outputs, 1)\n", - " loss = criterion(outputs, labels)\n", - " \n", - " # 학습 단계일 경우 역전파 + 최적화\n", - " if phase == 'train':\n", - " loss.backward()\n", - " optimizer.step()\n", - " \n", - " # 통계\n", - " running_loss += loss.item() * inputs.size(0)\n", - " running_corrects += torch.sum(preds == labels.data)\n", - " \n", - " if phase == 'train' and scheduler is not None:\n", - " scheduler.step()\n", - " \n", - " epoch_loss = running_loss / dataset_sizes[phase]\n", - " epoch_acc = running_corrects.double() / dataset_sizes[phase]\n", - " \n", - " # 기록 저장\n", - " if phase == 'train':\n", - " history['train_loss'].append(epoch_loss)\n", - " history['train_acc'].append(epoch_acc.item())\n", - " else:\n", - " history['val_loss'].append(epoch_loss)\n", - " history['val_acc'].append(epoch_acc.item())\n", - " \n", - " print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')\n", - " \n", - " # 모델을 복사 (최고의 검증 정확도를 기록한 경우)\n", - " if phase == 'val' and epoch_acc > best_acc:\n", - " best_acc = epoch_acc\n", - " best_model_wts = model.state_dict()\n", - " \n", - " print()\n", - " \n", - " time_elapsed = time.time() - since\n", - " print(f'학습 완료: {time_elapsed // 60:.0f}m {time_elapsed % 60:.0f}s')\n", - " print(f'최고 검증 정확도: {best_acc:.4f}')\n", - " \n", - " # 가장 좋은 모델 가중치 불러오기\n", - " model.load_state_dict(best_model_wts)\n", - " return model, history" - ] - }, - { - "cell_type": "code", - "execution_count": 10, - "id": "f6339dda", - "metadata": {}, - "outputs": [], - "source": [ - "# 학습 결과 시각화\n", - "def plot_training_history(history):\n", - " plt.figure(figsize=(12, 4))\n", - " \n", - " plt.subplot(1, 2, 1)\n", - " plt.plot(history['train_loss'], label='Train Loss')\n", - " plt.plot(history['val_loss'], label='Validation Loss')\n", - " plt.xlabel('Epoch')\n", - " plt.ylabel('Loss')\n", - " plt.legend()\n", - " plt.title('Training and Validation Loss')\n", - " \n", - " plt.subplot(1, 2, 2)\n", - " plt.plot(history['train_acc'], label='Train Accuracy')\n", - " plt.plot(history['val_acc'], label='Validation Accuracy')\n", - " plt.xlabel('Epoch')\n", - " plt.ylabel('Accuracy')\n", - " plt.legend()\n", - " plt.title('Training and Validation Accuracy')\n", - " \n", - " plt.tight_layout()\n", - " plt.savefig('training_history.png')\n", - " plt.show()" - ] - }, - { - "cell_type": "code", - "execution_count": 11, - "id": "2c7e0547", - "metadata": {}, - "outputs": [], - "source": [ - "# 모델 저장 함수\n", - "def save_model(model, class_names, filename='efficientnet_b0_quickdraw.pth'):\n", - " model_info = {\n", - " 'model_state_dict': model.state_dict(),\n", - " 'class_names': class_names,\n", - " 'model_name': 'efficientnet_b0'\n", - " }\n", - " torch.save(model_info, filename)\n", - " print(f\"모델이 {filename}에 저장되었습니다.\")" - ] - }, - { - "cell_type": "code", - "execution_count": 12, - "id": "d985a0f8", - "metadata": {}, - "outputs": [], - "source": [ - "\n", - "# 테스트 세트에서 모델 평가\n", - "def evaluate_model(model, test_loader):\n", - " model.eval()\n", - " correct = 0\n", - " total = 0\n", - " \n", - " with torch.no_grad():\n", - " for inputs, labels in tqdm(test_loader):\n", - " inputs = inputs.to(device)\n", - " labels = labels.to(device)\n", - " \n", - " outputs = model(inputs)\n", - " _, predicted = torch.max(outputs.data, 1)\n", - " \n", - " total += labels.size(0)\n", - " correct += (predicted == labels).sum().item()\n", - " \n", - " accuracy = 100 * correct / total\n", - " print(f'테스트 정확도: {accuracy:.2f}%')\n", - " return accuracy" - ] - }, - { - "cell_type": "code", - "execution_count": 13, - "id": "bda50278", - "metadata": {}, - "outputs": [], - "source": [ - "\n", - "def main():\n", - " # 데이터 로드\n", - " dataloaders, dataset_sizes, class_names = load_datasets()\n", - " \n", - " # 모델 설정\n", - " num_classes = len(class_names)\n", - " model = setup_model(num_classes)\n", - " \n", - " # 손실 함수와 옵티마이저 설정\n", - " criterion = nn.CrossEntropyLoss()\n", - " optimizer = optim.AdamW(model.parameters(), lr=0.001, weight_decay=1e-4)\n", - " \n", - " # 학습률 스케줄러 (10 에포크마다 학습률을 0.1배로 감소)\n", - " scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)\n", - " \n", - " # 모델 학습\n", - " print(\"모델 학습 시작...\")\n", - " model, history = train_model(model, dataloaders, dataset_sizes, criterion, optimizer, scheduler, num_epochs=20)\n", - " \n", - " # 학습 결과 시각화\n", - " plot_training_history(history)\n", - " \n", - " # 검증 세트에서 평가\n", - " print(\"검증 세트에서 모델 평가 중...\")\n", - " evaluate_model(model, dataloaders['val'])\n", - " \n", - " # 모델 저장\n", - " save_model(model, class_names)\n" - ] - }, - { - "cell_type": "code", - "execution_count": 14, - "id": "6ca361f7", - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "클래스 개수: 345\n", - "클래스 목록: ['The_Eiffel_Tower', 'The_Great_Wall_of_China', 'The_Mona_Lisa', 'aircraft_carrier', 'airplane', 'alarm_clock', 'ambulance', 'angel', 'animal_migration', 'ant', 'anvil', 'apple', 'arm', 'asparagus', 'axe', 'backpack', 'banana', 'bandage', 'barn', 'baseball', 'baseball_bat', 'basket', 'basketball', 'bat', 'bathtub', 'beach', 'bear', 'beard', 'bed', 'bee', 'belt', 'bench', 'bicycle', 'binoculars', 'bird', 'birthday_cake', 'blackberry', 'blueberry', 'book', 'boomerang', 'bottlecap', 'bowtie', 'bracelet', 'brain', 'bread', 'bridge', 'broccoli', 'broom', 'bucket', 'bulldozer', 'bus', 'bush', 'butterfly', 'cactus', 'cake', 'calculator', 'calendar', 'camel', 'camera', 'camouflage', 'campfire', 'candle', 'cannon', 'canoe', 'car', 'carrot', 'castle', 'cat', 'ceiling_fan', 'cell_phone', 'cello', 'chair', 'chandelier', 'church', 'circle', 'clarinet', 'clock', 'cloud', 'coffee_cup', 'compass', 'computer', 'cookie', 'cooler', 'couch', 'cow', 'crab', 'crayon', 'crocodile', 'crown', 'cruise_ship', 'cup', 'diamond', 'dishwasher', 'diving_board', 'dog', 'dolphin', 'donut', 'door', 'dragon', 'dresser', 'drill', 'drums', 'duck', 'dumbbell', 'ear', 'elbow', 'elephant', 'envelope', 'eraser', 'eye', 'eyeglasses', 'face', 'fan', 'feather', 'fence', 'finger', 'fire_hydrant', 'fireplace', 'firetruck', 'fish', 'flamingo', 'flashlight', 'flip_flops', 'floor_lamp', 'flower', 'flying_saucer', 'foot', 'fork', 'frog', 'frying_pan', 'garden', 'garden_hose', 'giraffe', 'goatee', 'golf_club', 'grapes', 'grass', 'guitar', 'hamburger', 'hammer', 'hand', 'harp', 'hat', 'headphones', 'hedgehog', 'helicopter', 'helmet', 'hexagon', 'hockey_puck', 'hockey_stick', 'horse', 'hospital', 'hot_air_balloon', 'hot_dog', 'hot_tub', 'hourglass', 'house', 'house_plant', 'hurricane', 'ice_cream', 'jacket', 'jail', 'kangaroo', 'key', 'keyboard', 'knee', 'knife', 'ladder', 'lantern', 'laptop', 'leaf', 'leg', 'light_bulb', 'lighter', 'lighthouse', 'lightning', 'line', 'lion', 'lipstick', 'lobster', 'lollipop', 'mailbox', 'map', 'marker', 'matches', 'megaphone', 'mermaid', 'microphone', 'microwave', 'monkey', 'moon', 'mosquito', 'motorbike', 'mountain', 'mouse', 'moustache', 'mouth', 'mug', 'mushroom', 'nail', 'necklace', 'nose', 'ocean', 'octagon', 'octopus', 'onion', 'oven', 'owl', 'paint_can', 'paintbrush', 'palm_tree', 'panda', 'pants', 'paper_clip', 'parachute', 'parrot', 'passport', 'peanut', 'pear', 'peas', 'pencil', 'penguin', 'piano', 'pickup_truck', 'picture_frame', 'pig', 'pillow', 'pineapple', 'pizza', 'pliers', 'police_car', 'pond', 'pool', 'popsicle', 'postcard', 'potato', 'power_outlet', 'purse', 'rabbit', 'raccoon', 'radio', 'rain', 'rainbow', 'rake', 'remote_control', 'rhinoceros', 'rifle', 'river', 'roller_coaster', 'rollerskates', 'sailboat', 'sandwich', 'saw', 'saxophone', 'school_bus', 'scissors', 'scorpion', 'screwdriver', 'sea_turtle', 'see_saw', 'shark', 'sheep', 'shoe', 'shorts', 'shovel', 'sink', 'skateboard', 'skull', 'skyscraper', 'sleeping_bag', 'smiley_face', 'snail', 'snake', 'snorkel', 'snowflake', 'snowman', 'soccer_ball', 'sock', 'speedboat', 'spider', 'spoon', 'spreadsheet', 'square', 'squiggle', 'squirrel', 'stairs', 'star', 'steak', 'stereo', 'stethoscope', 'stitches', 'stop_sign', 'stove', 'strawberry', 'streetlight', 'string_bean', 'submarine', 'suitcase', 'sun', 'swan', 'sweater', 'swing_set', 'sword', 'syringe', 't-shirt', 'table', 'teapot', 'teddy-bear', 'telephone', 'television', 'tennis_racquet', 'tent', 'tiger', 'toaster', 'toe', 'toilet', 'tooth', 'toothbrush', 'toothpaste', 'tornado', 'tractor', 'traffic_light', 'train', 'tree', 'triangle', 'trombone', 'truck', 'trumpet', 'umbrella', 'underwear', 'van', 'vase', 'violin', 'washing_machine', 'watermelon', 'waterslide', 'whale', 'wheel', 'windmill', 'wine_bottle', 'wine_glass', 'wristwatch', 'yoga', 'zebra', 'zigzag']\n", - "데이터셋 크기: train=828000, val=207000\n", - "클래스 개수: 345\n", - "모델 학습 시작...\n", - "Epoch 1/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [48:52<00:00, 8.82it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 1.6663 Acc: 0.5972\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [04:01<00:00, 26.83it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.3146 Acc: 0.6749\n", - "\n", - "Epoch 2/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [48:57<00:00, 8.81it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 1.2951 Acc: 0.6768\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [04:02<00:00, 26.71it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.2120 Acc: 0.6995\n", - "\n", - "Epoch 3/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:15<00:00, 9.13it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 1.1890 Acc: 0.6994\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:51<00:00, 27.90it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.5957 Acc: 0.6075\n", - "\n", - "Epoch 4/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:37<00:00, 9.05it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 1.1188 Acc: 0.7151\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:54<00:00, 27.54it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.1327 Acc: 0.7182\n", - "\n", - "Epoch 5/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:20<00:00, 9.11it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 1.0648 Acc: 0.7264\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:51<00:00, 27.89it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.5308 Acc: 0.6226\n", - "\n", - "Epoch 6/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [50:11<00:00, 8.59it/s] \n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 1.0204 Acc: 0.7364\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [05:03<00:00, 21.31it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.1138 Acc: 0.7249\n", - "\n", - "Epoch 7/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [49:38<00:00, 8.69it/s] \n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.9813 Acc: 0.7443\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [04:52<00:00, 22.09it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0951 Acc: 0.7286\n", - "\n", - "Epoch 8/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [48:56<00:00, 8.81it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.9465 Acc: 0.7527\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [04:50<00:00, 22.27it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0990 Acc: 0.7294\n", - "\n", - "Epoch 9/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [49:51<00:00, 8.65it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.9154 Acc: 0.7590\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [04:52<00:00, 22.09it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0968 Acc: 0.7317\n", - "\n", - "Epoch 10/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [50:14<00:00, 8.58it/s] \n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.8875 Acc: 0.7650\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [04:57<00:00, 21.73it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0962 Acc: 0.7316\n", - "\n", - "Epoch 11/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [50:08<00:00, 8.60it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.7159 Acc: 0.8086\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [04:57<00:00, 21.78it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0554 Acc: 0.7470\n", - "\n", - "Epoch 12/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [49:23<00:00, 8.73it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.6641 Acc: 0.8210\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.86it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0701 Acc: 0.7472\n", - "\n", - "Epoch 13/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:10<00:00, 9.14it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.6381 Acc: 0.8277\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.84it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0737 Acc: 0.7461\n", - "\n", - "Epoch 14/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:15<00:00, 9.13it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.6182 Acc: 0.8324\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.88it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0880 Acc: 0.7455\n", - "\n", - "Epoch 15/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:08<00:00, 9.15it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.6005 Acc: 0.8362\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.87it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.0961 Acc: 0.7443\n", - "\n", - "Epoch 16/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:09<00:00, 9.15it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.5848 Acc: 0.8407\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.85it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.1069 Acc: 0.7441\n", - "\n", - "Epoch 17/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:13<00:00, 9.13it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.5715 Acc: 0.8434\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:53<00:00, 27.72it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.1176 Acc: 0.7431\n", - "\n", - "Epoch 18/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:45<00:00, 9.03it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.5578 Acc: 0.8467\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.82it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.1342 Acc: 0.7419\n", - "\n", - "Epoch 19/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:13<00:00, 9.13it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.5459 Acc: 0.8491\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.82it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.1417 Acc: 0.7410\n", - "\n", - "Epoch 20/20\n", - "----------\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 25875/25875 [47:49<00:00, 9.02it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "train Loss: 0.5342 Acc: 0.8521\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:56<00:00, 27.36it/s]\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "val Loss: 1.1481 Acc: 0.7401\n", - "\n", - "학습 완료: 1051m 27s\n", - "최고 검증 정확도: 0.7472\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "검증 세트에서 모델 평가 중...\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "100%|██████████| 6469/6469 [03:52<00:00, 27.84it/s]" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "테스트 정확도: 74.01%\n", - "모델이 efficientnet_b0_quickdraw.pth에 저장되었습니다.\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "\n" - ] - } - ], - "source": [ - "main()" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "id": "ebb560a3", - "metadata": {}, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "Python 3", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.10.11" - } - }, - "nbformat": 4, - "nbformat_minor": 5 -}