배포 v1.6.0

skqorrla · web-flow · commit 73eff08add0f · 2025-06-22T17:22:02.000+09:00
배포 v1.6.0
diff --git a/MLOps/app/main.py b/MLOps/app/main.py
@@ -70,6 +70,11 @@ async def root():
                 },
                 "description": "OpenAI GPT 기반 데이트 코스 추천 챗봇",
                 "status": "active" if hasattr(chatbot, 'langchain_agent_service') else "inactive"
+            },
+            "crowd": {
+                "endpoint": "/api/crowd",
+                "description": "혼잡도 예측 API",
+                "status": "active"
             }
         },
         "documentation": "/docs"
@@ -116,11 +121,16 @@ async def get_overall_stats():
                 "status": "active" if hasattr(chatbot, 'langchain_agent_service') else "inactive",
                 "type": "OpenAI GPT",
                 "active_sessions": len(getattr(chatbot, 'active_sessions', {}))
+            },
+            "crowd": {
+                "status": "active",
+                "type": "Congestion Prediction"
             }
         },
         "endpoints": {
             "recommendation": ["/api/recommend", "/api/recommend/health"],
-            "chatbot": ["/api/chat", "/api/chat/stream", "/api/chat/stats", "/api/chat/health"]
+            "chatbot": ["/api/chat", "/api/chat/stream", "/api/chat/stats", "/api/chat/health"],
+            "crowd": ["/api/crowd"]
         },
         "timestamp": datetime.now().isoformat()
     }
diff --git a/MLOps/app/model/deepfm_train.py b/MLOps/app/model/deepfm_train.py
@@ -7,10 +7,21 @@
 from deepctr_torch.models import DeepFM
 from deepctr_torch.inputs import SparseFeat, VarLenSparseFeat, get_feature_names
 import ast
-from tensorflow.keras.preprocessing.sequence import pad_sequences
 import os
 import pickle
 
+def pad_sequences(sequences, maxlen, padding='post', value=0):
+    """
+    NumPy를 이용한 pad_sequences의 간단한 구현
+    """
+    padded = np.full((len(sequences), maxlen), value, dtype=np.int32)
+    for i, seq in enumerate(sequences):
+        if padding == 'post':
+            padded[i, :len(seq)] = seq[:maxlen]
+        else:  # 'pre' padding
+            padded[i, -len(seq):] = seq[-maxlen:]
+    return padded
+
 class DeepFMModdelTrain:
     def __init__(self, data_path):
         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
@@ -57,16 +68,16 @@ def encode(x):
         self.data[self.sequence_feature] = pad_sequences(self.data[self.sequence_feature], maxlen=self.max_len, padding='post', value=0)
         
         # 최종 feature 생성
-        self.sparse_features = [SparseFeat(feature, 
+        sparse_feature_columns = [SparseFeat(feature, 
                                            vocabulary_size=self.data[feature].nunique(), 
                                            embedding_dim=4) for feature in sparse_feature_names]
         
-        self.sequence_feature = [VarLenSparseFeat(SparseFeat(self.sequence_feature, 
+        sequence_feature_columns = [VarLenSparseFeat(SparseFeat(self.sequence_feature, 
                                                              vocabulary_size=len(self.key2index) + 1, 
                                                              embedding_dim=4), maxlen=self.max_len, combiner="mean")]
         
-        self.linear_feature_columns = self.sparse_features + self.sequence_feature
-        self.dnn_feature_columns = self.sparse_features + self.sequence_feature
+        self.linear_feature_columns = sparse_feature_columns + sequence_feature_columns
+        self.dnn_feature_columns = sparse_feature_columns + sequence_feature_columns
         
         self.feature_names = get_feature_names(self.linear_feature_columns + self.dnn_feature_columns)
         
@@ -78,13 +89,13 @@ def encode(x):
         with open(self.encoders_path, 'wb') as f:
             pickle.dump(self.label_encoders, f)
         with open(self.key2index_path, 'wb') as f:
-            pickle.dump(self.key2index, f)
+            pickle.dump({'key2index': self.key2index, 'max_len': self.max_len}, f)
         
     def train(self):
         model = DeepFM(self.linear_feature_columns, 
                        self.dnn_feature_columns, 
                        task="regression",
-                       device=self.device)
+                       device=str(self.device))
         
         model.compile("adam", "mse", metrics=["mse"])
         
@@ -106,11 +117,14 @@ def predict(self, input_data):
         with open(self.encoders_path, 'rb') as f:
             self.label_encoders = pickle.load(f)
         with open(self.key2index_path, 'rb') as f:
-            self.key2index = pickle.load(f)
-
-        # 예측에 필요한 메타데이터 재구성
-        temp_like_list = self.data[self.sequence_feature].apply(ast.literal_eval)
-        self.max_len = max(len(x) for x in temp_like_list)
+            key2index_data = pickle.load(f)
+            if isinstance(key2index_data, dict) and 'key2index' in key2index_data:
+                self.key2index = key2index_data['key2index']
+                self.max_len = key2index_data['max_len']
+            else:
+                # 이전 버전 호환성
+                self.key2index = key2index_data
+                self.max_len = 50  # 기본값
 
         sparse_feature_names = ["userid", "name", "age", "gender", "place_id", "place_name", "category", "subcategory"]
         
@@ -170,7 +184,7 @@ def encode_sequence(x):
         model = DeepFM(self.linear_feature_columns, 
                        self.dnn_feature_columns, 
                        task="regression",
-                       device=self.device)
+                       device=str(self.device))
         model.load_state_dict(torch.load(self.model_path))
         model.compile("adam", "mse", metrics=["mse"])
         
diff --git a/MLOps/app/model/label_encoders.pkl.dvc b/MLOps/app/model/label_encoders.pkl.dvc
diff --git a/MLOps/app/routers/crowd.py b/MLOps/app/routers/crowd.py
@@ -1,9 +1,9 @@
 from fastapi import APIRouter
 from app.schema.crowd_schema import CrowdResponse, CrowdLevel, CrowdInfo
 
-router = APIRouter()
+router = APIRouter(prefix="/api", tags=["crowd"])
 
-@router.get("/api/crowd", response_model=CrowdResponse)
+@router.get("/crowd", response_model=CrowdResponse)
 async def get_crowd(hour: int):
     """
     ## 혼잡도 예측 API
diff --git a/MLOps/app/services/db_connection.py b/MLOps/app/services/db_connection.py
@@ -1,69 +1,68 @@
-import mysql.connector
-from mysql.connector import pooling, Error
 import pandas as pd
 import json
 import os
+from dotenv import load_dotenv
+from sqlalchemy import create_engine, exc, text
+
+# .env 파일에서 환경 변수 로드
+load_dotenv()
 
 class DatabaseService:
     """DB 커넥션 풀을 이용한 쿼리 서비스 클래스 (환경 변수 설정 및 타임아웃 적용)"""
     def __init__(self):
         """환경 변수에서 설정을 읽어와 커넥션 풀을 초기화합니다."""
-        self.pool = None
+        self.engine = None
         try:
-            db_config = {
-                'host': os.getenv('DB_HOST', '15.164.50.188'),
-                'port': int(os.getenv('DB_PORT', 3307)),
-                'user': os.getenv('DB_USER', 'root'),
-                'password': os.getenv('DB_PASSWORD', 'pwd1234'),
-                'database': os.getenv('DB_DATABASE', 'daywalk')
-            }
-            pool_size = int(os.getenv('DB_POOL_SIZE', 5))
+            db_host = os.getenv('DB_HOST')
+            db_port = os.getenv('DB_PORT')
+            db_user = os.getenv('DB_USER')
+            db_password = os.getenv('DB_PASSWORD')
+            db_database = os.getenv('DB_DATABASE')
+
+            if not all([db_host, db_port, db_user, db_password, db_database]):
+                raise ValueError("DB 연결을 위한 모든 환경 변수가 설정되지 않았습니다.")
 
-            self.pool = mysql.connector.pooling.MySQLConnectionPool(
-                pool_name="daywalk_pool",
-                pool_size=pool_size,
-                pool_reset_session=True,
-                **db_config
+            # MySQL Connector/Python 용 SQLAlchemy URI
+            db_uri = f"mysql+mysqlconnector://{db_user}:{db_password}@{db_host}:{db_port}/{db_database}"
+            
+            self.engine = create_engine(
+                db_uri,
+                pool_size=5,
+                pool_recycle=3600, # 1시간마다 연결 재설정
+                connect_args={'connect_timeout': 10}
             )
-            print("MySQL 커넥션 풀 생성 성공")
-        except Error as e:
+            print("SQLAlchemy 커넥션 풀 생성 성공")
+        except (exc.SQLAlchemyError, ValueError) as e:
             print(f"커넥션 풀 생성 오류: {e}")
 
-    def _get_connection(self, timeout=3):
-        """풀에서 커넥션을 가져옵니다. 타임아웃을 적용하여 무한 대기를 방지합니다."""
-        if not self.pool:
-            print("커넥션 풀을 사용할 수 없습니다.")
-            return None
-        try:
-            # 타임아웃(초)을 설정하여 커넥션을 기다립니다.
-            return self.pool.get_connection(timeout=timeout)
-        except pooling.PoolError as e:
-            print(f"풀에서 커넥션을 가져오는 데 실패했습니다 (타임아웃 또는 풀 문제): {e}")
-            return None
-        except Error as e:
-            print(f"커넥션 가져오는 중 알 수 없는 오류 발생: {e}")
-            return None
+    def close_connection(self):
+        if self.engine:
+            self.engine.dispose()
+            print("커넥션 풀 종료")
 
     def execute_query(self, query, params=None):
         """쿼리 실행 후 데이터프레임 반환"""
-        connection = self._get_connection()
-        if not connection:
+        if not self.engine:
+            print("DB 엔진을 사용할 수 없습니다.")
             return None
         
         try:
-            df = pd.read_sql(query, connection, params=params)
-            return df
-        except Error as e:
+            with self.engine.connect() as connection:
+                df = pd.read_sql(text(query), connection, params=params)
+                return df
+        except exc.SQLAlchemyError as e:
             print(f"쿼리 실행 오류: {e}")
             return None
-        finally:
-            if connection and connection.is_connected():
-                connection.close()
-                print("사용한 커넥션을 풀에 반환했습니다.")
+
+    def user_table_query(self):
+        query = """
+        SELECT * FROM user LIMIT 10;
+        """
+        return self.execute_query(query)
 
     def get_user_info_by_user_id(self, user_id):
         """user_id로 사용자 정보 조회"""
-        query = """
+        query = f"""
         SELECT
             HEX(u.id) AS user_id,
             u.name AS user_name,
@@ -81,23 +80,16 @@ def get_user_info_by_user_id(self, user_id):
         ) AS jt ON TRUE
         LEFT JOIN tag t ON t.id = UNHEX(REPLACE(jt.tag_id, '-', ''))
         WHERE
-            u.id = UNHEX(%s)
+            u.id = UNHEX(:user_id_hex)
         GROUP BY
             u.id, c.id;
         """
-        user_id_hex = user_id[2:] if user_id.startswith('0x') else user_id
-        return self.execute_query(query, params=(user_id_hex,))
-
-if __name__ == '__main__':
-    # 아래 코드는 웹 프레임워크(예: FastAPI)의 시작 지점에서 한 번만 실행되어야 합니다.
-    # export DB_HOST=... 와 같은 방식으로 환경 변수 설정 후 실행할 수 있습니다.
-    db_service = DatabaseService()
-    
-    if db_service.pool:
-        # 특정 사용자 데이터 조회 예시
-        test_user_id = '0x0034B410791D47A38ABFE03E0898A61A' 
-        user_data_df = db_service.get_user_info_by_user_id(test_user_id)
-        
-        if user_data_df is not None:
-            print(f"{test_user_id} 사용자의 전체 데이터를 성공적으로 가져왔습니다.")
-            print(user_data_df.to_string())
+        user_id_hex = user_id.replace('-', '')
+        df = self.execute_query(query, params={'user_id_hex': user_id_hex})
+        if df is not None:
+            df = df.rename(columns={
+                'user_id': 'userid',
+                'user_name': 'name',
+                'tag_names': 'like_list'
+            })
+        return df
diff --git a/MLOps/app/services/elk_client.py b/MLOps/app/services/elk_client.py
@@ -1,5 +1,6 @@
 import requests
 from typing import List, Dict, Any
+import pandas as pd
 
 class ELKClient:
     """ELK 서버 클라이언트"""
@@ -27,3 +28,21 @@ async def search_places(self, query: str, max_results: int = 23) -> List[Dict[st
         except Exception as e:
             print(f"ELK 서버 호출 실패: {e}")
             return []
+
+    def load_user_click_log(self, user_id: str, days: int = 30):
+        """유저 데이터 로드"""
+        try:
+            response = requests.get(
+                f"{self.elk_url}/api/click-log/user/{user_id}",
+                params={'days': days}
+            )
+            
+            if response.status_code == 200:
+                df = pd.DataFrame(response.json().get("logs", []))
+                df.columns = df.columns.str.lower()
+                return df
+            else:
+                return None
+        except Exception as e:
+            print(f"ELK 서버 호출 실패: {e}")
+            return None
diff --git a/MLOps/requirements.txt b/MLOps/requirements.txt
@@ -38,4 +38,5 @@ openai==1.68.2
 
 # DB Connection
 mysql-connector-python==8.4.0
+SQLAlchemy==2.0.31
 javaobj-py3==0.4.4
diff --git a/data/congestion_preprocessing.py b/data/congestion_preprocessing.py