Skip to content

Latest commit

 

History

History
403 lines (159 loc) · 8.61 KB

2019-09-24(특강).md

File metadata and controls

403 lines (159 loc) · 8.61 KB

멘토링 개요

장순용 박사님

링크1 www.crowdai.org

링크2 www.drivendata.org

Q. 강화학습 커리큘럼은 어떻게 해야하는지?

CPS(사이버 물리 시스템)의 구성요소: 초지능, 초연결, 초실현(3D 컴퓨팅, 로버트)

데이터 과학의 구성요소: 수학(통계), 코딩, Domain

주관적인 지식의 중요도는 Domain이 우선합니다.

프로젝트를 할 때에도 무조건 코딩부터 하기 보다는 도메인 지식을 먼저 습득하는 것이 중요합니다.

프로젝트는 연습문제가 아니기 때문입니다.

프로젝트 도출

Design Thinking

공감, 정의, 상상, 프로토타입, 테스트

Empathize(공감) : 이해 / 관찰(POV, Problem & Define)

Define정의: 문제 / 정의(POV, Problem & Define)

Ideate아이디어화: 고민과 상상(imagine solution)

Prototype원형: 문제 / 정의(Imagine Solution)

Test테스트: 실험과 반복(Test / Iterate)

1~2주 안에 무언가가 뚝딱 나오고, 다시 돌려보고 돌려보고, 이 프로세스를 빠르게 하는 것을

디자인 thinking이라고 합니다.

Q. 디자인 thinking은 위의 과정을 빠르게 여러번 하는 것을 말합니까?

기초과학은 Creative한 solution이 필요하기 때문에, 엔지니어링과 차이가 있습니다.

엔지니어링은 최적화를 한다는 관점에서 집중합니다.

따라서, 솔루션 완벽하지 않아도 좋으니까 문제에 집중하고, 스토리를 생각해주세요

계산이 엄청나게 정확하게 하는 이런 것이 중요한게 아니라 어떠한 스토리를 가지고 있는지가 중요합니다.

팀 워크를 할 수 있다. 이런 것을 보여줘야 합니다.

Q. 취업할 때, 협업이 중요하다고 하셨습니다. 협상을 잘 하려면 어떻게 해야합니까?

팀워크 하면서 본인의 역량을 보여줄 수 있냐 하는 것이 중요해요

  1. 나는 뭐하고 있고, 저 사람은 뭐하고 있고 그거를 서로 알아야 합니다.

Q. 살짝 언급된 것 중에서, 전처리 과정 중에서 Wrangling은 무엇입니까?

[4기 우수작]

목표: 구직자를 위한 기업 뉴스 검색

유사 서비스

기존 서비스와의 차별화

Q. 4기 우수작 '구직자를 위한 기업 뉴스 검색' 서비스에서 크롤링에 대한 판례가 있는데, 데이터 저작권법 위반?

구직자를 위한 기업 뉴스 검색 핵심 알고리즘(문서 분류 저장 모델)

1569285805201

문서 -> 전처리된 문서 -> 도출 문서 -> 카테고리별 문서 -> 토픽별 문서 -> 대표 문서

  1. 데이터 확보

    kaggle 처럼, dacon.io 라는 한국의 사이트 있습니다.

  2. 문서 전처리

    전처리 과정은 불용어 처리, 유의어 처리, 유효명사 처리, 토큰화로 구성된다.

    특수 불용어는 검색결과 최빈 단어와 의미가 약한 단어를 의미한다.

    유효명사란 특수 불용어와 반대되는 개념으로, 주제를 분류할 때 반드시 필요하지만 토큰화 모듈이 명사로 인식하지 못하는 단어를 말한다.

  3. 유효문서 할당(모든 문서가 유효하지 않았기 때문에 정의 했음)

    유효문서란 '제목에 검색어를 포함하면서 본문에 검색어가 3회 이상 출현한 문서'로 정의한다.

  4. 문서별 카테고리 할당

  5. 카테고리 내 문서별 토픽 할당

  6. 토픽별 대표문서 추출

    토픽 내 대표기사는 토픽 키워드를 많이 포함하면서(score) 길이가 짧은 문서로 정의한다.

    오픈소스 검색엔진 엘라스틱서치(Elastic Search)의 검색 알고리즘 BM25를 사용한다.

    키워드에 대한 문서의 BM25 점수를 계산하는 수식 적용

  7. 기대효과

    1. 사업성

아이템 잘 잡고, 데이터 확보를 어떻게 할까 고민을 많이 했으면 프로젝트의 반은 완성된 것입니다.

Q. LDA와 LSA 알고리즘?

Q. OPTICS, DBSCAN 알고리즘은 어떤 알고리즘?


정원혁 선생님

프레젠테이션 기술

코딩을 잘 하고, 분석을 잘 하는 것을

초보일 때는 가장 잘 보이는 자리에 여러분의 응원군을 앉혀 놓으십시오.

팔짱 끼지 말고, 프레젠테이션 가리지 말고, 아이 컨택을 하지 않는 것,

손바닥을 보여주는 것이 얼마나 신뢰를 주는가. 손바닥, 손등, 손가락

중요한 것

  1. Eye Contact
  2. 손바닥을 보여줄 것

ppt를 만들 때 슬라이드 2/3만 사용할 것. 아래쪽이 잘 안보이기 때문에

마이크, 빔 프로젝트(어디와 연결되어 있는지 잘 알아야 합니다), 마이크, 노트북과 익숙해야 합니다.

Win + P를 누르면 빔 프로젝트와의 설정이 바뀝니다.

데모할 때에는 동영상을 적극 활용해야 합니다.

A TED Speaker's worst nightmare

오디오 부분

HDMI를 연결하면 오디오가 HDMI로 넘어갑니다. 대부분의 강연장에는 오디오 소스가 따로 있기 때문에 소스를 HDMI에서 오디오 부분으로 따로 바꿔줘야 합니다.

발표할 때는 3가지로만 요약해서 보여줘야 합니다.

오프닝 / 클로징

  • 제가 발표를 진짜 못해서, 제가 아는게 없는데 저를 불러줘서 ~ 이런것 절대 하지 말기
  • 정말 발표 잘 하는 사람들의 발표는 다릅니다.
  • 최종 발표할 때는 어떻게 오픈 / 클로징 멘트를 준비해 보세요
  • 한 페이지에는 한 가지의 주제를 담아라

시각화

  • 그래프로 보여주기
  • 캐나다에 갔더니 차의 사진이 얼마나 큰데 ~
  • 이렇게 하지 말고, 실제로 사진을 보여주고, 비교할 수 있게

시각 처리

KISS, KILL

  • Keep It Simple & Short
  • Keep It Large & Legible

정원혁 선생님

Design Thinking

gm design thinking filetype:pptx

디자인씽킹 slideshare 이희우

  • slideShare에 가면, 어마어마한 양의 자료가 있습니다.
  • 스탠포드, D 스쿨이 있습니다.

Emphathize: 문제를 확인(멀티캠퍼스에서 엘리베이터를 타는데 너무 느려서...~ 라는 말을 들음)

Define: 문제를 정의하라(Patterns, Insight, Focus)

Ideate: 아이디어화 하라. 질보다 양이고, 남의 의견 비판 엄금

1569289683707

2사분면에 있는 쉽고, 가치있는 일을 이번 시간에는 해야 합니다.

Test: 테스트하고 반복하라

TED 마시멜로우 게임을 통해 배운 새로운 협동의 형태

보면 유치원생이 빨리 만드는데, 빠르게 만들어서 테스트했기 때문입니다.

실습

  1. 빠르게 아이디어를 8개 만들어서, 그 것을 여러 사람들과 나눕니다.

다른 사람을 비판하지 말고, 새로운 아이디어를 추가만 합니다.

한 방향으로 돌립니다.

  1. 사람들이 적은 것으로 하나씩 주제를 선택해서 벽에 포스트잇으로 붙입니다.
  2. 가치 & 난이도 고려해서 1점 ~ 5점으로 각각 나눠서 위의 사분면에 포스트잇을 붙입니다.

김영하 선생님

Automated ML 동향 알아보기

AutoML

아마존 Deep Learning Illustrated 책 곧 국내에서 발간됨

(그림으로 딥러닝을 자세하게 설명했음)

엑셀로 배우는 딥러닝

새로운 언어들

Luna-lang.org

Ballerina.io

www.einblick.ai

drag-drop-data

http://news.mit.edu/2019/drag-drop-data-analytics-0627

AutomatedML

Le quoc https://arxiv.org/abs/1112.6209 (AutoML 논문)

괜찮은 툴

mlflow

Apache Spark팀에서 만들었음. DataLake라는 툴도 있음

Binah

DataRobot

BigML

MissingLink

mljar

라벨링 아이디어

whichfaceisreal.com

위의 사이트처럼 공모해서 사람들한테 라벨링을 시키게 함

링크들

customvision.ai

luminoth

IBM

Azure에서 AutoML도 있음

IBM watson => machinelearningforkids.co.uk

AutoML의 한계

  1. 비지도 학습 및 강화 학습에 적용
  2. 복잡한 데이터 형태, (null값 처리)
  3. 도메인 지식이 필요한 형태

OpenML 데이터셋 모아놓은 곳

openml.org/home

xeno.work/koenc.html (번역 방해하는 한글 만드는 사이트)

https://github.com/pureugong/gurume (super summary )

이미지들

wallpaperflare.com

generated.photos

superheroapi.com

minerl.io(마인 크래프트 강화학습)

프로젝트 시 주의 사항

  1. 내 데이터라고 생각해야 문제가 보입니다.
  2. 민감한 데이터는 보안 및 백업
  3. 데이터 수집 주기 고려해야 합니다. 수집량은 비용 및 공간의 문제이기 때문입니다.