- analysis
- animation
- audio
- generative
- meeting
- motion
- object_detection
- searchsystem
- semantic_segmentation
- vision3d
- nlp
- japanesenlp
- app
- tools
- utilities
- pix2pix
- ocr
- inpainting
- instructionpix
-
Analysis
- ptlflow
- opticalflowを代表とした画像内の動きを推論できるAIモデルのNotebook
- face detection
- ptlflow
-
Animation
- anime_rad_nerf
- 顔の映像と音声を合成する.アニメ映像でできるように改変
- RAD_NeRF
- 顔の映像と音声を合成する。3Dの推論を入れてるので精度が高い
- Thin Plate Spline Motion
- 顔の映像を元映像の動きと同期させて話せるようになっている。
- MakeItTalk
- 顔の映像と口元、目の当たりの動きをリンクさせて動かせるようなモデルになっている。Realistic visionも用いて生成した絵を動かすまでのパイプラインも紹介
- anime_rad_nerf
-
Audio
- audiolm
- 音楽を生成できるやつ
- DeforumStableDiffusion
- 音楽生成が可能(BGMより)、動画との組み合わせも可能
- Denoise
- 雑音除去の性能が高いやつ
- riffusion
- 音楽生成が可能(BGMより)、fine-tuningコードあり
- valle
- 誰かの声真似ができる
- audio extraction
- whisperとpyannoteを使って音声合成のためのデータセット作成を簡易化したノートブック
- audiolm
-
Generative
- img2prompt
- 画像からその画像の意味を抽出可能
- stable diffusion v2 finetune
- stable diffusion v2のdreambooth finetuningのやつ
- stable diffusion image inpaint
- stable diffusionのinpaintingのdreambooth finetuningのやつ
- stable diffusion v1.5 inpaint
- stable diffusion v2 inpaint
- stable diffusion for webui
- openjourney
- openjorney, nijijourneyの使い方、controlnetと組み合わせようとしたがgoogle colab freeのため失敗
- huggingface site
- img2prompt
-
Meeting
- meeting recognition
- whisper + pyannoteで話者識別、書き起こし、音声類似度判定で、誰が喋ったかまで可能
- meeting recognition
-
Motion
- alphapose3d
- 3d 姿勢推定ライブラリの実行
- motiondiffusion
- textからアクションを生成可能(ToDo: unityで使えるように連携記事)
- motion diffusion unity
- text2unityのためのipynb
- alphapose3d
-
ObjectDetection
- visionTransformer
- vision transformerで物体検出、自分用にfine-tuningする手順
- cutler
- 教師なしでマスク検出が可能、detectron2には大きく依存だが、ここのdetectionをfine-tuningすれば自分用にカスタマイズ可能かも
- visionTransformer
-
SearchSystem
-
SemeanticSegmentation
- unetdeeplab
- unet + deeplabv3でsemantic segmentationを自分用でfinetuningする手順
- mmsegtutorial PSPNet
- PSPNetで車載カメラデータセットをcityscapesのpretrainedでfinetuningする手順
- mmsegtutorial Deeplabv3
- Deeplabv3で車載カメラデータセット、convert datasetの実験もつけてる
- unetseg
- Unetを使ってsimpleなモデルで学習をおこなったケース
- unetdeeplab
-
Vision3d
- ECON
- get3d
- ICON
- latentNerf
- NerfStudio
- visionNerf
- text2mesh
- neural renderingを用いたtext2meshのデモ、ベースのmeshモデルによって精度は大きく変化するみたい。 -> remeshが走らない(なぜかメモリが足らない、、)
- live3d-v2
- Neural renderingを用いて3Dモデルのモーションやモデル生成が可能、MDMと組み合わせて面白いことができそう。
- rgbd23d
- midasで深度推定から3D point cloudを生成(全くうまくいかない)、そのほかにmmdetection3dのためのpoint cloud converterも実装されてる。
-
Pix2Pix
-
App
-
Tools
-
utilities
- mask2bbox
- pytorch lightning
- efficient netを使った分類と値推定のNNの構築をpytorch lightningを使用して行ったデモ
-
Video
-
NLP
-
JapaneseNLP
-
Inpainting
-
OCR
-
Pix2Pix for stable diffusion
-
InstructionPix
-
LLM
-
chatgpt
- chatgpt with chatwaifu
- this is working in progress. maybe I cannot run on colab...
- chatgpt with chatwaifu
-
Text2Speech
-
objectdetection3d
- mmdetection3d
- mmdetection3dを用いた3d object detection、主にRGB+Point cloud or Point cloudの推定を行なっている。
- mmdetection3d
Collaboration with github and colaboratory
-
mask interaction system
-
3D avatar creation
-
Stable diffusion paper
-
Finetuning with blip