Skip to content
This repository has been archived by the owner on Oct 28, 2021. It is now read-only.

Latest commit

 

History

History
24 lines (21 loc) · 1.57 KB

README.md

File metadata and controls

24 lines (21 loc) · 1.57 KB

技育展 AI・機械学習部門 登壇作品

Tmp Info

  • 使用するアルゴリズム

  • システム構成図(叩き台) システム構成図(叩き台)

  • データ収集(fetch.py)

  • データ整形(make_BoW.py)

    • ScrapingがうまくいってないSnnipetをdataframeから削除
    • 名詞・動詞・形容詞のみ抽出
    • 半角・大文字の違いがなくなるように全て半角で統一
    • 数字は全て0とする.(2015, 2014年や1200円とかも全て統一する)
    • stop_wordというある研究で文章解析に不要だと知られている単語を削除
    • max_dfで50個の文章で使われている単語は削除(ファッション)
    • min_dfで3個未満の文章でしか使われていない単語は削除
    • 最後に,Tf-idf処理を使って,「その単語がよく出現するほど」、「その単語がレアなほど」大きい値を示すようにする
      • tf(各文章においてその単語がどれだけ出現したのか
      • idf(どの文章でも使われる単語は重みは小さくしてユニークな単語の重みは大きくする処理をおこなう.)
  • データ学習(fit.py)