Skip to content

itto-ki/MWSCup

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MWSCup

data

  • alexa.lst
  • data/alexa_one_million.lst
$ (for i in {0..199}; do (curl -s http://listofdomains.org/alexa/alexa_$i.html | sed -n -e '/^<tr><td>[0-9]\+<\/td><td><a href="[^"]\+">/p' | sed -e 's/<\/*[a-z]\+>//g' | sed -e 's/[0-9]\+<a href="[^"]\+">//g'); done;) > alexa_one_million.lst
  • search_keywords_en.lst
    • pagetrafficからとってきた人気キーワードリスト
  • suspiciousdomains_High.txt
  • suspiciousdomains_Low.txt
    • ドメインブラックリスト(中リスク)
    • URL同上
  • suspiciousdomains_Medium.txt
    • ドメインブラックリスト(低リスク)
    • URL同上

tools

  • crawler.py
    • AlexaTop500のURLを抽出し、ファイルへ出力する
  • gethtml.py
    • URLを与えると、そのページのHTMLをファイルへ出力する
  • google_search.py
    • 第一引数をクエリにしてgoogle.comで100件検索、"This site may be hacked."な結果のタイトルとリンク先を出力する
  • javascript_getter.py
    • URLを与えると、そのベージのjavascriptをファイルへ出力する
  • check_webserver.py
    • 第一引数のURLリスト(alexa 100万件を想定)から1つランダムに選び、HEADでアクセスしてServerヘッダを取得したのち、GETでトップページを取得してmetaのgeneratorを取得するのを100回繰り返した結果を出力する
  • narrow_dsites.py
    • check_webserver.pyの出力からWordPressのサイトだけ抜き出して、WordPressのバージョンが古い順のリストを出力する
  • dec_419c9e.py
    • c2 問4で作成したスクリプトにコメントを付けたものである。 スクリプトの動作にはPython2のインストールされたWindowsが必要である。 また、RC4の復号処理が未実装であるため完全な複合はできない。

crawler

  • crawl.py
    • Googleから人気検索ワードを検索し、上位100件のWebサイトを訪れる
  • google_crawler.py
    • Google検索を行い、上位100件のURLを抽出する
  • website_crawler.py
    • Seleniumを用いてWebサイトを訪れる
  • IEDriverServer.exe
    • Selenium用のIEDriver

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages