- alexa.lst
- Alexa top 500のリスト(http://付き)
- data/alexa_one_million.lst
- Alexaのリスト100万件(05-Oct-2016, http://なし)
$ (for i in {0..199}; do (curl -s http://listofdomains.org/alexa/alexa_$i.html | sed -n -e '/^<tr><td>[0-9]\+<\/td><td><a href="[^"]\+">/p' | sed -e 's/<\/*[a-z]\+>//g' | sed -e 's/[0-9]\+<a href="[^"]\+">//g'); done;) > alexa_one_million.lst
- search_keywords_en.lst
- pagetrafficからとってきた人気キーワードリスト
- suspiciousdomains_High.txt
- ドメインブラックリスト(高リスク)
- https://isc.sans.edu/suspicious\_domains.html
- suspiciousdomains_Low.txt
- ドメインブラックリスト(中リスク)
- URL同上
- suspiciousdomains_Medium.txt
- ドメインブラックリスト(低リスク)
- URL同上
- crawler.py
- AlexaTop500のURLを抽出し、ファイルへ出力する
- gethtml.py
- URLを与えると、そのページのHTMLをファイルへ出力する
- google_search.py
- 第一引数をクエリにしてgoogle.comで100件検索、"This site may be hacked."な結果のタイトルとリンク先を出力する
- javascript_getter.py
- URLを与えると、そのベージのjavascriptをファイルへ出力する
- check_webserver.py
- 第一引数のURLリスト(alexa 100万件を想定)から1つランダムに選び、HEADでアクセスしてServerヘッダを取得したのち、GETでトップページを取得してmetaのgeneratorを取得するのを100回繰り返した結果を出力する
- narrow_dsites.py
- check_webserver.pyの出力からWordPressのサイトだけ抜き出して、WordPressのバージョンが古い順のリストを出力する
- dec_419c9e.py
- c2 問4で作成したスクリプトにコメントを付けたものである。 スクリプトの動作にはPython2のインストールされたWindowsが必要である。 また、RC4の復号処理が未実装であるため完全な複合はできない。
- crawl.py
- Googleから人気検索ワードを検索し、上位100件のWebサイトを訪れる
- google_crawler.py
- Google検索を行い、上位100件のURLを抽出する
- website_crawler.py
- Seleniumを用いてWebサイトを訪れる
- IEDriverServer.exe
- Selenium用のIEDriver