MWSCup

data

alexa.lst
- Alexa top 500のリスト(http://付き)
data/alexa_one_million.lst
- Alexaのリスト100万件(05-Oct-2016, http://なし)

$ (for i in {0..199}; do (curl -s http://listofdomains.org/alexa/alexa_$i.html | sed -n -e '/^<tr><td>[0-9]\+<\/td><td><a href="[^"]\+">/p' | sed -e 's/<\/*[a-z]\+>//g' | sed -e 's/[0-9]\+<a href="[^"]\+">//g'); done;) > alexa_one_million.lst

search_keywords_en.lst
- pagetrafficからとってきた人気キーワードリスト
suspiciousdomains_High.txt
- ドメインブラックリスト(高リスク)
- https://isc.sans.edu/suspicious\_domains.html
suspiciousdomains_Low.txt
- ドメインブラックリスト(中リスク)
- URL同上
suspiciousdomains_Medium.txt
- ドメインブラックリスト(低リスク)
- URL同上

tools

crawler.py
- AlexaTop500のURLを抽出し、ファイルへ出力する
gethtml.py
- URLを与えると、そのページのHTMLをファイルへ出力する
google_search.py
- 第一引数をクエリにしてgoogle.comで100件検索、"This site may be hacked."な結果のタイトルとリンク先を出力する
javascript_getter.py
- URLを与えると、そのベージのjavascriptをファイルへ出力する
check_webserver.py
- 第一引数のURLリスト(alexa 100万件を想定)から1つランダムに選び、HEADでアクセスしてServerヘッダを取得したのち、GETでトップページを取得してmetaのgeneratorを取得するのを100回繰り返した結果を出力する
narrow_dsites.py
- check_webserver.pyの出力からWordPressのサイトだけ抜き出して、WordPressのバージョンが古い順のリストを出力する
dec_419c9e.py
- c2 問4で作成したスクリプトにコメントを付けたものである。スクリプトの動作にはPython2のインストールされたWindowsが必要である。また、RC4の復号処理が未実装であるため完全な複合はできない。

crawler

crawl.py
- Googleから人気検索ワードを検索し、上位100件のWebサイトを訪れる
google_crawler.py
- Google検索を行い、上位100件のURLを抽出する
website_crawler.py
- Seleniumを用いてWebサイトを訪れる
IEDriverServer.exe
- Selenium用のIEDriver

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
crawler		crawler
data		data
tools		tools
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

MWSCup

data

tools

crawler

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

itto-ki/MWSCup

Folders and files

Latest commit

History

Repository files navigation

MWSCup

data

tools

crawler

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages