blogpost-cswiki-in-covid-year

This repository contains data for post at WMCZ's blog, about Czech Wikipedia during the pandemy.

Data source

This repository makes use only of public data published by the Wikimedia Foundation, but the public data are processed at WMF's Hadoop cluster via Spark queries.

Page views

Data about page/project views can be downloaded from Wikimedia Dumps as pageviews dataset. In the Hadoop cluster, the data are available as those two tables:

wmf.pageview_hourly: per-page views, hourly granularity (docs)
wmf.projectview_hourly: per-project views, hourly granularity (docs)

Edits

Data about edits can be downloaded from Wikimedia Dumps as mediawiki_history dataset. In the Hadoop cluster, the data are available as wmf.mediawiki_history (docs).

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
data		data
.gitignore		.gitignore
README.md		README.md
explore.ipynb		explore.ipynb
new_pages.ipynb		new_pages.ipynb
pageviews.ipynb		pageviews.ipynb
publish_data.sh		publish_data.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

blogpost-cswiki-in-covid-year

Data source

Page views

Edits

About

Releases

Packages

Languages

wmcz/blogpost-cswiki-in-covid-year

Folders and files

Latest commit

History

Repository files navigation

blogpost-cswiki-in-covid-year

Data source

Page views

Edits

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages