My Datasets Repository

This repository contains various datasets for data analysis, machine learning, and educational purposes. Below is a brief description of each dataset available in this repository.

Want to download any csv file for local use? Follow the steps mentioned below: 👇

Go to a csv file in a repository of your choice
From the top right bar just above the file section, select and click on "Raw" button
A page will appear with comma separated data with no styling
Copy the page url
Make a folder in your desktop
Open that folder in your favourite code editor and make a simple python file inside the folder. Name it as you please.
Copy this code [From the section below]
Run the python file
The csv file will get downloaded within sometime, depending upon file size
Now you are ready the use it locally!!

import requests
import pandas as pd
url = '{(copied url here)}' 
res = requests.get(url, allow_redirects=True)
with open('download_file_name.csv','wb') as file:
    file.write(res.content)
download_file_name = pd.read_csv('download_file_name.csv')

Available Datasets

1. BMI_Data.csv

Contains Body Mass Index (BMI) data.
Useful for health and fitness analysis.

2. departments.csv

Contains department-related information.
Useful for organizational data processing.

3. employees.csv

Contains employee details.
Can be used for HR analytics and workforce management.

4. iris.csv

Classic Iris dataset for machine learning.
Contains different species of iris flowers with their measurements.

5. item_similarity_df.csv

Contains item similarity data.
Useful for recommendation system development.

6. movies.csv

Dataset containing information about movies.
Useful for movie recommendation models.

7. music_genre.csv

Contains music genre classification data.
Can be used for genre prediction models.

8. nielit.patt

Not a database it's for AVR custom Marker

9. pandas.csv

Sample dataset for practicing pandas library operations.
Useful for learning data manipulation.

10. pandas_tutorial1.csv

Another dataset for pandas tutorials.
Contains structured data for training purposes.

11. ratings.csv

Contains user ratings for various items.
Useful for collaborative filtering and recommendation systems.

12. sample.csv

A sample dataset.
Can be used for testing and learning purposes.

13. test.csv

A test dataset.
Used for validation and experimentation.

Explore More Datasets on my Kaggle

Usage

These datasets can be used for:

Machine learning projects
Data analysis and visualization
Educational and tutorial purposes

How to Contribute

If you have additional datasets to contribute, feel free to upload them and update this README with the necessary descriptions.

License

These datasets are provided for educational and research purposes. Please check individual datasets for any specific license information.

For any questions or suggestions, feel free to raise an issue or contact Lovnish Verma.

📊 Machine Learning Dataset Sources

A list of public datasets for machine learning, AI, data science, and analytics projects.

🔹 General-Purpose ML Repositories

UCI Machine Learning Repository – Classic datasets used in academic ML research.
Kaggle Datasets – User-contributed datasets with competitions and notebooks.
Google Dataset Search – Dataset-specific search engine.
AWS Open Data Registry – Public datasets hosted on AWS.
Microsoft Azure Open Datasets – Curated datasets for training on Azure.
OpenML – Collaborative platform for sharing datasets and experiments.
Papers with Code – Datasets – ML benchmarks tied to research papers.
Hugging Face Datasets – NLP, vision, and multimodal datasets.
Zenodo – Scientific datasets with citation support.
Figshare – Open-access research datasets.
Data World – Community platform for data sharing.
Awesome Public Datasets (GitHub) – Curated list across domains.
FiveThirtyEight Data – Datasets used in data journalism.
Quandl – Financial and economic data.

🔹 Government & Open Data Portals

India AI – Dataset Repository – Indian AI project datasets.
Data.gov.in – Indian government open data.
Data.gov (USA) – US federal open datasets.
EU Open Data Portal – Data from European institutions.
UK Data Service – Economic and social research datasets (UK).
Canada Open Government – Datasets from Canada.
Australia Data Portal – Australian government datasets.

🔹 Domain-Specific Datasets

🖼️ Computer Vision

ImageNet – Large-scale image classification dataset.
COCO Dataset – Object detection, segmentation, and captioning.
Open Images Dataset – Annotated image data.
Stanford Dogs Dataset – Fine-grained image classification.

🌐 Web & NLP

Common Crawl – Large-scale web crawl data.
Wikipedia Dumps – Raw Wikipedia text.
Project Gutenberg – Public domain books for NLP.
TREC Question Classification – NLP benchmark dataset.

🧬 Bio, Medical & Health

PhysioNet – Physiological and clinical data.
MIMIC-III – ICU medical data (de-identified).
NIH Biomedical Data – NIH open data portal.
Cancer Imaging Archive – Medical imaging data for cancer research.

🗣️ Speech & Audio

OpenSLR – Speech recognition datasets.
LibriSpeech ASR – Audiobook dataset for speech recognition.

🗺️ Maps & Geospatial

OpenStreetMap (Geofabrik) – Extracts of OSM data.
Google Open Buildings – Global building footprints.

✅ Quick Access Table

Name	Domain	Link
UCI ML Repo	General	Link
Kaggle	General	Link
IndiaAI	Govt (India)	Link
Data.gov.in	Govt (India)	Link
Data.gov	Govt (USA)	Link
Data World	General	Link
Hugging Face	NLP/ML	Link
Papers with Code	Benchmarks	Link
Zenodo	Research	Link

📌 Tip

For code integration and automatic downloads, you can often use Python libraries such as:

from datasets import load_dataset

dataset = load_dataset("imdb")  # Hugging Face example

You can also automate downloads from Kaggle via API:

kaggle datasets download -d username/dataset-name

Feel free to contribute more sources via pull request!

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
Cryptocurrency		Cryptocurrency
GATE Exams		GATE Exams
Github_Stats		Github_Stats
Gold Rates		Gold Rates
IPL		IPL
World Happiness Data		World Happiness Data
magic+gamma+telescope		magic+gamma+telescope
AirPassengers.csv		AirPassengers.csv
Aviation History.csv		Aviation History.csv
BMI_Data.csv		BMI_Data.csv
Bitcoin Historical Data.csv		Bitcoin Historical Data.csv
Boston.csv		Boston.csv
Breast Cancer Dataset.csv		Breast Cancer Dataset.csv
Crop.csv		Crop.csv
DailyDelhiClimateTest.csv		DailyDelhiClimateTest.csv
DailyDelhiClimateTrain.csv		DailyDelhiClimateTrain.csv
Employee-Attrition.csv		Employee-Attrition.csv
First_Health_Camp_Attended.csv		First_Health_Camp_Attended.csv
Fish.csv		Fish.csv
Good_resume_template.doc		Good_resume_template.doc
Health_Camp_Detail.csv		Health_Camp_Detail.csv
House Price India.csv		House Price India.csv
House rent.csv		House rent.csv
Importing_Datasets_in_Google_Colab_using_pandas.ipynb		Importing_Datasets_in_Google_Colab_using_pandas.ipynb
Indian startups funding in 2021.csv		Indian startups funding in 2021.csv
LE.csv		LE.csv
LICENSE		LICENSE
Life Expectancy Data.csv		Life Expectancy Data.csv
Loan payments data.csv		Loan payments data.csv
Mall_Customers.csv		Mall_Customers.csv
Mall_Customers_updated.csv		Mall_Customers_updated.csv
Movie-Dataset-Latest.csv		Movie-Dataset-Latest.csv
Patient_Profile.csv		Patient_Profile.csv
Placement_Data_Full_Class.csv		Placement_Data_Full_Class.csv
README.md		README.md
Salaries.csv		Salaries.csv
Sample Seabon.csv		Sample Seabon.csv
Sarcasm_Headlines_Dataset.json		Sarcasm_Headlines_Dataset.json
Second_Health_Camp_Attended.csv		Second_Health_Camp_Attended.csv
SeoulBikeData.csv		SeoulBikeData.csv
Shark Tank Companies.csv		Shark Tank Companies.csv
Social_Network_Ads.csv		Social_Network_Ads.csv
Suicide data.csv		Suicide data.csv
Third_Health_Camp_Attended.csv		Third_Health_Camp_Attended.csv
TopStaredRepositories.csv		TopStaredRepositories.csv
Train.csv		Train.csv
UPI apps transaction data in 2021.csv		UPI apps transaction data in 2021.csv
Web Series.csv		Web Series.csv
bcancer.csv		bcancer.csv
books.csv		books.csv
brain_tumor.csv		brain_tumor.csv
car_evaluation.csv		car_evaluation.csv
data.csv		data.csv
dataset-car-price.csv		dataset-car-price.csv
departments.csv		departments.csv
diabetes_new.csv		diabetes_new.csv
earthquakes.csv		earthquakes.csv
employees.csv		employees.csv
flights.csv		flights.csv
german_credit.csv		german_credit.csv
heart_failure_clinical_records_dataset.csv		heart_failure_clinical_records_dataset.csv
house price.csv		house price.csv
housing.csv		housing.csv
imbalanced_dataset.csv		imbalanced_dataset.csv
indian_food.csv		indian_food.csv
insurance.csv		insurance.csv
iris.csv		iris.csv
iris_default.csv		iris_default.csv
iriswithheaders.csv		iriswithheaders.csv
item_similarity_df.csv		item_similarity_df.csv
laptop.csv		laptop.csv
laptop_price.csv		laptop_price.csv
matp.csv		matp.csv
matplotlibcsv.csv		matplotlibcsv.csv
movies.csv		movies.csv
music_genre.csv		music_genre.csv
netflix.csv		netflix.csv
nielit.patt		nielit.patt
pandas.csv		pandas.csv
pandas_tutorial1.csv		pandas_tutorial1.csv
police_killings.csv		police_killings.csv
population_by_country_2020 (1).csv		population_by_country_2020 (1).csv
proton collision.csv		proton collision.csv
rainfall in india 1901-2015.csv		rainfall in india 1901-2015.csv
ratings.csv		ratings.csv
reddit_vm.csv		reddit_vm.csv
routes.csv		routes.csv
sample.csv		sample.csv
spam.csv		spam.csv
test.csv		test.csv
test_only.csv		test_only.csv
testdata.csv		testdata.csv
titanic.csv		titanic.csv

Uh oh!

License

lovnishverma/datasets

Folders and files

Latest commit

History

Repository files navigation

My Datasets Repository

Want to download any csv file for local use? Follow the steps mentioned below: 👇

Available Datasets

1. BMI_Data.csv

2. departments.csv

3. employees.csv

4. iris.csv

5. item_similarity_df.csv

6. movies.csv

7. music_genre.csv

8. nielit.patt

9. pandas.csv

10. pandas_tutorial1.csv

11. ratings.csv

12. sample.csv

13. test.csv

Usage

How to Contribute

License

📊 Machine Learning Dataset Sources

🔹 General-Purpose ML Repositories

🔹 Government & Open Data Portals

🔹 Domain-Specific Datasets

🖼️ Computer Vision

🌐 Web & NLP

🧬 Bio, Medical & Health

🗣️ Speech & Audio

🗺️ Maps & Geospatial

✅ Quick Access Table

📌 Tip

About

Topics

Resources

License

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Sponsor this project

Uh oh!

Packages 0

Languages

Packages