data-profiling

Here are 104 public repositories matching this topic...

ydataai / ydata-profiling

1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames.

Updated Oct 9, 2025
Python

cleanlab / cleanlab

Cleanlab's open-source library is the standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.

Updated Sep 5, 2025
Python

great-expectations / great_expectations

Star

Always know what to expect from your data.

Updated Oct 10, 2025
Python

OpenMetadata is a unified metadata platform for data discovery, data observability, and data governance powered by a central metadata repository, in-depth column level lineage, and seamless team collaboration.

Updated Oct 10, 2025
TypeScript

fbdesignpro / sweetviz

Star

Visualize and compare datasets, target values and associations, with one line of code.

python data-science machine-learning statistics pandas-dataframe exploratory-data-analysis eda pandas data-visualization exploration data-analysis data-exploration data-profiling

Updated Aug 6, 2024
Python

sodadata / soda-core

Star

⚡ Data quality testing for the modern data stack (SQL, Spark, and Pandas) https://www.soda.io

Updated Oct 10, 2025
Python

hi-primus / optimus

Star

🚚 Agile Data Preparation Workflows made easy with Pandas, Dask, cuDF, Dask-cuDF, Vaex and PySpark

data-science machine-learning spark bigdata data-transformation pyspark data-extraction data-analysis data-wrangling dask data-exploration data-preparation data-cleaning data-profiling data-cleansing big-data-cleaning data-cleaner cudf dask-cudf

Updated Dec 2, 2024
Python

opendatadiscovery / odd-platform

Star

First open-source data discovery and observability platform. We make a life for data practitioners easy so you can focus on your business.

Updated Feb 19, 2025
Java

cleanlab / cleanvision

Star

Automatically find issues in image datasets and practice data-centric computer vision.

data-science computer-vision deep-learning data-validation exploratory-data-analysis image-classification image-generation image-segmentation image-analysis data-exploration image-quality data-quality data-profiling data-centric-ai

Updated Apr 3, 2025
Python

datavane / datavines

Star

Know your data better！Datavines is Next-gen Data Observability Platform, support metadata manage and data quality.

metadata data-science spark datascience data-engineering flink data-quality-checks data-quality data-profiling cleandata dataquality doris data-quality-monitoring data-quality-report data-profilers dataprofile data-quality-framework dataobservability

Updated Oct 2, 2025
Java

polyaxon / traceml

Star

Engine for ML/Data tracking, visualization, explainability, drift detection, and dashboards for Polyaxon.

Updated Jun 12, 2025
Python

ing-bank / popmon

Star

Monitor the stability of a Pandas or Spark dataframe ⚙︎

Updated Sep 4, 2025
Python

InfuseAI / piperider

Star

Code review for data in dbt

python data-science continuous-integration reporting exploratory-data-analysis eda data-visualization code-review pull-requests dbt data-exploration data-pipeline data-quality data-profiling data-testing data-observability data-profiler data-reliability dbt-metrics

Updated Jan 3, 2025
Python

polyaxon / haupt

Star

Lineage metadata API, artifacts streams, sandbox, API, and spaces for Polyaxon

Updated Sep 13, 2025
Python

Desbordante / desbordante-core

Star

Desbordante is a high-performance data profiler that is capable of discovering many different patterns in data using various algorithms. It also allows to run data cleaning scenarios using these algorithms. Desbordante has a console version and an easy-to-use web application.

Updated Oct 9, 2025
C++

databrickslabs / dqx

Star

Databricks framework to validate Data Quality of pySpark DataFrames

spark spark-streaming databricks data-quality-checks data-quality data-profiling dlt data-quality-monitoring

Updated Oct 10, 2025
Python

dqops / dqo

Star

Data Quality and Observability platform for the whole data lifecycle, from profiling new data sources to full automation with Data Observability. Configure data quality checks from the UI or in YAML files, let DQOps run the data quality checks daily to detect data quality issues.

monitoring data-quality-checks data-quality data-profiling data-ops data-quality-measurement data-quality-monitoring data-quality-report data-observability

Updated Sep 5, 2025
Java

hi-primus / bumblebee

Star

🚕 A spreadsheet-like data preparation web app that works over Optimus (Pandas, Dask, cuDF, Dask-cuDF, Spark and Vaex)

python gui gpu datasets dask optimus data-preparation data-cleaning data-profiling bumblebee prepare-data cudf dask-cudf

Updated Jul 15, 2023
Vue

DataKitchen / data-observability-installer

Star

Installer for DataKitchen's Open Source Data Observability Products. Data breaks. Servers break. Your toolchain breaks. Ensure your team is the first to know and the first to solve with visibility across and down your data estate. Save time with simple, fast data quality test generation and execution. Trust your data, tools, and systems end to end.

Updated Oct 7, 2025
Python

SJTU-DMTai / awesome-ml-data-quality-papers

Star

Papers about training data quality management for ML models.

machine-learning data-management data-quality data-profiling data-debugging data-valuation data-centric-ai ai4db db4ai

Updated Oct 7, 2025

Improve this page

Add a description, image, and links to the data-profiling topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the data-profiling topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-profiling

Here are 104 public repositories matching this topic...

ydataai / ydata-profiling

cleanlab / cleanlab

great-expectations / great_expectations

open-metadata / OpenMetadata

fbdesignpro / sweetviz

sodadata / soda-core

hi-primus / optimus

opendatadiscovery / odd-platform

cleanlab / cleanvision

datavane / datavines

polyaxon / traceml

ing-bank / popmon

InfuseAI / piperider

polyaxon / haupt

Desbordante / desbordante-core

databrickslabs / dqx

dqops / dqo

hi-primus / bumblebee

DataKitchen / data-observability-installer

SJTU-DMTai / awesome-ml-data-quality-papers

Improve this page

Add this topic to your repo