Skip to content

QuangQuang122003/SprakRDD

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

File PySpark.ipynb là một Jupyter Notebook được sử dụng để thực hiện các thao tác trên dữ liệu sử dụng Apache Spark thông qua PySpark.

Các hoạt động chính trong notebook này bao gồm:

  • Khởi tạo một phiên Spark bằng cách sử dụng SparkSession.
  • Đọc dữ liệu từ một file CSV vào một Resilient Distributed Dataset (RDD).
  • Đếm số lượng dòng trong RDD.
  • Thực hiện một thao tác Word Count trên một file văn bản khác. Điều này bao gồm việc tách từ, ánh xạ từng từ với giá trị 1, và sau đó giảm theo khóa để tính tổng số lần xuất hiện của mỗi từ.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published