Skip to content

Kumpulan dataset stopwords bahasa Indonesia untuk data pre-processing Twitter

License

Notifications You must be signed in to change notification settings

Braincore-id/IndoTWEEST

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

IndoTWEEST

Indonesian Tweet Stopwords


Proyek ini di-inisialisasi oleh Braincore.id sebagai kontribusi dalam pengembangan dataset stopwords sosial media Twitter untuk memudahkan penelitian yang menggunakan dataset dari platform tersebut demi kemajuan NLP Indonesia.

Kontribusi

Tata cara kontribusi dapat dibaca pada dokumen berikut Ini

  1. Clone terlebih dahulu git ini menggunakan command git clone https://github.com/Braincore-id/IndoTWEES.git

  2. Bagi yang memang sudah memiliki kumpulan stopwords yang ingin ditambahkan dapat melewati tahap 2. Jalankan Colab berikut untuk dijadikan acuan stopwords apa saja yang ingin dimasukkan

  3. Setelah mendapatkan kumpulan stopwords, masukkan kumpulan stopwords tersebut kedalam file .txt dengan format sebagai berikut

<stopword A>
<stopword B>
<stopword C>
...
...

  1. Jalankan perintah python src/add_csv.py --new_stopwords <file.txt>. Untuk lebih jelas mengenai argparse apa saja yang dapat digunakan bisa menggunakan perintah python src/add_csv.py --help

  2. Lakukan pull request sehingga hasil stopwords akan ditambahkan kedalam final stopwords

Task List

  • Support csv dan format lain sebagai format file untuk menambahkan stopwords
  • Penghitung Stopwords otomatis di README.md
  • Pembaruan otomatis pada Terakhir diperbarui pada README.md

Contributors

contributors

About

Kumpulan dataset stopwords bahasa Indonesia untuk data pre-processing Twitter

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages