Skip to content

linuxscout/adawat

Folders and files

NameName
Last commit message
Last commit date

Latest commit

5e0bb5b · Aug 27, 2020

History

9 Commits
Aug 27, 2020
Aug 10, 2020
Aug 10, 2020
Aug 9, 2020
Aug 9, 2020
Aug 9, 2020
Aug 9, 2020
Jan 8, 2019
Aug 9, 2020
Aug 10, 2020
Aug 9, 2020
Aug 10, 2020
Aug 10, 2020
Aug 9, 2020
Aug 10, 2020
Aug 10, 2020

Repository files navigation

Adawat: Arabic Language Toolkit

مكتبة أدوات اللغة العربية

Adawat: Arabic Language Toolkit

adawat logo

PyPI - Downloads

Developpers: Taha Zerrouki: http://tahadz.com taha dot zerrouki at gmail dot com

Features value
Authors Authors.md
Release 0.1
License GPL
Tracker linuxscout/adawat/Issues
Source Github
Feedbacks Comments
Accounts @Twitter)

Description

Adawat: Arabic Language Toolkit

مزايا:

تجمع هذه المكتبة كل الأدوات المستعملة في معالجة النص العربي مثل:

  • التشكيل
    • تشكيل النص العربي، يستحسن استعمال مكتبة مشكال، أو برنامج مشكال

    • تشكيل مع اقتراحات تشكيلات أخرى لكل كلمة

    • اختزال الحركات من النص المشكول

    • إزالة التشكيل

    • مقارنة جملة مشكولة يدويا مع ما ينتج عن برنامج التشكيل

  • وظائف التحويل
    • نقحرة النص العربي بحروف لاتينية
    • تعريب نص مكتوب بحروف لاتينية
    • قلب نص
    • تفقيط: تحويل عدد إلى نص
    • تنميط النص: توحيد الهمزات والألفات
    • فك تشابك الحروف العربية
  • التحليل والتوليد
    • تحليل صرفي للنص
    • تفريق النص إلى كلمات وعلامات
    • تصنيف الكلمات إلى اسم وفعل وحرف
    • توليد كل الأشكال المختلفة للكلمة
  • استخلاص
    • استخلاص المتلازمات اللفظية
    • كشف اللغات المختلفة
    • استخلاص المسميات
    • استخلاص العبارات العددية
  • متفرقات
    • ضبط قصيدة شعرية عمودية
    • توليد نص عشوائي

Features

  • Tashkeel
    • tashkeel : vocalize text, we recomand to use mishkal-console instead.
    • tashkeel with suggestions for every word.
    • reduce : strip unnecessary tashkeel from avocalized text
    • strip : remove all harakat and shadda
    • compare : Compare Tashkeel between input text and the automatic vocalized text
  • Transformation and Converion
    • romanize : convert an arabic script text to latin representation
    • arabize : convert an transliterated arabic script text to arabic
    • inverse : inverse text
    • numbers to words : convert numeric value to words
    • normalize : normalize letters in arabic text
    • unshape : unshape arabic letters
  • Analysis and generation
    • stem : morphology analysis of given texts
    • tokenize : tokenize a text to words
    • wordtag : classify words into (nouns, verbs, stopwords)
    • affixate : generate all word forms by affixation
  • Extraction
    • collocation : extract collocations from text
    • language : detect arabic and latin clauses in text
    • named : extract named enteties from text
    • numbered : extarct numbred clauses from text
  • Divers
    • affixate : generate all word forms by affixation
    • poetry : format poetry texts to columns poetry
    • random : get a random text

Citation

@thesis{zerrouki2020adawat,
author = {Taha Zerrouki},
title = {Towards An Open Platform For Arabic Language Processing},
type = {PhD thesis},
institution = {Ecole Nationale Supérieure d'informatique, Alger, Algérie},
date = {2020},
}

Usage

install

pip install adawat

import

>>> import adawat.adaat

Examples

Detailed examples and features in Features

Tashkeel

  • tashkeel : vocalize text, we recomand to use mishkal-console instead.
  • tashkeel with suggestions for every word.
  • reduce : strip unnecessary tashkeel from avocalized text
  • strip : remove all harakat and shadda
  • compare : Compare Tashkeel between input text and the automatic vocalized text
>>> lastmark = True
>>> text = u"تطلع الشمس صباحا"
>>> adawat.adaat.tashkeel_text(text, lastmark)
' تَطْلُعُ الشَّمْسُ صَبَاحًا'

[requirement]

asmai>=0.1
mishkal>=0.3
naftawayh>=0.4
pyarabic>=0.6.8
qalsadi>=0.3.6
repr>=0.3.1
sylajone>=0.2
tashaphyne>=0.3.4.1

About

Adawat: Arabic Text tools

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published