أداة متقدمة لاستخراج الكلمات الفريدة من المدونات النصية العربية. تدعم معالجة ملفات متعددة وإحصاء الكلمات بشكل متوازي.
- 🔍 استخراج الكلمات الفريدة: استخراج جميع الكلمات الفريدة من المدونة
- 📊 إحصاء الكلمات: إحصاء عدد تكرار كل كلمة
- ⚡ معالجة متوازية: معالجة متعددة الملفات بشكل متوازي
- 🧹 تنظيف النصوص: تنظيف النصوص وفق رموز محددة
- 📁 معالجة المجلدات: معالجة جميع الملفات في مجلد واحد
- Python 3.7 أو أحدث
- chardet (للكشف عن الترميز)
- استنسخ المستودع:
git clone https://github.com/ayzem88/unique-words-extractor.git
cd unique-words-extractor- قم بتثبيت المتطلبات:
pip install chardetpython "مستخرج الكلمات الفريدة - المطور.py"python "مستخرج الكلمات الفريدة - بسيط.py"python "منظف النصوص وفق رموز محددة.py"مستخرج الكلمات الفريدة من المدونة/
├── مستخرج الكلمات الفريدة - المطور.py
├── مستخرج الكلمات الفريدة - بسيط.py
├── إحصاء عدد كل الكلمات في المجلد.py
├── جمع الملفات في ملف.py
└── منظف النصوص وفق رموز محددة.py
- مستخرج الكلمات الفريدة - المطور.py: النسخة المطورة مع معالجة متوازية
- مستخرج الكلمات الفريدة - بسيط.py: النسخة البسيطة
- منظف النصوص وفق رموز محددة.py: تنظيف النصوص
- البرنامج يدعم الكشف التلقائي عن ترميز الملفات
- يمكن تحديد عدد الكلمات في كل ملف مخرجات
- المعالجة المتوازية تسرع العملية بشكل كبير
- واجهة رسومية (GUI)
- تحسين الأداء
- دعم المزيد من صيغ الملفات
- تصدير النتائج بصيغ متعددة
نرحب بمساهماتكم! يرجى قراءة CONTRIBUTING.md للمزيد من التفاصيل.
هذا المشروع مخصص للاستخدام الأكاديمي والبحثي.
أيمن الطيّب بن نجي (ayzem88)
خبير لغوي في معجم الدوحة التاريخي للغة العربية، مهتم بالأدوات والبرامج اللغوية، ومبرمج Vibe Coding.
🌐 الموقع الشخصي: aymannji.com
أُعتمد في مشاريعي البرمجية على منهج Vibe Coding؛ أسلوب يتجاوز كتابة كلّ سطر يدوياً، إذ أوجّه نماذج الذكاء الاصطناعي بوصف منطقي وواضح للوظيفة المطلوبة، ثم أُقيّم النتائج وأُدخِل التحسينات.
هذا النهج يعزّز السرعة في إنشاء النماذج الأولية والوِحدات البرمجية، ويمنحني تركيزاً أكبر على التصوّر العام والتصميم بدلاً من التفاصيل الدقيقة.
في هذا المستودع، تجد أدوات ومشاريع بُنيت بهذه المقاربة — يُرحّب بتجربتها والمساهمة فيها.
تم تطوير هذا المشروع بواسطة أيمن الطيّب بن نجي (ayzem88)
An advanced tool for extracting unique words from Arabic text corpora. Supports processing multiple files and counting words in parallel.
- 🔍 Extract Unique Words: Extract all unique words from corpus
- 📊 Word Counting: Count frequency of each word
- ⚡ Parallel Processing: Process multiple files in parallel
- 🧹 Text Cleaning: Clean texts according to specified symbols
- 📁 Folder Processing: Process all files in a folder
- Python 3.7 or later
- chardet (for encoding detection)
- Clone the repository:
git clone https://github.com/ayzem88/unique-words-extractor.git
cd unique-words-extractor- Install requirements:
pip install chardetpython "مستخرج الكلمات الفريدة - المطور.py"python "مستخرج الكلمات الفريدة - بسيط.py"python "منظف النصوص وفق رموز محددة.py"unique-words-extractor/
├── مستخرج الكلمات الفريدة - المطور.py
├── مستخرج الكلمات الفريدة - بسيط.py
├── إحصاء عدد كل الكلمات في المجلد.py
├── جمع الملفات في ملف.py
└── منظف النصوص وفق رموز محددة.py
- مستخرج الكلمات الفريدة - المطور.py: Advanced version with parallel processing
- مستخرج الكلمات الفريدة - بسيط.py: Simple version
- منظف النصوص وفق رموز محددة.py: Text cleaning
- The program supports automatic encoding detection
- You can specify the number of words in each output file
- Parallel processing significantly speeds up the process
- Graphical user interface (GUI)
- Performance improvements
- Support for more file formats
- Export results in multiple formats
Contributions are welcome! Please read CONTRIBUTING.md for more details.
This project is intended for academic and research use.
Ayman Atieb ben NJi (ayzem88)
Linguistic expert at the Historical Dictionary of the Arabic Language of Qatar (Doha Dictionary), interested in linguistic tools and software, and a Vibe Coding programmer.
🌐 Personal Website: aymannji.com
I adopt the Vibe Coding paradigm in my software projects: rather than writing every line manually, I direct AI models with clear natural-language descriptions of the desired functionality, then evaluate and refine the generated code.
This approach accelerates prototype and module creation, allowing me to focus more on concept and design than on low-level implementation details.
In this repository you'll find tools and projects developed with this mindset — feel free to explore and contribute.
Developed by Ayman Atieb ben NJi (ayzem88)