مستخرج الكلمات الفريدة من المدونة / Unique Words Extractor

نظرة عامة

أداة متقدمة لاستخراج الكلمات الفريدة من المدونات النصية العربية. تدعم معالجة ملفات متعددة وإحصاء الكلمات بشكل متوازي.

المميزات

🔍 استخراج الكلمات الفريدة: استخراج جميع الكلمات الفريدة من المدونة
📊 إحصاء الكلمات: إحصاء عدد تكرار كل كلمة
⚡ معالجة متوازية: معالجة متعددة الملفات بشكل متوازي
🧹 تنظيف النصوص: تنظيف النصوص وفق رموز محددة
📁 معالجة المجلدات: معالجة جميع الملفات في مجلد واحد

التثبيت

المتطلبات

Python 3.7 أو أحدث
chardet (للكشف عن الترميز)

خطوات التثبيت

استنسخ المستودع:

git clone https://github.com/ayzem88/unique-words-extractor.git
cd unique-words-extractor

قم بتثبيت المتطلبات:

pip install chardet

الاستخدام

النسخة المطورة

python "مستخرج الكلمات الفريدة - المطور.py"

النسخة البسيطة

python "مستخرج الكلمات الفريدة - بسيط.py"

تنظيف النصوص

python "منظف النصوص وفق رموز محددة.py"

هيكل المشروع

مستخرج الكلمات الفريدة من المدونة/
├── مستخرج الكلمات الفريدة - المطور.py
├── مستخرج الكلمات الفريدة - بسيط.py
├── إحصاء عدد كل الكلمات في المجلد.py
├── جمع الملفات في ملف.py
└── منظف النصوص وفق رموز محددة.py

الملفات الرئيسية

مستخرج الكلمات الفريدة - المطور.py: النسخة المطورة مع معالجة متوازية
مستخرج الكلمات الفريدة - بسيط.py: النسخة البسيطة
منظف النصوص وفق رموز محددة.py: تنظيف النصوص

ملاحظات مهمة

⚠️ ملاحظة:

البرنامج يدعم الكشف التلقائي عن ترميز الملفات
يمكن تحديد عدد الكلمات في كل ملف مخرجات
المعالجة المتوازية تسرع العملية بشكل كبير

التطوير المستقبلي

واجهة رسومية (GUI)
تحسين الأداء
دعم المزيد من صيغ الملفات
تصدير النتائج بصيغ متعددة

المساهمة

نرحب بمساهماتكم! يرجى قراءة CONTRIBUTING.md للمزيد من التفاصيل.

الترخيص

هذا المشروع مخصص للاستخدام الأكاديمي والبحثي.

عن المطور

أيمن الطيّب بن نجي (ayzem88)

خبير لغوي في معجم الدوحة التاريخي للغة العربية، مهتم بالأدوات والبرامج اللغوية، ومبرمج Vibe Coding.

🌐 الموقع الشخصي: aymannji.com

منهج التطوير

أُعتمد في مشاريعي البرمجية على منهج Vibe Coding؛ أسلوب يتجاوز كتابة كلّ سطر يدوياً، إذ أوجّه نماذج الذكاء الاصطناعي بوصف منطقي وواضح للوظيفة المطلوبة، ثم أُقيّم النتائج وأُدخِل التحسينات.

هذا النهج يعزّز السرعة في إنشاء النماذج الأولية والوِحدات البرمجية، ويمنحني تركيزاً أكبر على التصوّر العام والتصميم بدلاً من التفاصيل الدقيقة.

في هذا المستودع، تجد أدوات ومشاريع بُنيت بهذه المقاربة — يُرحّب بتجربتها والمساهمة فيها.

المطور

تم تطوير هذا المشروع بواسطة أيمن الطيّب بن نجي (ayzem88)

[English]

Overview

An advanced tool for extracting unique words from Arabic text corpora. Supports processing multiple files and counting words in parallel.

Features

🔍 Extract Unique Words: Extract all unique words from corpus
📊 Word Counting: Count frequency of each word
⚡ Parallel Processing: Process multiple files in parallel
🧹 Text Cleaning: Clean texts according to specified symbols
📁 Folder Processing: Process all files in a folder

Installation

Requirements

Python 3.7 or later
chardet (for encoding detection)

Installation Steps

Clone the repository:

git clone https://github.com/ayzem88/unique-words-extractor.git
cd unique-words-extractor

Install requirements:

pip install chardet

Usage

Advanced Version

python "مستخرج الكلمات الفريدة - المطور.py"

Simple Version

python "مستخرج الكلمات الفريدة - بسيط.py"

Clean Texts

python "منظف النصوص وفق رموز محددة.py"

Project Structure

unique-words-extractor/
├── مستخرج الكلمات الفريدة - المطور.py
├── مستخرج الكلمات الفريدة - بسيط.py
├── إحصاء عدد كل الكلمات في المجلد.py
├── جمع الملفات في ملف.py
└── منظف النصوص وفق رموز محددة.py

Main Files

مستخرج الكلمات الفريدة - المطور.py: Advanced version with parallel processing
مستخرج الكلمات الفريدة - بسيط.py: Simple version
منظف النصوص وفق رموز محددة.py: Text cleaning

Important Notes

⚠️ Note:

The program supports automatic encoding detection
You can specify the number of words in each output file
Parallel processing significantly speeds up the process

Future Development

Graphical user interface (GUI)
Performance improvements
Support for more file formats
Export results in multiple formats

Contributing

Contributions are welcome! Please read CONTRIBUTING.md for more details.

License

This project is intended for academic and research use.

About the Developer

Ayman Atieb ben NJi (ayzem88)

Linguistic expert at the Historical Dictionary of the Arabic Language of Qatar (Doha Dictionary), interested in linguistic tools and software, and a Vibe Coding programmer.

🌐 Personal Website: aymannji.com

Development Approach

I adopt the Vibe Coding paradigm in my software projects: rather than writing every line manually, I direct AI models with clear natural-language descriptions of the desired functionality, then evaluate and refine the generated code.

This approach accelerates prototype and module creation, allowing me to focus more on concept and design than on low-level implementation details.

In this repository you'll find tools and projects developed with this mindset — feel free to explore and contribute.

Developer

Developed by Ayman Atieb ben NJi (ayzem88)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
إحصاء عدد كل الكلمات في المجلد.py		إحصاء عدد كل الكلمات في المجلد.py
جمع الملفات في ملف.py		جمع الملفات في ملف.py
مستخرج الكلمات الفريدة - المطور.py		مستخرج الكلمات الفريدة - المطور.py
مستخرج الكلمات الفريدة - بسيط.py		مستخرج الكلمات الفريدة - بسيط.py
منظف النصوص وفق رموز محددة.py		منظف النصوص وفق رموز محددة.py

Folders and files

Latest commit

History

Repository files navigation

مستخرج الكلمات الفريدة من المدونة / Unique Words Extractor

نظرة عامة

المميزات

التثبيت

المتطلبات

خطوات التثبيت

الاستخدام

النسخة المطورة

النسخة البسيطة

تنظيف النصوص

هيكل المشروع

الملفات الرئيسية

ملاحظات مهمة

التطوير المستقبلي

المساهمة

الترخيص

عن المطور

منهج التطوير

المطور

[English]

Overview

Features

Installation

Requirements

Installation Steps

Usage

Advanced Version

Simple Version

Clean Texts

Project Structure

Main Files

Important Notes

Future Development

Contributing

License

About the Developer

Development Approach

Developer

About

Topics

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages