SadTalker و Wav2Lip و HuggingFace: تقنيات الذكاء الاصطناعي لتحريك الوجوه
مقدمة
في عالم الذكاء الاصطناعي، ظهرت تقنيات مبتكرة مثل SadTalker و Wav2Lip و HuggingFace التي أحدثت ثورة في معالجة الفيديو، تحويل النصوص إلى كلام، وتحريك الوجوه بالصوت. هذه الأدوات أصبحت أساسًا في صناعة المحتوى المرئي، التسويق، التعليم، وحتى الترفيه.
ما هي تقنية SadTalker؟
تقنية SadTalker تعتمد على الذكاء الاصطناعي لتحويل الصور الثابتة إلى فيديوهات متحركة متزامنة مع الصوت.
تتميز بالدقة العالية في تعابير الوجه وحركة الفم، مما يجعلها مناسبة لتوليد أفاتار افتراضي واقعي.
🔑 الكلمات المفتاحية: SadTalker, تحريك الصور, Avatar AI, Face Animation
ما هي تقنية Wav2Lip؟
تُعتبر Wav2Lip من أبرز تقنيات مزامنة الشفاه (Lip-sync) باستخدام الذكاء الاصطناعي.
حيث تسمح بدمج أي مقطع صوتي مع فيديو لشخص يتحدث، وجعل حركة الشفاه متوافقة مع الصوت بشكل طبيعي.
✅ الاستخدامات:
🔑 الكلمات المفتاحية: Wav2Lip, Lip Sync AI, مزامنة الشفاه, دبلجة الفيديو
ما هي منصة HuggingFace؟
HuggingFace هي مكتبة ومجتمع مفتوح المصدر يدعم آلاف النماذج (Models) الخاصة بالذكاء الاصطناعي مثل:
-
معالجة اللغة الطبيعية (NLP)
-
الرؤية الحاسوبية (Computer Vision)
-
تحويل النص إلى كلام (TTS)
وتُعتبر منصة مركزية لتجميع النماذج ومشاركتها بين المطورين والباحثين حول العالم.
🔑 الكلمات المفتاحية: HuggingFace, NLP, AI Models, مكتبة الذكاء الاصطناعي
أمثلة عملية بالكومندلين
🎥 مثال تشغيل SadTalker
PowerShell • AI Video Node
● LIVE
PS E:\ai-video-node\SadTalker> .\.venv\Scripts\Activate.ps1
(.venv) PS E:\ai-video-node\SadTalker> python .\inference.py `
--driven_audio "E:\ai-video-node\projects\demo2\audio\scene_2_16k.wav" `
--source_image "E:\ai-video-node\projects\demo2\output\002.png" `
--preprocess full `
--still `
--size 512 `
--checkpoint_dir ".\checkpoints" `
--result_dir "E:\ai-video-node\projects\demo2\output\sadtalker\scene_1" `
--enhancer gfpgan
using safetensor as default
3DMM Extraction for source image
landmark Det:: 100% |█████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5.91it/s]
3DMM Extraction In Video:: 100% |█████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 23.62it/s]
mel:: 100% |███████████████████████████████████████████████████████████████████████| 367/367 [00:00<00:00, 39768.25it/s]
audio2exp:: 100% |█████████████████████████████████████████████████████████████████████| 37/37 [00:00<00:00, 158.94it/s]
Face Renderer:: 56% |███████████████████████████████████▊ | 103/184 [18:59<15:30, 11.48s/it]
PS E:\ai-video-node\SadTalker> python .\inference.py `
--driven_audio "E:\ai-video-node\projects\demo2\audio\scene_2_16k.wav" `
--source_image "E:\ai-video-node\projects\demo2\output\002.png" `
--preprocess full --still --size 512 `
--checkpoint_dir ".\checkpoints" `
--result_dir "E:\ai-video-node\projects\demo2\output\sadtalker\scene_1" `
--enhancer gfpgan
NVIDIA-SMI • Live
PS E:\ai-video-node\Wav2Lip> nvidia-smi -l 1
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 573.06 Driver Version: 573.06 CUDA Version: 12.8 |
| 0 Quadro T1000 WDDM | Mem: 2797MiB / 4096MiB | Util: 75~88% |
+-----------------------------------------------------------------------------------------+