اكتشف كيف تغير تقنيات SadTalker و Wav2Lip و HuggingFace صناعة الفيديو من خلال تحريك الصور ومزامنة الشفاه باستخدام الذكاء الاصطناعي.

SadTalker و Wav2Lip و HuggingFace: تقنيات الذكاء الاصطناعي لتحريك الوجوه

مقدمة

في عالم الذكاء الاصطناعي، ظهرت تقنيات مبتكرة مثل SadTalker و Wav2Lip و HuggingFace التي أحدثت ثورة في معالجة الفيديو، تحويل النصوص إلى كلام، وتحريك الوجوه بالصوت. هذه الأدوات أصبحت أساسًا في صناعة المحتوى المرئي، التسويق، التعليم، وحتى الترفيه.

ما هي تقنية SadTalker؟

تقنية SadTalker تعتمد على الذكاء الاصطناعي لتحويل الصور الثابتة إلى فيديوهات متحركة متزامنة مع الصوت.

تتميز بالدقة العالية في تعابير الوجه وحركة الفم، مما يجعلها مناسبة لتوليد أفاتار افتراضي واقعي.

🔑 الكلمات المفتاحية: SadTalker, تحريك الصور, Avatar AI, Face Animation

ما هي تقنية Wav2Lip؟

تُعتبر Wav2Lip من أبرز تقنيات مزامنة الشفاه (Lip-sync) باستخدام الذكاء الاصطناعي.

حيث تسمح بدمج أي مقطع صوتي مع فيديو لشخص يتحدث، وجعل حركة الشفاه متوافقة مع الصوت بشكل طبيعي.

✅ الاستخدامات:

صناعة الفيديوهات التعليمية
تحسين جودة الدبلجة
إنتاج محتوى تسويقي متفاعل

🔑 الكلمات المفتاحية: Wav2Lip, Lip Sync AI, مزامنة الشفاه, دبلجة الفيديو

ما هي منصة HuggingFace؟

HuggingFace هي مكتبة ومجتمع مفتوح المصدر يدعم آلاف النماذج (Models) الخاصة بالذكاء الاصطناعي مثل:

معالجة اللغة الطبيعية (NLP)
الرؤية الحاسوبية (Computer Vision)
تحويل النص إلى كلام (TTS)

وتُعتبر منصة مركزية لتجميع النماذج ومشاركتها بين المطورين والباحثين حول العالم.

🔑 الكلمات المفتاحية: HuggingFace, NLP, AI Models, مكتبة الذكاء الاصطناعي

أمثلة عملية بالكومندلين

🎥 مثال تشغيل SadTalker

PowerShell • AI Video Node
● LIVE

PS E:\ai-video-node\SadTalker> .\.venv\Scripts\Activate.ps1

(.venv) PS E:\ai-video-node\SadTalker> python .\inference.py `

--driven_audio "E:\ai-video-node\projects\demo2\audio\scene_2_16k.wav" `

--source_image "E:\ai-video-node\projects\demo2\output\002.png" `

--preprocess full `

--still `

--size 512 `

--checkpoint_dir ".\checkpoints" `

--result_dir "E:\ai-video-node\projects\demo2\output\sadtalker\scene_1" `

--enhancer gfpgan

using safetensor as default

3DMM Extraction for source image

landmark Det:: 100% |█████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 5.91it/s]

3DMM Extraction In Video:: 100% |█████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 23.62it/s]

mel:: 100% |███████████████████████████████████████████████████████████████████████| 367/367 [00:00<00:00, 39768.25it/s]

audio2exp:: 100% |█████████████████████████████████████████████████████████████████████| 37/37 [00:00<00:00, 158.94it/s]

Face Renderer:: 56% |███████████████████████████████████▊                            | 103/184 [18:59<15:30, 11.48s/it]

SadTalker • Generate

PS E:\ai-video-node\SadTalker> python .\inference.py `

--driven_audio "E:\ai-video-node\projects\demo2\audio\scene_2_16k.wav" `

--source_image "E:\ai-video-node\projects\demo2\output\002.png" `

--preprocess full --still --size 512 `

--checkpoint_dir ".\checkpoints" `

--result_dir "E:\ai-video-node\projects\demo2\output\sadtalker\scene_1" `

--enhancer gfpgan

NVIDIA-SMI • Live

PS E:\ai-video-node\Wav2Lip> nvidia-smi -l 1

+-----------------------------------------------------------------------------------------+

| NVIDIA-SMI 573.06                 Driver Version: 573.06         CUDA Version: 12.8     |
|   0  Quadro T1000                 WDDM  |  Mem: 2797MiB / 4096MiB |  Util: 75~88%       |

+-----------------------------------------------------------------------------------------+

مستقبل تحريك الوجوه بالذكاء الاصطناعي