AniPortrait: Tạo chuyển động ảo từ ảnh bất kỳ

3 min readApr 10, 2024

Tóm tắt

AniPortrait là một novel framework mới cho việc tạo ra video chuyển động với chất lượng cao từ audio và portrait image (Ảnh chân dung). Tuy nhiên theo đánh giá cá nhân, chất lượng của AniPortrait vẫn chưa tạo ra đột phá trong lĩnh vực Audio-driven. Bài viết sẽ tóm tắt lại những điểm mới trong kiến trúc trong AniPortrait và lợi ích cũng những tác hại mà nó mang lại.

1. Giới thiệu

Tiếp tục series Audio-driven là AniPortrait — một nghiên cứu ra mắt 03/2024 công ty Tencent (Trung Quốc). Mục tiêu chính của họ là cải thiện độ nét của hình ảnh và độ chân thực trong chuyển động đầu ra của Audio-driven.

Các phương pháp trước đây dựa trên GANs, NeRF hoặc motion-based decoders gặp khó khăn trong việc tổng quát hóa (generalization) và thường không ổn định khi tạo ra nội dung chất lượng cao (nói cách khác, chúng không đủ khả năng tạo ra các hình ảnh hoặc video mới mẻ, phong phú và thường xuyên tạo ra nội dung thiếu sự tự nhiên). AniPortrait sẽ dựa trên kiến trúc AnimateAnyone và kết hợp thêm Stable Diffusionđể cải thiện vấn đề trên.

2. Tổng quan về kiến trúc

AniPortrait có kiến trúc như hình vẽ sau:

Kiến trúc AniPortrait (Lấy từ paper của AniPortrait)

Nhìn vào kiến trúc trên, có 2 giai đoạn chính lần lượt là Audio2Lmk (màu xanh) và Lmk2Video (màu cam). Cụ thể:

Giai đoạn 1: Audio2Lmk

Từ Audio đầu vào, sử dụng wav2vec2.0 + MediaPipe để ước tính 2 thông tin là Head Pose và Mesh Offset (Chứa thông tin về biểu cảm khuôn mặt) theo chuỗi thời gian
Từ ảnh chân dung đầu vào (Reference Image) trích xuất Neutral Mesh của khuôn mặt (là các 3D facial landmarks), kết hợp với thông tin Mesh Offset trước đó sẽ ra được Target Meshes theo chuỗi thời gian.
Biến đổi thông tin Head Pose và Mesh Offset dựa trên phép chiếu (project) sẽ ra được Target Pose Images (là các 2D facial landmarks) theo chuỗi thời gian. Đây sẽ đóng vai trò là bộ xương (giống controlnet điều khiển chuyển động) dùng cho giai đoạn sau

Giai đoạn 2: Lmk2Video

Từ thông tin Target Pose Images ở bước trên kết hợp với Reference Pose Image (2D facial landmarks lấy ra trực tiếp từ bức ảnh) đi qua một mạng neural nhỏ (Pose Guider) để tăng cường tính nhất quán của pose giữa các Target Pose Images dựa theo Reference Pose Image
Dựa trên kiến trúc từ AnimateAnyone, Target Pose Images đi qua Stable diffusion (SD) 1.5 với thông tin hướng dẫn là ảnh Reference Image ( không sử dụng prompt ) để tạo ra các ảnh chuyển động nhất quán theo thời gian (temporally consistent) và kết hợp các bức ảnh này lại tạo thành video đầu ra (như hình vẽ dưới).

Quá trình sinh các ảnh nhất quán theo thời gian của các phương pháp Audio Driven, Self Driven, Face Reenacment tạo ra cảm giác chuyển động giống như một video.

2. Kết quả đánh giá

Tác giả đã đăng code lên tại Repo AniPortrait, mọi người có thể cài đặt và trải nghiệm. Dưới đây là kết quả khi chạy thực nghiệm AniPortrait.

Ảnh đầu vào (bên trái) tạo từ Leonardo.AI. Kết quả audio2video (phía trên bên phải) và audio2video sử dụng video làm pose hướng dẫn (phía dưới bên phải).

Nhận xét: Chuyển động nhất quán tốt tuy nhiên chuyển động vẫn chưa được tự nhiên lắm (mắt chớp ít, chuyển động đầu như robot, khung hình bị biến dạng…)

3. Kết luận

AniPortrait là sự cải tiến từ AnimateAnyone tuy nhiên kết quả vẫn chưa có nhiều sự thay đổi đột phá. Chúng ta cần tiếp tục chờ đợi và hy vọng các phương pháp mới đột phá hơn trong tương lai để Audio Driven gần hơn với ứng dụng trong thực tế.