FlashFace: Sinh ảnh idols chỉ cần một vài bức ảnh

CongDC
4 min readApr 26, 2024

--

Tóm tắt: FalshFace là mô hình mới nhất trong tác vụ Human Image Personalization. Kết quả ban đầu cho thấy mô hình có khả năng sinh ra các bức ảnh với chất lượng khuôn mặt khá ấn tượng, giống khuôn mặt trong các bức ảnh gốc hơn so với các mô hình trước đây. Vậy FlashFace là gì và sử dụng nó như thế nào? Hãy cùng tìm hiểu nhé!

1. Giới thiệu

Vào ngày 25/03/2024, một nhóm nhà nghiên cứu từ Đại học HongKong dưới sự tài trợ của Alibaba Group đã cho ra mắt FlashFace. Đây là một kiến trúc hoàn toàn mới để cải thiện chất lượng của các mô hình trước như PhotoMarker, InstantID,.. trong tác vụ Human Image Personalization (HIP).

Hãy cùng xem thử một vài ví dụ, chúng ta có một tập ảnh của idol chipu như sau:

Ảnh đầu vào của chipu

Đưa nó vào FlashFace như là Reference Image, nhập thêm prompt và mô hình sẽ tạo ra các bức ảnh như phía dưới

Kết quả đầu ra với các mức tuổi của chipu lần lượt từ child (bên trái), girl (ở giữa) và old (bên phải). Cả 3 được điều chỉnh cùng một vị trí khuôn mặt

Ảnh rất chân thực, đúng prompt tuy nhiên một số ảnh trong quá trình thử nghiệm thấy mô hình hay gặp vấn đề là màu da của phần khuôn mặt đôi lúc bị khác biệt so với màu da của cơ thể.

2. So sánh với các mô hình trước đây

Điểm nổi bật nhất của FlashFace là khả năng kiểm soát tuổi rất ấn tượng, các mô hình trước đây thường chỉ giải quyết tốt bài toán HIP với ảnh sinh ra có cùng tuổi. Hãy cùng xem thử so sánh dưới đây

Ảnh so sánh FlashFace so với các mô hình SOTA trước đây

Có thể thấy so với các mô hình trước FlashFace đã thể hiện đúng tuổi của nhân vân vật, vượt trội hoàn toàn so với các mô hình trước đây. Tuy nhiên ở phần tạo nhân vật với các style khác nhau, FlashFace hiện tại đang có độ chân thực kém hơn Instant-ID một chút.

3. Chi tiết mô hình

(Đang cập nhập)

4. Cách sử dụng và huấn luyện

Đây là một repo mã nguồn mở và tác giả đã public nó tại github FlashFace. Trong đó bao gồm cả checkpoint để chúng ta có thử sử dụng inference luôn, tuy nhiên hiện tại chưa có phần hướng dẫn training.

Trong khi chờ đợi tác giả công bố cách huấn luyện mô hình, chúng ta có thể xem trước cách mà tác giả chuẩn bị dữ liệu

5. Kết luận

Chất lượng của mô hình hiện tại được đánh giá rất tốt so với các mô hình SOTA trước đó, đặc biệt là ở phần sinh ra khuôn mặt khác tuổi so với image reference. Do vậy đây là phương pháp nên được lựa chọn hàng đầu khi động đến bài toán Human Image Personalization.

Chỉ trong vòng 3 tháng mà Alibaba và Tencen đều ra mắt một loạt các nghiên cứu chất lượng cao trong lĩnh vực Human Image Personalization cho thấy Trung Quốc đang rất quan tâm đến lĩnh vực này và từ giờ đến cuối năm sẽ có thêm nhiều cải tiến mới hơn nữa đến từ các công ty trên.

--

--