CosXL: Bộ sampler mới cho SDXL

CongDC
3 min readApr 24, 2024

--

Tóm tắt: CosXL là phiên bản cải tiến bộ sampler của SDXL, cái tiến về dải màu có thể tạo ra của mô hình sinh ảnh ( rộng hơn ) và tốc độ sinh ảnh qua từng bước được cải thiện. Kết quả thử nghiệm thực tế cũng cho tới lợi ích của cải tiến này tác động tới ảnh tạo ra rất đáng kể.

1. Giới thiệu

Nếu bạn đã từng theo dõi lịch trình phát hành các mô hình của Stability AI trước đây sẽ thấy bên cạnh dòng mô hình nổi tiếng của họ là Stable Diffusion, Stability AI cũng đang thử nghiệm các mô hình khác như Stable Cascade để cải thiện chất lượng dù kết quả chưa thực sự ấn tượng (không tính dòng Turbo vì nó chỉ tập chung vào tốc độ) . Ngày 08/02/2024 họ đã phát hành mô hình tiếp theo tiếp tục cải thiện chất lượng là CosXL với 2 phiên bản:

  • CosXL: Tập chung vào cải thiện dải màu của ảnh đầu ra.
  • CosXL 1.0 Edit: Nâng cấp hơn CosXL phục vụ cho bài toán pix2pix

Các mô hình đều được public trên Huggingface (tại đây) và hiện tại , có một số workflow cho phép chạy CosXL trên ComfyUI (ví dụ tại đây)

2. So sánh các mô hình trước đây

Đối với bài toán text2image, CosXL vẫn tương thích với LoRA cho Stable Diffusion. Tuy vậy kết quả của CosXL đã bị giảm đi đáng kể khi so sánh với các mô hình trước đây.

So với các mô hình trước đây như DreamShaper (bên phải), DreamShaperXL (ở giữa) thì màu sắc và chất lượng của CosXL có phần kém hơn so với những mô hình trước đây

Với tác vụ Pix2Pix, chất lượng của ảnh tạo đã nhất quán hơn và không bị hiện tượng phân mảnh bức ảnh như kết quả tạo ra từ SDXL như thử nghiệm ở dưới đây.

Từ căn phòng trống (bên trái), kết quả tạo ra từ SDXL (ở giữa) thiếu hẳn đi sự nhất quán so với mô hình CosXL (bên phải)

Đối với mô hình CosXL 1.0 edit, chúng ta có thể dễ dàng điều chỉnh các chi tiết trong bức ảnh dựa theo prompt như ví dụ dưới đây mà vẫn giữ được độ nhất quán cao cho bức ảnh.

Ảnh căn phòng trống (bên trái) và ảnh đầu ra (bên phải) dựa theo hướng dẫn từ prompt “blue walls, white floor”

3. Kiến trúc

( Đang cập nhập)

4. Kết luận

Hiện tại CosXL đang mạnh trong mảng pix2pix, tốt hơn nhiều so với các mô hình SD 1.5 và SDXL trước đó. Về chất lượng Text2Image của mô hình đang rất kém, không phù hợp để sử dụng.

Với ưu điểm của CosXL mang lại, khả năng trong thời gian tới Stabili AI sẽ tiếp tục phát triển mô hình này chuyên biệt để phục vụ cho bài toán pix2pix. Chúng ta hãy cùng đón chờ xem !

--

--