Skip to content

Artifex

Multimodal Generation

Multimodal Generation¤

Coming Soon

This example is planned for a future release. Check back for updates on multimodal generation.

Overview¤

This example will demonstrate:

Joint image-text generation
Cross-modal synthesis
Multimodal embedding spaces
Conditional generation across modalities

Planned Features¤

Text-to-image generation
Image-to-text generation
Audio-visual synthesis
Unified multimodal models

References¤

Ramesh et al., "Zero-Shot Text-to-Image Generation" (2021)
Alayrac et al., "Flamingo: a Visual Language Model for Few-Shot Learning" (2022)