旨在为机器学习和深度学习应用提供高质量的真实人脸和AI生成的人脸图像。这个数据集对于开发和测试能够区分真实和AI生成面部图像的分类器至关重要,适用于深度伪造检测、图像真实性验证和面部图像分析等任务。
该数据集精心策划,支持前沿研究和应用,包含了从多种“灵感”源(如绘画、绘图、3D模型、文本到图像生成器等)生成的图像,并通过类似StyleGAN2潜在空间编码和微调的过程,将这些图像转化为照片级真实的面部图像。数据集还包含了面部标志点(扩展的110个标志点集)和面部解析语义分割图。提供了一个示例脚本(explore_dataset.py),展示了如何在数据集中访问标志点、分割图,以及如何使用CLIP图像/文本特征向量进行文本搜索,并进行一些探索性分析。
数据集的四个部分总共包含了约425,000张高质量和策划的合成面部图像,这些图像没有隐私问题或许可证问题。这个数据集在身份、种族、年龄、姿势、表情、光照条件、发型、发色等方面具有高度的多样性。它缺乏配饰(如帽子或耳机)以及各种珠宝的多样性,并且除了头发遮挡前额、耳朵和偶尔眼睛的自我遮挡外,不包含任何遮挡。
1