上传者: 45352198
|
上传时间: 2022-07-24 21:05:31
|
文件大小: 210KB
|
文件类型: ZIP
给1万帧视频做目标分割,显存占用还不到1.4GB
整个AI框架由3个端到端卷积网络组成。
一个查询编码器(Query encoder)用来追踪提取查询特定图像特征。
一个解码器(Decoder)负责获取内存读取步骤的输出,以生成对象掩码。
一个值编码器(Value encoder)可以将图像和目标的掩码相结合,从而来提取新的内存特征值。
最终值编码器提取到的特征值会添加到工作内存中。
从实验结果来看,该方法在短视频和长视频上,都实现了SOTA