The GPU Pro: Advanced Rendering Techniques book series covers ready-to-use ideas and procedures that can solve many of your daily graphics-programming challenges. The third book in the series wouldn’t have been possible without the help of many people. First, I would like to thank the section editors for the fantastic job they did. The work of Wessam Bahnassi, Sebastien St-Laurent, Carsten Dachsbacher, and Christopher Oat ensured that the quality of the series meets the expectations of our readers. The great cover screenshots have been provided courtesy of Crytek, GmbH. You can find the article on CryENGINE 3 on page 133. The team at A K Peters made the whole project happen. I want to thank Alice and Klaus Peters, Sarah Chow, and the entire production team, who took the articles and made them into a book. Special thanks go out to our families and friends, who spent many evenings and weekends without us during the long book production cycle. I hope you have as much fun reading the book as we had creating it. —Wolfgang Engel
2025-08-04 14:58:56 35.73MB GPU
1
Bakery 是一款高端、即刻上手、操作简便的 GPU 光照贴图器,可作为 Enlighten 和 Progressive 的替代品。 注意:需要新款 Nvidia GPU(6xx 或更新版本)和 64 位 Windows 系统(7 或以上)。 不支持 AMD 卡烘焙。 不支持 Mac 产品。 已在 Unity 5.6 至 2019.3.4 的每个版本上测试。 生成的光照贴图兼容于所有平台。 用户手册 - 请务必阅读常见问题解答 论坛主题帖 功能: - 物理正确的烘焙光照。- 所有生成结果均与三叶线下渲染器进行了比较。 - 性能:用 GPU 来进行光线跟踪。 - 可利用 RTX 硬件(非必需)。 - 使用 NVidia AI Denoiser 来移除噪点,由深度学习驱动。 - 修复了常见的烘焙伪影,例如光照泄漏和 UV 接缝。 - 全局光照(支持自定义着色器)。 - 天空光照(HDRI 或颜色)。 -发射性纹理网格。 -IES 光线。 -定向、点状、聚光光源。 - 材质:支持反射率、自发光、镂空材质。 - 可生成完整和间接光照贴图,甚至每个光照都可生成混合光
2025-07-12 12:48:30 445.18MB Unity Bakery
1
ONNX Runtime是一个开源的高性能机器学习推理引擎,它支持许多流行的深度学习框架,包括TensorFlow、PyTorch、scikit-learn、Keras和ONNX模型格式。ONNX Runtime特别注重性能优化,并在多个平台上实现高效的推理执行,如CPU和GPU。它提供了易于使用的API,使开发者能够在不同的环境中部署训练好的模型,进行高效的推理操作。 本文件为"onnxruntime-linux-x64-gpu-1.16.2.tgz.zip",表示这是一个针对Linux x64架构的GPU版本ONNX Runtime 1.16.2版本的安装包。该版本专为GPU进行了优化,可以有效利用GPU强大的并行计算能力来加速机器学习模型的推理过程。文件以ZIP格式进行了压缩,便于存储和网络传输。用户需要在电脑端使用资源预览或资源详情功能进行查看后下载。 标签为"onnxruntime",说明该文件是与ONNX Runtime相关的。ONNX Runtime背后的理念是通过统一的模型表示,简化模型转换和推理的复杂性,允许开发者在不同的深度学习框架间迁移模型,并在不同的硬件平台上运行这些模型。其支持跨平台操作,包括Windows、Linux以及macOS等操作系统。 文件名称列表中仅有一个文件名为"file",这可能是因为压缩包在解压后仅包含一个核心安装包或执行文件,用户在解压后需进一步操作才能完全安装或使用ONNX Runtime。通常情况下,开发者在获取此类压缩包后,需要在支持的硬件和操作系统上进行解压和安装。安装完成后,开发者可以使用ONNX Runtime提供的API来加载和运行预训练好的模型,进行诸如图像分类、自然语言处理、语音识别等任务。 ONNX Runtime的优化包括但不限于利用底层硬件的特定指令集,如NVIDIA的CUDA和cuDNN库,来提升GPU上的计算效率。这样的优化可以显著提高模型的推理速度和吞吐量,对于需要处理大量数据和实时分析的应用场景尤为重要。此外,ONNX Runtime还支持模型量化、并行执行和内存管理优化等技术,进一步提升性能。 开发者在使用ONNX Runtime时,通常需要有深度学习和机器学习的相关知识,以便正确地将模型转换为ONNX格式,并利用ONNX Runtime进行高效的推理。随着机器学习技术的不断发展,ONNX Runtime也在不断更新以支持新的模型和优化策略,帮助开发者在生产环境中实现机器学习模型的快速部署和高效运行。
2025-07-11 12:13:06 330B onnxruntime
1
根据提供的信息,我们可以了解到该压缩包文件的名称为“onnxruntime-linux-x64-gpu-1.16.0.tgz.zip”,这个文件名提示了该文件是一个特定版本的ONNX Runtime引擎,用于Linux系统,并且是为64位x86架构(x64)的系统配置的,支持GPU加速功能,版本号为1.16.0。同时,文件的标签为“onnxruntime”,表明该压缩包的内容与ONNX Runtime相关。 ONNX Runtime是由微软和社区共同开发的一个开源项目,用于高性能运行ONNX(Open Neural Network Exchange)格式的深度学习模型。ONNX是一种开放的格式,它旨在促进人工智能模型在不同深度学习框架之间的兼容性和互操作性。ONNX Runtime支持多种硬件平台和操作系统,包括Windows、Linux和macOS,并且支持CPU和GPU等多种计算设备。 从文件名中可以看出,该压缩包专为Linux系统下的x64架构设计,并且具备GPU加速能力,这通常意味着它能够在NVIDIA的CUDA兼容GPU上运行,以加速模型的推断过程。这种类型的文件对于机器学习开发者和数据科学家来说非常有用,他们通常需要在服务器或工作站上部署和运行经过训练的深度学习模型,以实现图像识别、自然语言处理等复杂的AI任务。 在实际使用中,开发者会下载该压缩包文件,并使用适当的工具解压缩。解压后,通常会得到一个安装包或者一个包含ONNX Runtime引擎的文件夹,开发者需要根据提供的安装指南或者说明文档进行安装。在安装过程中,可能需要依赖于某些特定的系统库或者编译环境,例如CUDA Toolkit、cuDNN等,这些都是GPU加速计算所必需的组件。 安装完成后,开发者可以通过编程语言如Python、C++等的API接口调用ONNX Runtime引擎,加载并执行ONNX格式的模型文件。ONNX Runtime旨在优化模型执行效率,减少模型部署的复杂性,支持动态和静态图的推理,并且提供了丰富的性能优化选项,以满足不同应用场景下的需求。 onnxruntime-linux-x64-gpu-1.16.0.tgz.zip是一个专门用于Linux系统的GPU加速版ONNX Runtime引擎安装包,适用于那些需要运行高性能AI模型的应用场景。开发者需要根据自己的硬件环境和系统需求来正确安装和配置该软件,以便能够顺利地在其开发项目中利用ONNX Runtime的强大功能。
2025-07-11 12:10:12 330B onnxruntime
1
内容概要:本文档详细介绍了MediaPipe人脸检测项目在Linux系统上的安装、配置和运行步骤。首先讲解了通过Bazelisk安装和管理Bazel的方法,包括下载、赋予执行权限、验证安装等步骤。接着阐述了MediaPipe的三种导入或下载方式,并重点描述了如何安装OpenCV和FFmpeg,包括使用包管理器安装预编译库、从源代码构建等方法。此外,文档还涉及了CUDA或GPU加速的配置,以及C++和Python版本的“Hello World”示例的编译与运行。最后,针对常见的编译错误如GCC版本不兼容、Python路径设置错误等提供了详细的解决方案。 适合人群:具备一定Linux操作基础,对计算机视觉或机器学习领域感兴趣的开发者,尤其是希望在嵌入式设备或Linux平台上实现人脸检测功能的研发人员。 使用场景及目标:①帮助开发者在Linux系统上快速搭建MediaPipe人脸检测环境;②解决在编译和运行过程中可能出现的技术难题;③为后续深入研究MediaPipe或其他相关项目提供基础支持。 阅读建议:由于涉及到较多命令行操作和技术细节,建议读者在实际环境中跟随文档逐步操作,同时注意根据自身环境调整相关配置参数。对于遇到的问题,可以参考文档提供的常见问题解决方案,并结合自身情况进行排查和解决。
2025-07-07 15:38:25 669KB Bazel MediaPipe OpenCV GPU加速
1
标题“onnxruntime-win-x64-gpu-1.17.3.zip”指出了这个压缩文件是一个特定版本的ONNX Runtime安装包,专门为Windows系统(x64架构)的GPU优化版本。ONNX Runtime是微软开源的机器学习推理引擎,用于加速使用ONNX(开放神经网络交换)格式模型的推理任务。它支持多种硬件平台和后端,例如CPU、GPU和更高效的张量核心。版本号“1.17.3”表示这是ONNX Runtime的一个具体更新版本。 文件描述中提到“文件放服务器下载,请务必到电脑端资源预览或者资源详情查看然后下载”,这说明文件是放在某个服务器上供用户下载的。为了安全和确认文件的正确性,建议用户不要直接通过未审查的链接下载文件,而是要先到电脑端资源预览或资源详情页面上查看文件的相关信息,确认无误后再进行下载。 标签“安装包”则是一个非常简明的标签,用于区分文件的用途,即这个文件是用来安装ONNX Runtime的。安装包通常包含了必要的文件和程序,用于在目标系统上完成软件的安装过程。 关于“【压缩包子文件的文件名称列表】: file”,这个信息表明压缩包中至少有一个文件,其名称为“file”。这可能是一个示例文件名或者是实际文件名,但由于缺乏具体的后缀和详细列表,无法确定该文件的具体类型和内容。通常,ONNX Runtime安装包中应该包含安装程序、库文件、文档等必要的组件,以确保用户能够顺利安装和使用。 此外,值得注意的是,文件标题中的“-win-x64-gpu”表明这个版本是针对64位Windows操作系统和GPU硬件优化的。这意味着安装和使用此版本的ONNX Runtime将需要一个支持CUDA或者DirectML等技术的GPU设备,以便在机器学习模型推理中发挥硬件加速的作用。 根据以上内容,我们可以得出以下知识点: 1. ONNX Runtime是一个开源机器学习推理引擎,允许使用ONNX格式的模型在多种硬件上进行高效推理。 2. “onnxruntime-win-x64-gpu-1.17.3.zip”是为Windows系统(64位)和GPU优化的ONNX Runtime安装包。 3. 文件版本号“1.17.3”表明这是ONNX Runtime的一个具体更新版本。 4. 压缩包中至少包含一个名为“file”的文件,但具体内容不详。 5. 安装包是专门用于安装软件的文件集,包含安装所需的全部或部分必要组件。 6. 用户在下载时应该先查看资源详情,确认文件的真实性和完整性。
2025-07-07 10:37:28 328B
1
标题 "基于BERT+Tensorflow+Horovod的NLU(意图识别+槽位填充)分布式GPU训练模块.zip" 提供了关键信息,说明这个压缩包包含了一个使用BERT模型,通过TensorFlow框架,并利用Horovod进行分布式GPU训练的自然语言理解(NLU)系统。NLU是AI领域中的一个重要组成部分,它涉及到意图识别和槽位填充,这两部分是对话系统中的基础任务。 1. **BERT**: BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,由Google在2018年推出。它通过Transformer架构在大量未标注文本上进行自我监督学习,学习到丰富的上下文依赖表示。在NLU任务中,BERT可以提供强大的语义理解能力,提升模型的性能。 2. **TensorFlow**: TensorFlow是Google开源的一个深度学习框架,它允许开发人员构建和部署复杂的机器学习模型。在这个项目中,TensorFlow被用来实现BERT模型的训练流程,包括模型定义、数据处理、优化器配置、损失函数计算等。 3. **Horovod**: Horovod是一个用于分布式训练的开源库,它简化了在多GPU或多节点上并行训练的复杂性。通过Horovod,开发者可以将训练任务分解到多个GPU上,以加速模型的收敛速度。在大型深度学习模型如BERT的训练中,Horovod可以显著提高效率。 4. **意图识别**: 意图识别是NLU的一部分,其目标是理解用户输入的意图或目标,例如在智能助手场景中,识别用户是要查询天气、预订餐厅还是播放音乐。在BERT模型中,这通常通过分类任务来实现,模型会为每个可能的意图分配概率。 5. **槽位填充**: 槽位填充是识别并提取用户输入中的特定信息,如时间、地点、人名等。这些信息称为槽位,填充槽位能帮助系统更好地理解用户的需求。在BERT模型中,这通常采用序列标注方法,为每个输入词分配一个标签,表示它是否属于某个特定槽位。 6. **分布式GPU训练**: 分布式GPU训练是利用多块GPU共同处理大规模计算任务的方法。在本项目中,通过Horovod,BERT模型的训练可以在多台机器的多个GPU上并行进行,每个GPU处理一部分计算,然后同步梯度以更新模型参数,这样可以大大缩短训练时间。 7. **代码结构**:"JointBERT_nlu_tf-master"可能代表代码库的主目录,暗示代码实现了BERT模型的联合训练,即将意图识别和槽位填充作为联合任务,这样可能会使模型更好地理解两者之间的关联,从而提升整体NLU性能。 综合以上,这个压缩包中的代码应该是一个完整的端到端解决方案,涵盖了从数据预处理、模型搭建、分布式训练到模型评估的全过程,适用于开发和研究NLU系统,特别是需要高效处理大规模数据的场景。对于想要深入理解和应用BERT、TensorFlow以及分布式训练的开发者来说,这是一个宝贵的资源。
2025-06-26 16:13:39 7.26MB 人工智能 深度学习 tensorflow
1
Unity Spine转GPU动画
2025-06-23 19:28:17 823KB unity spine
1
北航并行课程作业: 在GPU 实现一个矩阵并行乘法程序,要求矩阵大小不小于8000*8000,且元素为双精度浮点数(double)类型;比较并行程序与串行程序的加速比,同时注意排除数据准备时间作程序运行时间。 在现代计算机科学领域,GPU计算已经成为提高程序性能的重要手段。特别是在科学计算和大数据处理领域,利用GPU强大的并行处理能力,可以显著提升程序的运行效率。本篇文章将探讨如何在GPU上实现矩阵乘法的并行计算,并对比并行程序与传统的串行程序在性能上的差异。 矩阵乘法是计算机科学中的一项基础操作,广泛应用于各个领域,如图形处理、物理模拟、机器学习等。然而,当矩阵的维度和元素数量达到一定规模时,串行算法的计算效率将变得低下。因此,采用并行计算技术来优化矩阵乘法变得尤为重要。 CUDA(Compute Unified Device Architecture)是由NVIDIA公司推出的一种通用并行计算架构,它使得开发者能够利用NVIDIA的GPU来解决复杂的计算问题。CUDA提供了丰富的编程接口,允许开发者编写能够在GPU上运行的并行程序。这不仅可以大幅提高计算性能,还可以使CPU从繁重的计算任务中解放出来,专注于处理其他任务。 在本作业中,北航并行课程要求学生使用CUDA实现一个矩阵乘法程序,并要求矩阵的大小不小于8000*8000,且元素类型为双精度浮点数。这是因为双精度浮点数能够提供更高的计算精度,适合科学计算的需求。同时,较大的矩阵大小可以充分发挥GPU的并行处理能力。 在实现并行矩阵乘法时,需要特别注意数据在CPU和GPU之间的传输效率。由于GPU拥有独立的内存空间,因此需要将矩阵数据从主机(CPU)内存复制到设备(GPU)内存中。计算完成后,再将结果从设备内存复制回主机内存。这一过程中涉及的数据传输可能会成为性能瓶颈,因此需要合理安排数据传输和计算的时间,以确保整体性能。 为了评估并行矩阵乘法程序的性能,本作业还要求学生比较并行程序与串行程序的加速比。加速比是衡量并行程序性能提升的一个重要指标,它反映了并行程序相对于串行程序的运行时间缩短了多少倍。由于GPU的并行计算能力,理论上加速比应当远大于1。在进行性能评估时,还需要特别排除数据准备时间,只考虑程序的实际运行时间,这样才能更准确地反映并行计算的性能优势。 在并行程序的开发中,需要注意GPU内存的使用效率,避免内存访问冲突和内存带宽的浪费。合理设计线程块的大小和数量,以及确保每个线程正确地执行其任务,都是实现高效并行矩阵乘法的关键因素。此外,优化算法的设计,比如采用分块算法来减少全局内存访问,也能有效提高程序的性能。 本作业的提交物包括一份详细的报告(HW-MP4-CUDA.pdf)、另一份报告(HW-MP4-SYCL.pdf)、源代码文件以及编译后的可执行程序。报告中将详细说明并行矩阵乘法程序的设计思路、实现方法、性能测试结果以及性能分析等。源代码文件将展示具体的编程实现,而可执行程序则可以直接运行以验证程序的正确性和性能。 本作业不仅要求学生掌握CUDA编程技术,还要求他们能够从理论到实践深入理解并行计算的原理和优化策略。通过这样的课程作业,学生将能够为未来的高性能计算应用打下坚实的基础。
2025-05-30 11:26:28 574KB cuda
1
内容概要:本文详细探讨了双目结构和单目结构光两种三维建模技术的特点和应用,并分别介绍了它们在C++、Python和Matlab三种编程语言中的GPU加速实现方式。对于双目结构,重点讲解了基于视差的深度计算方法,以及如何通过CUDA进行高效的并行计算。对于单目结构光,则强调了相位解算和投影仪标定的关键步骤。此外,还讨论了各种方法在实际应用中的优劣,特别是在工业检测和逆向工程领域的表现。 适合人群:从事三维建模、计算机视觉、机器学习等领域研究和技术开发的专业人士,特别是那些需要深入了解GPU加速技术的研究人员和开发者。 使用场景及目标:适用于需要高性能计算的三维建模项目,帮助用户选择最适合的技术栈和方法论,提高模型构建的速度和准确性。无论是快速原型验证还是生产环境部署,都能从中获得有价值的指导。 其他说明:文中提供了大量代码示例,涵盖从基本的数据处理到复杂的算法实现,为读者提供了一个全面的学习和参考资料库。同时提醒读者关注GPU加速过程中可能出现的数据传输瓶颈等问题。
2025-05-29 10:35:29 1.01MB
1