介绍利用GPU加速深度学习算法,涉及模型并行和数据并行,主从模式和令牌环模式通信,满足GPU集群数据划分方法;最后介绍了利用FPGA加速线上识别算法,提高性能功耗比
2023-04-01 15:47:44 539KB 深度学习;GPU
1
分享课程——TensorRT 加速深度学习模型详解,完整版视频课程下载,含代码+文档+工具。
2022-09-16 09:07:51 223B TensorRT 深度学习
1
李曦鹏-TensorRT加速深度学习模型在线部署云栖大讲堂-编程语言专场
2022-08-30 17:23:38 1.38MB 云计算
1
课程分享——TensorRT 加速深度学习模型详解,附代码、文档、工具,完整版视频教程下载。 本课程讲解了英伟达TensoRT在加速深度学习模型中的应用,在本课程中,不仅授之以“渔”,而且授之以鱼,在讲解使用方法的基础上,最终完成一个统一的推理引擎和一个统一模型转换工具,可以把tf, caffe和onnx模型通过配置文件转换为TensorRT模型,并使用推理引擎进行加速。同时在Int8量化中给大家讲解了如和进行Int8量化,并赠送了我自己开发的一个手工读取和修改量化表的工具。在课程中给大家讲解了性能优化和如何避免各种坑。使得开发后的工具可以直接在工程部署中应用。 课程目录: 第1章:课程简介和TensorRT简介 第2章:推理引擎的开发 第3章:小试牛刀-python转换TRT并测试推理引擎 第4章:统一转换工具的开发 第5章:推理引擎的优化 第6章:关于Int8量化 第7章:关于windows版本的移植说明
2022-04-18 17:05:15 849B 深度学习 人工智能
1
近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起。大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类。
2021-11-20 18:08:42 3.36MB 加速深度学习
1
FPGA加速深度学习综述.pdf
2021-11-18 11:30:37 864KB FPGA 深度学习
1
国外资源网速很慢,且经常下载失败,cuda7.5不太好下,也比较难找,分享一下,csdn上好像没办法设置0积分
2021-11-09 16:44:24 72B 人工智能 gpu加速 深度学习 cuda
1
矩阵序列matlab代码Cortexsys 3.1用户指南 2016年5月 更新-2016年10月3日 Cortexsys 4.0正在进行中,将完全重写Cortexsys。 到目前为止,图形支持进展良好。 功能将随着完成而实现,其中包括: (4.0)基于图的网络设计,布局和处理 允许在前馈(空间)和循环(时间)网络中进行任意网络设计和连接。 这类似于其他工具箱,例如TensorFlow,Torch,Chainer,Neon,Caffe。 (4.1)卷积的改进 交叉卷积 superconv例程可以处理任意数量的内核,过滤器和批处理大小 (4.2)递归神经网络的改进 GRU(门控循环单元) MGRU(最小门控循环单元) (4.3)批量归一化 (4.4)强化学习深度Q学习 介绍 Cortexsys是适用于Matlab(具有限制的GNU Octave 4.0)的深度学习工具箱,适用于希望在Matlab或Octave环境中快速实现和分析新算法的研究人员和算法开发人员。 Cortexsys也会努力实现经常相互冲突的目标:(1)易于使用和学习; (2)灵活且适用于研究,教育和原型制作。 如果我们实现
2021-10-26 21:31:22 3.83MB 系统开源
1
本课程讲解了英伟达TensoRT在加速深度学习模型中的应用,在本课程中,不仅授之以“渔”,而且授之以鱼,在讲解使用方法的基础上,最终完成一个统一的推理引擎和一个统一模型转换工具,可以把tf, caffe和onnx模型通过配置文件转换为TensorRT模型,并使用推理引擎进行加速。同时在Int8量化中给大家讲解了如和进行Int8量化,并赠送了我自己开发的一个手工读取和修改量化表的工具。在课程中给大家讲解了性能优化和如何避免各种坑。使得开发后的工具可以直接在工程部署中应用。
1
在PYNQ上实现了一个简单的BNN网络,并对比了用FPGA加速和不用FPGA加速的时间,发现使用FPGA确实可以加速深度学习网络的识别。
2021-03-14 12:01:24 82.12MB PYNQ BNN FPGA加速深度学习
1