🫧💭 CloudBrain

        • AI Glasses
        • 数字名片
        • 数据结构与算法 AI Tutor
        • 旅游助手
        • 素材创编需求讨论
        • 老照片修复
        • 虚拟陪伴?学习助手?
        • 论文写作助手
            • 00. PyTorch Fundamentals
            • 01. PyTorch Workflow Fundamentals
            • 02. PyTorch Neural Network Classification
            • 2024 06 23 HackerNews
            • A Crash Course in Redis
            • A16z 两位创始人:AI 热潮和互联网热潮的区别在哪
            • AIGC Weekly
            • Arc 浏览器一个小功能,让你实现 AI 搜索自由,内有宝藏资源
            • Deep Learning for Coders With Fastai and PyTorch
            • Introduction to Audio Data
            • Introduction to Parallel Computing Tutorial
            • Leveraging Spark 3 and NVIDIA’s GPUs to Reduce Cloud Cost by Up to 70% for Big Data Pipelines
            • MLOps - A Holistic Approach White Paper by WANDB
            • Programming Massively Parallel Processors
            • Saving and Loading Models
            • Streaming
            • 华泰 | 电子/能源:算力基础设施的三大投资机会
            • 我如何夺冠新加坡首届 GPT-4 提示工程大赛 [译]
            • Brave New Words
            • (5) Deedy on X "The Best Google Search Engineering Explainer Just Dropped. This Was Reverse-Engineered From 1000s of Leaked Google Court Documents. I Know Everyone Thinks Ew Google, Search Sucks, but No One Else Has a Truly Web Scale Search Engine in ~25yrs. Must Read for Software Engineers. https://t.co/YXEUYUdnCP" / X
            • Bc People Keep Asking Me...
            • Sora's Video Quality See...
            • Tweets From AIGCLINK
            • Tweets From Andrej Karpathy
            • Tweets From Bear Liu
            • Tweets From Idoubi
            • Tweets From Jim (Linxi) Fan
            • Tweets From Leeoxiang
            • Tweets From Tom Yeh | AI by Hand ✍️
          • Go语言编程
          • gRPC Up and Running Building Cloud Native Applications with Go and Java for Docker and Kubernetes
          • Practical Deep Learning for Coders with fastai and PyTorch
          • Programming Massively Parallel Processors - A Hands On Approach 4th Edition
          • Python深度学习
          • 一本书读懂Web3.0:区块链、NFT、元宇宙和DAO
          • 万历十五年(经典版)
          • 云原生模式
          • 互联网大厂推荐算法实战
          • 使命与魂的尽头
          • 像火箭科学家一样思考:将不可能变为可能
          • 凤凰架构:构建可靠的大型分布式系统
          • 区块链技术指南
          • 卓有成效的管理者
          • 单干:成为超级个体的49个关键动作
          • 卖货真相
          • 原则:应对变化中的世界秩序
          • 参与感:小米口碑营销内部手册
          • 吉卜力的天才们
          • 太白金星有点烦
          • 奔跑吧,爸爸
          • 奔跑吧,程序员:从零开始打造产品、技术和团队
          • 富爸爸穷爸爸
          • 小岛经济学
          • 彷徨之刃
          • 微服务设计
          • 我不是潘金莲(范冰冰主演)
          • 斯坦福极简经济学
          • 新参者
          • 旧制度与大革命
          • 明朝那些事儿(全集)
          • 星之继承者(全3册)
          • 消失的13级台阶
          • 深度学习
          • 游戏力:笑声,激活孩子天性中的合作与勇气
          • 秘密
          • 第一本经济学
          • 精通以太坊:开发智能合约和去中心化应用
          • 精通区块链编程:加密货币原理、方法和应用开发(原书第2版)
          • 精通特征工程
          • 经济学的思维方式(全集)
          • 芒格之道——查理·芒格股东会讲话1987-2022
          • 营销笔记
          • 设计模式之禅(第2版)
          • 赖声川的创意学
          • 跨越鸿沟:颠覆性产品营销指南(原书第3版)
          • 重来3:跳出疯狂的忙碌
          • 黑色皮革手册(同名日剧原著)
            • LLM Inference Landscape
            • 人脸识别是如何工作的
            • 如何给文档或笔记分类
            • 如何自学计算机科学
            • 如何阅读论文 - 沈向洋论文十问
            • 短剧换脸出海的技术复杂性
            • 第一曲线技术栈
              • <Introdunction to Parallel Programming> 学习笔记
          Home

          ❯

          Writings

          ❯

          learning

          ❯

          <Introdunction to Parallel Programming> 学习笔记

          <Introdunction to Parallel Programming> 学习笔记

          Aug 19, 20241 min read

          • tutorials
          • parallel-programming

          课程视频链接: https://www.youtube.com/playlist?list=PLAwxTw4SYaPnFKojVQrmyOGFCqHTxfdv2

          [TOC]

          1. Unit 1

          1.1 typical CUDA Program

          screenshot-124.390.jpg

          screenshot-32.070.jpg

          1.2 parallel communication patterns

          screenshot-43.120.jpg

          1.3 GPU allocate blocks to SMs

          screenshot-78.208.jpg

          1.3 GPU memory hierarchy

          screenshot-80.277.jpg

          screenshot-63.013.jpg

          1.4 high level strategies of optimizing performance

          screenshot-106.397.jpg


          • 1. Unit 1
          • 1.1 typical CUDA Program
          • 1.2 parallel communication patterns
          • 1.3 GPU allocate blocks to SMs
          • 1.3 GPU memory hierarchy
          • 1.4 high level strategies of optimizing performance

          Graph View

          Backlinks

          • No backlinks found

          Created with Quartz v4.3.1 © 2024

          • RSS
          • Stats
          • Futurelog