Alan's PKB

Tag: cuda

3 items with this tag.

  • Apr 11, 2026

    Inference Optimization Stack

    • inference
    • optimization
    • quantization
    • cuda
    • blackwell
    • moe
    • kv-cache
    • synthesis
    • research
    • 1
    • 2
    • 3
    • TrtLLMGen
    • thunder
    • 4
    • 5
    • 6
    • 7
    • baseline
    • with
    • 8
    • 9
    • 10
  • Apr 11, 2026

    TrtLLMGen MoE Kernels

    • nvidia
    • tensorrt-llm
    • flashinfer
    • moe
    • cuda
    • blackwell
    • sm100
    • inference
    • open-source
    • mlperf
    • research
    • 1
    • the
    • where
    • 2
    • why
    • 3
    • 4
    • what
    • NVIDIA
    • 5
    • MLPerf
    • InferenceX
    • 6
    • 7
    • Short-Term
    • Medium-Term
    • 8
    • 9
  • Apr 11, 2026

    Thunder Kittens CUDA

    • cuda
    • thunder-kittens
    • gpu-programming
    • tensor-cores
    • kernel-optimization
    • h100
    • 4090
    • GPU
    • SM
    • memory
    • key
    • tensor
    • sync_warp
    • sync_threads
    • async
    • pipeline
    • bank
    • thunder
    • design
    • types
    • operations
    • Producer-Consumer
    • deep
    • practical
    • interesting

© 2026

  • GitHub
  • RSS