Benjamin Marie – Medium

Benjamin Marie

Pinned

Benjamin Marie
in
Towards Data Science

Run Mixtral-8x7B on Consumer Hardware with Expert Offloading

Finding the right trade-off between memory usage and inference speed

Jan 11

Run Mixtral-8x7B on Consumer Hardware with Expert Offloading

Jan 11

Benjamin Marie
in
Stackademic

Jamba 1.5: Two New Hybrid Transformers/SSM of 52B and 398B Parameters

Huge but very efficient, especially for long-context processing

1d ago

Jamba 1.5: Two New Hybrid Transformers/SSM of 52B and 398B Parameters

1d ago

Benjamin Marie
in
Towards Data Science

Mistral-NeMo: 4.1x Smaller with Quantized Minitron

How pruning, knowledge distillation, and 4-bit quantization can make advanced AI models more accessible and cost-effective

1d ago

Mistral-NeMo: 4.1x Smaller with Quantized Minitron

1d ago

Benjamin Marie

The Unexpected Impact of Code in Pre-training Data

But not too much!

1d ago

The Unexpected Impact of Code in Pre-training Data

1d ago

Benjamin Marie
in
Stackademic

Falcon Mamba 7B: SSM (attention-free) Model Are Getting Better

Attention-free models for faster inference

Aug 20

Falcon Mamba 7B: SSM (attention-free) Model Are Getting Better

Aug 20

Benjamin Marie

Llama 3.1 4B with NVIDIA Minitron

A new way to compress LLMs

Aug 17

Llama 3.1 4B with NVIDIA Minitron

Aug 17

Benjamin Marie

FlexAttention: A Flexible Pytorch API for Implementing Attention Optimizations

It’s going to be easier to optimize attention computation

Aug 12

FlexAttention: A Flexible Pytorch API for Implementing Attention Optimizations

Aug 12

Benjamin Marie
in
Towards Data Science

Multi-GPU Fine-tuning for Llama 3.1 70B with FSDP and QLoRA

What you can do with only 2x24 GB GPUs and a lot of CPU RAM

Aug 8

Multi-GPU Fine-tuning for Llama 3.1 70B with FSDP and QLoRA

Aug 8

Benjamin Marie

ThinK: KV Cache Pruning for Memory Efficient Inference

A promising approach if combined with KV cache quantization

Aug 8

ThinK: KV Cache Pruning for Memory Efficient Inference

Aug 8

Benjamin Marie
in
Towards Data Science

Serve Multiple LoRA Adapters with vLLM

Without any increase in latency

Aug 3

Serve Multiple LoRA Adapters with vLLM

Aug 3

Benjamin Marie

Benjamin Marie

Ph.D, research scientist in NLP/AI. Medium "Top writer" in AI and Technology. Exclusive articles and all my AI notebooks on https://kaitchup.substack.com/

Following

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams