Benjamin Marie – Medium

Benjamin Marie

Pinned

Benjamin Marie
in
Towards Data Science

Mistral 7B: Recipes for Fine-tuning and Quantization on Your Computer

Cheap supervised fine-tuning with an impressive LLM

Oct 26, 2023

Mistral 7B: Recipes for Fine-tuning and Quantization on Your Computer

Oct 26, 2023

Pinned

Benjamin Marie
in
Towards Data Science

Run Mixtral-8x7B on Consumer Hardware with Expert Offloading

Finding the right trade-off between memory usage and inference speed

Jan 11

Run Mixtral-8x7B on Consumer Hardware with Expert Offloading

Jan 11

Benjamin Marie
in
Stackademic

Falcon Mamba 7B: SSM (attention-free) Model Are Getting Better

Attention-free models for faster inference

Aug 20

Falcon Mamba 7B: SSM (attention-free) Model Are Getting Better

Aug 20

Benjamin Marie

Llama 3.1 4B with NVIDIA Minitron

A new way to compress LLMs

Aug 17

Llama 3.1 4B with NVIDIA Minitron

Aug 17

Benjamin Marie

FlexAttention: A Flexible Pytorch API for Implementing Attention Optimizations

It’s going to be easier to optimize attention computation

Aug 12

FlexAttention: A Flexible Pytorch API for Implementing Attention Optimizations

Aug 12

Benjamin Marie
in
Towards Data Science

Multi-GPU Fine-tuning for Llama 3.1 70B with FSDP and QLoRA

What you can do with only 2x24 GB GPUs and a lot of CPU RAM

Aug 8

Multi-GPU Fine-tuning for Llama 3.1 70B with FSDP and QLoRA

Aug 8

Benjamin Marie

ThinK: KV Cache Pruning for Memory Efficient Inference

A promising approach if combined with KV cache quantization

Aug 8

ThinK: KV Cache Pruning for Memory Efficient Inference

Aug 8

Benjamin Marie
in
Towards Data Science

Serve Multiple LoRA Adapters with vLLM

Without any increase in latency

Aug 3

Serve Multiple LoRA Adapters with vLLM

Aug 3

Benjamin Marie

More Evidence that Ternary LLMs Are Good Enough

-1, 0, and 1 are all you need to make good LLMs

Jul 25

More Evidence that Ternary LLMs Are Good Enough

Jul 25

Benjamin Marie
in
Towards Data Science

Function Calling: Fine-Tuning Llama 3 on xLAM

Fast and memory-efficient thanks to QLoRA

Jul 23

Function Calling: Fine-Tuning Llama 3 on xLAM

Jul 23

Benjamin Marie

Benjamin Marie

Ph.D, research scientist in NLP/AI. Medium "Top writer" in AI and Technology. Exclusive articles and all my AI notebooks on https://kaitchup.substack.com/

Following

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams