Yufeng Li – Medium

Yufeng Li

Yufeng Li
in
Microsoft Azure

Faster and smaller quantized NLP with Hugging Face and ONNX Runtime

Popular Hugging Face Transformer models (BERT, GPT-2, etc) can be shrunk and accelerated with ONNX Runtime quantization without retraining.

Aug 31, 2020

Faster and smaller quantized NLP with Hugging Face and ONNX Runtime

Aug 31, 2020

Yufeng Li

Yufeng Li

Senior Software Engineer of Microsoft, working on ONNX Runtime and Tools.

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams