Homepage
Open in app
Sign in
Get started
Experience-driven vision for data science, blending academia and industry.
Research
Programming
Culture
Follow
Trending Stories
實作理解Diffusion Model: 來自DDPM的簡化概念
實作理解Diffusion Model: 來自DDPM的簡化概念
Diffusion model是一個透過變分推斷 (Variational Inference) 訓練的參數化馬可夫鍊 (Markov Chain),並且在許多任務上展現了超越 GAN的效果,其中最知名的應用莫過於 OpenAI的 DALL-E 2與 Google…
Jia-Yau Shiau
May 31, 2022
Stable Diffusion背後的技術:高效、高解析又易控制的Latent Diffusion Model
Stable Diffusion背後的技術:高效、高解析又易控制的Latent Diffusion Model
近年,生成式模型 (generative model) 用於圖像生成展現了驚人的成果,最知名的莫過於基於 diffusion model 的 Stable Diffusion 與 Midjourney。雖然目前還無法完整地指出 Midjourney 背後的方法,但透過…
Jia-Yau Shiau
Apr 16, 2023
Tensorflow 2的Quantization Aware Training指南
Tensorflow 2的Quantization Aware Training指南
Tensorflow作為各平台最全面支援的深度學習框架之一,提供了不同精度的quantization操作。除了支援直接quantize已訓練網路的post-quantization,也支援了在訓練時模擬低精度運算的training aware quantization (QAT
Jia-Yau Shiau
Nov 19, 2020
DETR的天馬行空:用Transformer走出Object Detection簡潔Pipeline
DETR的天馬行空:用Transformer走出Object Detection簡潔Pipeline
DETR (Detection with Transformer) 是2020年FAIR團隊發表於ECCV的論文 (Oral)。看大標題以為只是用NLP的神器Transformer做文章,改個網路架構之類。事實上,這是一個在object…
Jia-Yau Shiau
Sep 3, 2020
Latest Research Stories
白話 3D Gaussian Splatting (3DGS) 與其後續進展
白話 3D Gaussian Splatting (3DGS) 與其後續進展
3D Gaussian Splatting (3DGS) 採用了explicit 3D Gaussian 表示,並結合 Rasterization rendering pipline,提供了一種高效且易於解釋的 3D 場景建模方案。
Jia-Yau Shiau
Feb 14
從 Sora 的技術背景解析當代 Video Generation 的方法與難題
從 Sora 的技術背景解析當代 Video Generation 的方法與難題
影片生成一直被認為是一項複雜的高維度任務,不僅要在圖像生成的基礎上處理時間連續性的問題,還面臨著高維數據處理的挑戰。長期以來,產生既高品質又有一定長度的影片對技術是一大考驗。在 2024 年 2 月 OpenAI 推出了 Sora 模型…
Jia-Yau Shiau
Feb 24, 2024
ViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法
ViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法
今日在GPT (General Pretrained Transformer) 的助攻下,基於attention的Transformer早已是深度學習的主流模型之一。不過在電腦視覺領域,即使ViT (Vision Transformer) 與Swin…
Jia-Yau Shiau
Aug 20, 2023
概述Model Reparameterization: RepVGG 與後續作 (RepOptimizer, QARepVGG, MobileOne)
概述Model Reparameterization: RepVGG 與後續作 (RepOptimizer, QARepVGG, MobileOne)
2021 年的 RepVGG 提出了一種在訓練時是 multi-branches ,但在推理 (inference)時可以重參數化 (reparameterize) 成 plain CNN model 的架構。讓模型在表現提升的同時,仍然保有 plain model…
Jia-Yau Shiau
May 18, 2023
從YOLOF的觀點深入探究Feature Pyramid Networks (FPN)的背後價值
從YOLOF的觀點深入探究Feature Pyramid Networks (FPN)的背後價值
在物件偵測 (object detection) 領域,FPN (feature pyramid network) 與其衍生架構是提升偵測準確度的常用技巧。而YOLOF明確地指出 FPN更重要的在於 divide-and-conquer的 label assignment….
Jia-Yau Shiau
Jan 12, 2023
在2021年理解Convolution Neural Network: CNN的基礎與未來展望
在2021年理解Convolution Neural Network: CNN的基礎與未來展望
Deep learning在電腦視覺 (Computer Vision, CV)上最常被使用的架構是 Convolution Neural Network (CNN)。 CNN以參數來做 convolution的概念可以說是 Yann LeCun於 1998年發表的…
Jia-Yau Shiau
Jan 11, 2022
Masked Autoencoders: 借鏡BERT與ViT的Self-Supervised Learners
Masked Autoencoders: 借鏡BERT與ViT的Self-Supervised Learners
MAE (Masked Autoencoders)是 FAIR在 2021年提出,借鏡 BERT的 MLM概念、結合切割影像為 patch的 ViT,精煉出不需要 contractive架構的 self-supervised pre-training方法…
Jia-Yau Shiau
Nov 20, 2021
About AI Blog TW
Latest Stories
Archive
About Medium
Terms
Privacy
Teams