AI Blog TW - Medium

Sign in Get started

Experience-driven vision for data science, blending academia and industry.

Trending Stories

Residual Leaning：認識ResNet與他的冠名後繼者ResNeXt、ResNeSt

Residual Leaning：認識ResNet與他的冠名後繼者ResNeXt、ResNeSt

打從ResNet出現後，以residual block / residual learning為主架構的網路接連地在各個論文中出現，也正式撬開了深層數網路的時代。事實上，目前在computer…

Jun 11, 2020

為什麼Adam常常打不過SGD？癥結點與改善方案

為什麼Adam常常打不過SGD？癥結點與改善方案

對於做deep learning的人，Adam是個令人又愛又恨的優化器。Adam擁有收斂速度快、調參容易的優點，卻也存在時常被人攻擊的泛化性與收斂問題。因此，在許多論文中實驗會使用傳統的SGD+momentum來做分析。但實際上Adam並非不堪用，仍然有不少大名鼎鼎的模型...

Apr 25, 2020

什麼是Tensorflow的Assign Operator：以tf.assign實作Counter

什麼是Tensorflow的Assign Operator：以tf.assign實作Counter

這篇文章會介紹 tf.assign這個 operator，再使用tf.assign實作簡單的計數器（counter）。

Aug 3, 2019

SpineNet : 重新思考特徵抽取時的降解析度操作

SpineNet : 重新思考特徵抽取時的降解析度操作

從convolution neural network (CNN) 的發展來看，抽取特徵時隨著網路的深度降低特徵層解析度是一個很標準的作法。不過近年不少研究指出，這樣降解析度的行為對於位置敏感的任務 (detection、segmentation等等)…

Jul 21, 2020

Latest Research Stories

從 Sora 的技術背景解析當代 Video Generation 的方法與難題

從 Sora 的技術背景解析當代 Video Generation 的方法與難題

影片生成一直被認為是一項複雜的高維度任務，不僅要在圖像生成的基礎上處理時間連續性的問題，還面臨著高維數據處理的挑戰。長期以來，產生既高品質又有一定長度的影片對技術是一大考驗。在 2024 年 2 月 OpenAI 推出了 Sora 模型…

Feb 24

ViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法

ViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法

今日在GPT (General Pretrained Transformer) 的助攻下，基於attention的Transformer早已是深度學習的主流模型之一。不過在電腦視覺領域，即使ViT (Vision Transformer) 與Swin…

Aug 20, 2023

概述Model Reparameterization: RepVGG 與後續作 (RepOptimizer, QARepVGG, MobileOne)

概述Model Reparameterization: RepVGG 與後續作 (RepOptimizer, QARepVGG, MobileOne)

2021 年的 RepVGG 提出了一種在訓練時是 multi-branches ，但在推理 (inference)時可以重參數化 (reparameterize) 成 plain CNN model 的架構。讓模型在表現提升的同時，仍然保有 plain model…

May 18, 2023

Stable Diffusion背後的技術：高效、高解析又易控制的Latent Diffusion Model

Stable Diffusion背後的技術：高效、高解析又易控制的Latent Diffusion Model

近年，生成式模型 (generative model) 用於圖像生成展現了驚人的成果，最知名的莫過於基於 diffusion model 的 Stable Diffusion 與 Midjourney。雖然目前還無法完整地指出 Midjourney 背後的方法，但透過…

Apr 16, 2023

從YOLOF的觀點深入探究Feature Pyramid Networks (FPN)的背後價值

從YOLOF的觀點深入探究Feature Pyramid Networks (FPN)的背後價值

在物件偵測 (object detection) 領域，FPN (feature pyramid network) 與其衍生架構是提升偵測準確度的常用技巧。而YOLOF明確地指出 FPN更重要的在於 divide-and-conquer的 label assignment….

Jan 12, 2023

實作理解Diffusion Model: 來自DDPM的簡化概念

實作理解Diffusion Model: 來自DDPM的簡化概念

Diffusion model是一個透過變分推斷 (Variational Inference) 訓練的參數化馬可夫鍊 (Markov Chain)，並且在許多任務上展現了超越 GAN的效果，其中最知名的應用莫過於 OpenAI的 DALL-E 2與 Google…

May 31, 2022

在2021年理解Convolution Neural Network: CNN的基礎與未來展望

在2021年理解Convolution Neural Network: CNN的基礎與未來展望

Deep learning在電腦視覺 (Computer Vision, CV)上最常被使用的架構是 Convolution Neural Network (CNN)。 CNN以參數來做 convolution的概念可以說是 Yann LeCun於 1998年發表的…

Jan 11, 2022

About AI Blog TWLatest StoriesArchiveAbout MediumTermsPrivacyTeams