Büyük Dil Modelleri için Halüsinasyon Azaltma Teknikleri

Şevket Ay
7 min readJan 6, 2024

--

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models makalesinde araştırmacılar LLM halüsinasyonlarını azaltmak için 32 adet teknik öneriyor.

Çalışma halüsinasyon azaltma tekniklerini Prompt Engineering, Self-refinement through feedback and reasoning, Prompt Tuning ve Developing Models gibi kategorilere ayırıyor.

Yazının devamında çalışmada anlatılan her bir tekniğin özetini bulabilirsiniz.

1. Prompt Engineering

Prompt engineering, yapay zeka modellerine nasıl talimat verileceğini tasarlayan ve optimize eden disiplindir.

1.1 RAG

Yalnızca dahili veya potansiyel olarak güncelliğini kaybetmiş eğitim verilerine güvenmek yerine, external yetkili bilgi kaynaklarına erişerek LLM yanıtlarını iyileştirir. Bu yaklaşım, LLM çıktılarındaki doğruluk ve güncellik ile ilgili zorlukları ele almakta ve ilgili, güncel ve doğrulanabilir yanıtlar üreterek halüsinasyon sorunlarını etkili bir şekilde azaltmaktadır. Teknik üç ana aşamada çalışabilir.

1.1.1 Before Generation

1.1.1.1 LLM Augmenter

LM-Augmenter, Plug-and-Play (PnP) modüllerini ekleyerek LLM geliştiren bir sistemi tanıtıyor. Yaklaşım, LLM’nin dış bilgiye dayalı yanıtlar üretmesini sağlar ve utility fonksiyonları tarafından oluşturulan geri bildirimi kullanarak LLM istemlerini yinelemeli olarak revize eder. Sistem, dış bilgiden kanıt alır, chains through reasoning ile kanıt chainleri oluşturur ve dış bilgiye dayalı bir aday yanıtı oluşturmak için birleştirilmiş kanıt içeren bir bilgi istemi kullanarak sabit bir LLM’yi (örneğin, GPT-3.5) sorgular. LM-Augmenter, halüsinasyonları kontrol eder ve gerekirse geri bildirim oluşturarak, doğrulanmış bir aday yanıtı oluşturulup kullanıcıya gönderilene kadar süreci yineler.

1.1.1.2 Fresh Prompt

Güncel bilgileri istemlere dahil ederek LLM’lerin statik yapısını ele alır ve dinamik soru yanıtlamayı geliştirir. İki modlu bir değerlendirme yoluyla doğruluk ve halüsinasyon ölçülür ve özellikle hızla değişen bilgi senaryolarında sınırlamalar ve iyileştirme ihtiyacı ortaya çıkarılır.

1.1.2 During Generation

1.1.2.1 Knowledge Retrieval

Doğrulama ve düzeltme için logit çıktı değerlerini kullanarak cümle oluşturma sırasında halüsinasyonları tespit eder ve azaltır. Yöntem ilk olarak olası halüsinasyonları belirlemek, doğruluğunu doğrulamak ve ardından cümleler oluşturmaya geçmeden önce bulunan halüsinasyonları azaltmak için modelden elde edilen logit çıktı değerlerini kullanıyor. Düzeltme aşamasında ise destek olarak alınan bilgiyi kullanır ve modele, oluşturulan cümledeki halüsinasyonları azaltmak için halüsinasyonlu bilgileri ortadan kaldırarak veya değiştirerek ifadeyi onarması talimatını verir.

1.1.2.2 Decompose and Query framework

D&Q (Decompose and Query) framework5, modellerin dış bilgileri kullanırken akıl yürütmeyi güvenilir bilgilerle sınırlayarak yanıltıcı bilgilerin riskini azaltmayı amaçlamaktadırlar. Framework, bir araç çağrısı olmadan supervised fine-tuning aşamasını içermekte olup, tahmin aşamasında model, güvenilir bir soru-cevap veritabanını sorgulamak için dış araçları kullanır; ihtiyaç duyulması halinde geri gitme ve yeni aramalar başlatma olanağı sağlar.

1.1.2.3 Real-time Verification and Rectification (EVER)

Üretim süreci sırasında halüsinasyonları gerçek zamanlı olarak tespit eder ve düzeltir. EVER, halüsinasyonları ortaya çıktıkça tespit etmek ve düzeltmek için üretim süreci sırasında gerçek zamanlı, adım adım bir strateji kullanır. Üç aşamalı süreç, içsel ve dışsal halüsinasyonların etkili bir şekilde tanımlanmasını ve düzeltilmesini, oluşturulmasını, doğrulanmasını ve düzeltilmesini içerir.

1.1.3 After Generation

1.1.3.1 Retrofit Attribution using Research and Revision

LLM çıktılarında atfedilebilirlik eksikliği, herhangi bir metin oluşturma modeli için atıf sürecini otomatikleştiren RARR’ın tanıtılmasına yol açtı. Metin oluşturma modelleri için atıf sürecini otomatikleştirir, içeriği alınan kanıtlarla hizalar.

1.1.3.2 End-to-End RAG

End-to-End RAG süreci, önceden eğitilmiş bir sequence-to-sequence (seq2seq) transformer’ın, Dense Passage Retriever (DPR) üzerinden erişilen Wikipedia’nın dense vektör indeksi ile entegrasyonunu içerir. Bu yenilikçi birleşim, modelin çıktı üretimini hem giriş sorgusu hem de DPR tarafından sağlanan latent belgeler üzerine koşullandırmasına olanak tanır. DPR, bu süreçte bir sinirsel geri getirici olarak hareket eder ve girişe dayalı olarak ilgili belgeleri sağlar. Bu belgeler daha sonra seq2seq modeli, özellikle BART, tarafından nihai çıktıyı oluşturmak için kullanılır. Model, bu latent belgeleri marjinalleştirmek için bir top-K yaklaşımını kullanır, bu işlem her çıktı bazında yapılabilir (bir belgenin tüm tokenlardan sorumlu olduğunu varsayarsak) veya her token bazında (farklı belgelerin çıktının farklı bölümlerini etkilemesine izin verir).

Bu RAG kurulumundaki generator ve retriever önemli bir şekilde end-to-end olarak eğitilir, böylece birbirlerini ortak olarak öğrenir ve performanslarını arttırır.

1.2 Self-refinement through feedback and reasoning

1.2.1 Prompting GPT-3 To Be Reliable

Çalışma, güvenilirliği dört önemli boyuta (genelleştirilebilirlik, sosyal önyargılar, kalibrasyon ve gerçekçilik) ayrıştırıyor ve her bir boyutu geliştirmek için basit ve etkili yönlendirmeler sunuyor. Araştırma, tüm güvenilirlik ölçümlerinde daha küçük ölçekli supervised modelleri geride bırakarak GPT-3'ün performansını artırmaya yönelik pratik stratejiler sunuyor.

1.2.2 Chat Protect

Çalışma bir LLM’in aynı bağlamda mantıksal olarak tutarsız iki cümle üretmesi durumunda ortaya çıkan, kendi kendine çelişki adı verilen önemli halüsinasyon türüne odaklanıyor. Yazarlar, kendi kendine çelişmeler hakkında akıl yürütmek için, teşvik edici stratejiler üzerine inşa edilmiş üç adımlı bir pipeline önermektedir.

1.2.3 Self-Reflection Methodology

Tıbbi QA sistemlerinde yinelemeli iyileştirme için bilgi edinme ve yanıt oluşturmayı bütünleştirir.

1.2.4 Structured Comparative reasoning

SC (Structured Comparative) akıl yürütme yöntemi, dil modeli tabanlı sistemlerin metin tercihi tahminindeki zorluklarla başa çıkmak için tasarlanmıştır. SC, metin tercihlerini tahmin etmek için yapılandırılmış karşılaştırmalar üreten bir yöntemdir. Bu yöntem, karşılaştırmanın farklı yönlerini önerir ve her bir yön altında metin karşılaştırmaları oluşturarak tutarsızlıkları azaltmaya odaklanır. SC’nin çiftli tutarlılık kontrolü, her bir yönün metinleri net bir şekilde ayırt etmesini sağlar.

1.2.5 Mind’s Mirror

Mind’s Mirror metodolojisi, büyük dil modellerini (LLMs) küçük dil modellerine (SLMs) çevirmenin potansiyelini değerlendiren zincirleme düşünce (CoT) distilasyon yöntemlerinin olumlu yanlarını ele alır. Ancak, bu yöntemlerin SLM’lere yanlış akıl yürütme ve hayal üretme riski bulunmaktadır. Bu riski azaltmak amacıyla, metodoloji iki ana bileşeni içerir: İlk olarak, LLM’lerde doğuştan gelen öz değerlendirme yeteneğini SLM’lere aktaran yeni bir yaklaşım, olumsuz etkileri azaltmayı ve hayal üretimi miktarını düşürmeyi amaçlar. İkinci olarak, kapsamlı bir distilasyon süreci, SLM’lere bütünlük kazandırmak için birden çok farklı CoT ve öz değerlendirme paradigmını içerir.

Metodoloji, SLM’leri kendi değerlendirme yeteneklerine sahip olacak şekilde eğitir, böylece hayal üretimini tanıma ve düzeltme yeteneği kazanır; bu da çeşitli doğal dil işleme görevlerinde tahmin doğruluğunu ve güvenilirliğini artırır.

1.2.6 DRESS

DRESS yöntemi, large vision language models (LVLMs) insan tercihleri ve etkileşim yetenekleri ile daha iyi hizalanmasını sağlamak için natural language feedback (NLF) kullanmayı önerir. Özellikle eleştiri ve düzeltme NLF’ini içeren bu geri bildirimi kullanarak, modeli eğitmek için conditional reinforcement learning genelleştirirler.

1.2.7 MixAlign

MixAlign, otomatik bilgi hizalaması için bir dil modeli kullanır ve gerektiğinde bu hizalamayı kullanıcı açıklamaları aracılığıyla daha da geliştirir. MixAlign, güvenilir karar verme için bağlam bilgisini kullanmaya odaklanır. Belirsizlik veya net olmayan kanıtlar durumunda, MixAlign, kullanıcıdan açıklama isteyen bir soru oluşturur — bu süreç, insan destekli bilgi hizalaması olarak adlandırılır.

1.2.8 Chain-of-Verification

· İlk bir yanıt tasarlar.

· Tasarladığı yanıtı kontrol etmek için doğrulama soruları planlar.

· Bu soruları bağımsız bir şekilde yanıtlar, böylece yanıtlar tarafsız olur.

· Doğrulanmış bir nihai yanıt üretir.

1.2.9 Chain of Natural Language Inference

Doğal dil üretme konusundaki akıcılıklarına rağmen, LLM’ler genellikle verilen kaynaklar tarafından desteklenmeyen dayanaksız yanılsamalar üretir. Önerilen hiyerarşik çerçeve, bu tür yanılsamaları tespit etmeye ve azaltmaya odaklanır ve bu için özel ayarlamalara veya alan belirli yönergeler olmaksızın yapılır. CoNLI, dayanaksız içeriği tanımlayarak halüsinasyon tespitinde son teknolojiyi kullanır. Ardından, model ayarlaması olmadan yanılsamaları azaltmak ve metin kalitesini artırmak için post-editing kullanılır. Framework, tespiti doğal dil çıkarım görevleri zinciri olarak formüle ederek, cümle ve varlık düzeyinde değerlendirmeleri yorumlanabilirlikle birleştirir.

1.3 Prompt Tuning

Pre-train edilmiş bir LLM’ye sağlanan talimatların ayarlanmasını içerir.

1.3.1 Universal Prompt Retrieval for Improving zeroShot Evaluation (UPRISE)

Hafif ve esnek bir retriever’ın otomatik olarak belirli bir zero-shot görev girdisi için yönergeleri ayarladığı bir yöntemdir.

1.3.2 SynTra

Özetleme görevlerinde halüsinasyonu verimli bir şekilde azaltmak için sentetik bir görev kullanır.

2. Developing Models

2.1 Introducing new decoding strategy

Bu stratejiler, halüsinasyonları azaltmak için bir modelin üretim aşamasını değiştirmeye odaklanır.

2.1.1 Context-Aware Decoding

Bağlama bağlı olarak çıktı olasılıklarındaki farklılıkları güçlendirir, sağlanan bağlamla çeliştiğinde önceki bilgileri geçersiz kılar. CAD, ek eğitim olmadan hazır dil modelleriyle kullanılabilir.

2.1.2 Decoding by Contrasting Layers

Olgusal bilgi tanımlamasını geliştirmek için katmanlar arasındaki logit farklılıklarını kullanır, pre-train LLM’lerde etkilidir.

2.1.3 Inference-Time Intervention

Inference sırasında model aktivasyonlarını değiştirerek, doğruluğu artırmak için belirli attention headleri hedefler.

2.2 Utilization of Knowledge Graph

Entities ve relationships hakkındaki yapılandırılmış verileriyle KG’ler, model doğruluğunu artırmak için kullanılır.

2.2.1 RHO

Diyalog yanıtı üretimi için KG’leri kullanır, daha doğru yanıtlar üretmek için yerel ve küresel knowledge-grounding teknikleri kullanır.

2.2.2 FactuaL Error detection and correction with Evidence Retrieved from external Knowledge

FLEEK, belirli bir metindeki potansiyel olarak doğrulanabilir gerçekleri bağımsız olarak tanımlayan kullanıcı dostu bir arayüze sahiptir. Her gerçek için sorular formüle eder ve kanıt için seçilmiş knowledge graph ve açık web’de arama yapar. Araç daha sonra toplanan kanıtları kullanarak gerçekleri doğruluyor ve orijinal metinde revizyonlar öneriyor.

2.3 Introducing faithfulness based loss function

Bir modelin çıktılarının girdi verilerine veya temel gerçeğe ne kadar yakın olduğunu ölçmek için metrikler oluşturmayı içerir.

2.3.1 Text Hallucination Mitigating (THAM) Framework

Çalışma information-theoretic regularization’ı tanıtarak halüsinasyonu özellik düzeyinde ele alır. Framework response language modeli ile önerilen hallucination language arasındaki karşılıklı bilgiyi en aza indiren Text Hallucination Regularization (THR) kaybını içerir.

2.3.2 Loss Weighting Method

Sadakati değerlendirmek için İngilizce olmayan özetler için mFACT adlı bir metrik geliştirir ve sadakat puanlarına dayalı ağırlıklı kayıp uygular.

2.4 Supervised fine-tuning (SFT)

Etiketli verileri kullanarak belirli görevler için LLM’leri hizalamayı ve böylece model çıktılarının sadakatini geliştirmeyi içerir.

2.4.1 Knowledge Injection and Teacher-Student Approaches

Çalışma BLOOM 7B gibi modellere odaklanarak, daha zayıf open source LLM’lerde halüsinasyonlar konusunu ele alıyor. LLM’deki halüsinasyon şiddetini harici bilgiye dayanmadan ölçen hafif bir çerçeve olan HALOCHECK’i sunuyorlar. Yazarlar, düşük parametreli LLM’lerde halüsinasyonları azaltmak için knowledge ınjection ve teacher-student yaklaşımları gibi teknikleri araştırıyor. HALOCHECK, halüsinasyon düzeylerini niceliksel olarak değerlendirmek için cümle düzeyinde gereklilikleri kullanır. Amaç, daha güçlü modellerin pahalı rehberliği olmadan, alan bilgisiyle ince ayar yaparak Knowledge Injection (KI) yoluyla daha küçük LLM’lerin bilgisini geliştirmektir.

2.4.2 Hallucination Augmented Recitations (HAR)

HAR, karşı olgusal veri kümeleri oluşturmak için LLM halüsinasyonunu kullanarak metin temellendirmesini ve ilişkilendirmeyi geliştirir.

2.4.3 Fine-tuning Language Models for Factuality

Direct Preference Optimization algoritmasıyla tercihe dayalı öğrenmeyi kullanarak dil modellerindeki halüsinasyonla mücadele etmektedir.

2.4.4 BEINFO

BEINFO, bilgi arama diyaloglarında oluşturulan yanıtların doğruluğunu artırmak için davranışsal ayarlama, özellikle behavioral fine-tuning’ uygular.

2.4.5 Refusal-Aware Instruction Tuning (R-Tuning)

Çalışma LLM’lerin reddetme becerilerini geliştirmek için Refusal-Aware Instruction Tuning (R-Tuning) adı verilen yeni bir yaklaşımı tanıtmaktadır. R-Tuning, bir LLM’nin parametrik bilgisi ile eğitim için kullanılan öğretimsel ayarlama verileri arasındaki bilgi boşluklarını belirlemeye odaklanır. Metodoloji iki ana adımdan oluşur: birincisi, belirsiz soruları belirlemek için bilgi boşluğunun ölçülmesi ve ikincisi, belirsiz örneklere ret ifadeleri eklenerek reddedilmeye duyarlı eğitim verilerinin oluşturulması. Bu veriler daha sonra LLM’ye ince ayar yapmak için kullanılır ve ona, özellikle de yetkinliğinin ötesinde sorularla karşılaştığında ne zaman yanıt vermekten kaçınması gerektiğini öğretir. Kısaca LLM’lere bilgi boşluklarını belirlemeyi ve bir soru yetkinliklerinin dışında kaldığında yanıt vermekten kaçınmayı öğretir.

2.4.6 Think While Effectively Articulating Knowledge (TWEAK)

TWEAK, oluşturulan metnin her adımını bir hipotez olarak ele alır ve adayları girdi gerçeklerini ne kadar iyi desteklediklerine göre sıralar. Bu sıralama Hypothesis Verification Model (HVM) adı verilen bir model kullanılarak yapılır. Diğer yöntemlerden farklı olarak TWEAK, modelleri yeniden eğitmeden decoding sürecini ayarlayarak farklı metin oluşturucularla entegrasyonu kolaylaştırır.

Okuduğunuz için teşekkürler!

--

--