LLaVA Nedir? Görüntü Anlayan Yapay Zeka Modeli Rehberi
LLaVA: Gören ve Anlayan Yapay Zeka
LLaVA (Large Language and Vision Assistant), görüntüleri analiz edip anlayabilen multimodal bir yapay zeka modelidir. Metin tabanlı modellerin aksine, LLaVA hem görsel hem de metin girdilerini işleyerek çok daha zengin etkileşimler sunar.
LLaVA Nasıl Çalışır?
LLaVA, iki ana bileşenden oluşur:
- Vision Encoder: Görüntüleri analiz eden CLIP modeli
- Language Model: Metinleri üreten LLM (Llama/Vicuna tabanlı)
Bu iki bileşen birlikte çalışarak, görüntüler hakkında soru cevaplama, açıklama ve analiz yapabilir.
Model Seçenekleri
| Model | Parametre | RAM | Özellik |
|---|---|---|---|
| LLaVA 7B | 7 Milyar | 8GB | Temel görüntü anlama |
| LLaVA 13B | 13 Milyar | 16GB | Daha detaylı analiz |
| LLaVA 34B | 34 Milyar | 32GB | Profesyonel kullanım |
| LLaVA-NeXT | 7B-34B | 8-32GB | Gelişmiş versiyon |
Ollama ile LLaVA Kurulumu
# LLaVA modelini indirin
ollama pull llava
# Gelişmiş versiyon
ollama pull llava:13b
# En güçlü versiyon
ollama pull llava:34b
# Çalıştırın
ollama run llava
Pratik Kullanım Örnekleri
1. Görüntü Açıklama
# Terminal'den görüntü analizi
ollama run llava "Bu görüntüyü detaylı açıkla" /path/to/image.jpg
2. Python ile Görüntü Analizi
import ollama
import base64
# Görüntüyü base64'e çevir
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_data = encode_image("photo.jpg")
response = ollama.chat(
model="llava",
messages=[{
"role": "user",
"content": "Bu fotoğrafta ne görüyorsun?",
"images": [image_data]
}]
)
print(response["message"]["content"])
3. OCR (Metin Okuma)
response = ollama.chat(
model="llava",
messages=[{
"role": "user",
"content": "Bu görüntüdeki metinleri oku ve listele",
"images": [image_data]
}]
)
4. Grafik Analizi
response = ollama.chat(
model="llava",
messages=[{
"role": "user",
"content": "Bu grafiği analiz et. Trendler ve önemli noktaları açıkla.",
"images": [chart_image]
}]
)
LLaVA'nın Kullanım Alanları
1. E-Ticaret
- Ürün fotoğraflarından otomatik açıklama üretme
- Görsel içerik moderasyonu
- Ürün kategorilendirme
2. Sağlık
- Tıbbi görüntü ön analizi
- Rapor oluşturma yardımı
- Eğitim materyali hazırlama
3. Eğitim
- Görsel içerikli soru cevaplama
- Şekil ve diyagram açıklama
- Erişilebilirlik (görme engelliler için)
4. Güvenlik
- CCTV görüntü analizi
- Anormallik tespiti
- Olay raporlama
LLaVA vs GPT-4 Vision
- Maliyet: LLaVA ücretsiz, GPT-4V ücretli
- Gizlilik: LLaVA lokal, görüntüleriniz gönderilmez
- Hız: LLaVA lokalde daha hızlı olabilir
- Kalite: GPT-4V daha yüksek, ama LLaVA yeterli
- Özelleştirme: LLaVA fine-tune edilebilir
Performans İpuçları
- Yüksek çözünürlüklü görüntüler için 13B+ model kullanın
- Görüntüleri 512x512 veya 1024x1024 boyutuna ölçeklendirin
- Karmaşık sahneler için detaylı sorular sorun
- Batch işleme için async kullanın
Sonuç
LLaVA, görüntü anlama yeteneklerini herkesin erişimine açan önemli bir açık kaynak projesidir. E-ticaret, sağlık, eğitim ve güvenlik gibi birçok alanda kullanılabilir. Ollama ile kolayca kurulabilir ve projelerinize görsel anlama yeteneği ekleyebilirsiniz.