Yapay Zeka

LLaVA Nedir? Görüntü Anlayan Yapay Zeka Modeli Rehberi

sanalisci

20 January 2026

449 görüntülenme 0 beğeni

Özet: Görüntü anlayan yapay zeka modeli LLaVA'yı keşfedin. Fotoğraf analizi, OCR, grafik yorumlama. 7B-34B parametre seçenekleri ve Ollama kurulumu.

LLaVA: Gören ve Anlayan Yapay Zeka

LLaVA (Large Language and Vision Assistant), görüntüleri analiz edip anlayabilen multimodal bir yapay zeka modelidir. Metin tabanlı modellerin aksine, LLaVA hem görsel hem de metin girdilerini işleyerek çok daha zengin etkileşimler sunar.

LLaVA Nasıl Çalışır?

LLaVA, iki ana bileşenden oluşur:

Vision Encoder: Görüntüleri analiz eden CLIP modeli
Language Model: Metinleri üreten LLM (Llama/Vicuna tabanlı)

Bu iki bileşen birlikte çalışarak, görüntüler hakkında soru cevaplama, açıklama ve analiz yapabilir.

Model Seçenekleri

Model	Parametre	RAM	Özellik
LLaVA 7B	7 Milyar	8GB	Temel görüntü anlama
LLaVA 13B	13 Milyar	16GB	Daha detaylı analiz
LLaVA 34B	34 Milyar	32GB	Profesyonel kullanım
LLaVA-NeXT	7B-34B	8-32GB	Gelişmiş versiyon

Ollama ile LLaVA Kurulumu

# LLaVA modelini indirin
ollama pull llava

# Gelişmiş versiyon
ollama pull llava:13b

# En güçlü versiyon
ollama pull llava:34b

# Çalıştırın
ollama run llava

Pratik Kullanım Örnekleri

1. Görüntü Açıklama

# Terminal'den görüntü analizi
ollama run llava "Bu görüntüyü detaylı açıkla" /path/to/image.jpg

2. Python ile Görüntü Analizi

import ollama
import base64

# Görüntüyü base64'e çevir
def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_data = encode_image("photo.jpg")

response = ollama.chat(
    model="llava",
    messages=[{
        "role": "user",
        "content": "Bu fotoğrafta ne görüyorsun?",
        "images": [image_data]
    }]
)
print(response["message"]["content"])

3. OCR (Metin Okuma)

response = ollama.chat(
    model="llava",
    messages=[{
        "role": "user",
        "content": "Bu görüntüdeki metinleri oku ve listele",
        "images": [image_data]
    }]
)

4. Grafik Analizi

response = ollama.chat(
    model="llava",
    messages=[{
        "role": "user",
        "content": "Bu grafiği analiz et. Trendler ve önemli noktaları açıkla.",
        "images": [chart_image]
    }]
)

LLaVA'nın Kullanım Alanları

1. E-Ticaret

Ürün fotoğraflarından otomatik açıklama üretme
Görsel içerik moderasyonu
Ürün kategorilendirme

2. Sağlık

Tıbbi görüntü ön analizi
Rapor oluşturma yardımı
Eğitim materyali hazırlama

3. Eğitim

Görsel içerikli soru cevaplama
Şekil ve diyagram açıklama
Erişilebilirlik (görme engelliler için)

4. Güvenlik

CCTV görüntü analizi
Anormallik tespiti
Olay raporlama

LLaVA vs GPT-4 Vision

Maliyet: LLaVA ücretsiz, GPT-4V ücretli
Gizlilik: LLaVA lokal, görüntüleriniz gönderilmez
Hız: LLaVA lokalde daha hızlı olabilir
Kalite: GPT-4V daha yüksek, ama LLaVA yeterli
Özelleştirme: LLaVA fine-tune edilebilir

Performans İpuçları

Yüksek çözünürlüklü görüntüler için 13B+ model kullanın
Görüntüleri 512x512 veya 1024x1024 boyutuna ölçeklendirin
Karmaşık sahneler için detaylı sorular sorun
Batch işleme için async kullanın

Sonuç

LLaVA, görüntü anlama yeteneklerini herkesin erişimine açan önemli bir açık kaynak projesidir. E-ticaret, sağlık, eğitim ve güvenlik gibi birçok alanda kullanılabilir. Ollama ile kolayca kurulabilir ve projelerinize görsel anlama yeteneği ekleyebilirsiniz.

Etiketler:

#llava #görüntü #vision #multimodal #yapay zeka #ai #ocr #ollama