Araçlara Dön

OCR ile Metin Tanı

Optik karakter tanıma kullanarak taranmış PDF'lerden ve resimlerden metin çıkar.

Metin çıkarmak için taranmış bir PDF veya resim yükle. İşlem tamamen tarayıcında gerçekleşir.
PDF veya resim dosyasını buraya sürükle veya göz atmak için tıkla
Metin çıkarmak için bir PDF veya resim dosyası (JPG, PNG, vb.) seç

Herhangi Bir PDF'den Metin Çıkar - Ücretsiz OCR Aracı

Taranmış PDF'ler ve görüntü tabanlı belgeler normal dosyalar gibi görünür, ancak içlerinde okunabilir bir metin katmanı yoktur - bunlar aslında sayfaların fotoğraflarıdır. OCR PDF aracımız her sayfa görüntüsünü analiz eder ve Tesseract kullanarak karakterleri tanır, ardından çıkarılan metni kopyalayabileceğin, düzenleyebileceğin veya başka araçlara yapıştırabileceğin düz bir metin dosyası olarak sunar. İşlem, OCR motorunun WebAssembly derlemesi kullanılarak tamamen tarayıcında çalışır - dosyan hiçbir zaman cihazından çıkmaz.

OCR Ne Yapar ve Ne Zaman İhtiyaç Duyarsın?

OCR, Optik Karakter Tanıma anlamına gelir. Bir belge tarandığında, fotoğraflandığında veya sayfaları rasterize eden bir sistemden dışa aktarıldığında, ortaya çıkan PDF'de metin verisi bulunmaz - yalnızca harflerin piksel görüntüleri vardır. PDF görüntüleyiciler bu dosyaları doğru şekilde gösterir, ancak metin seçemez, arama yapmak için Ctrl+F kullanamazsın ya da bir cümleyi kopyalayamazsın. OCR, her sayfadaki görsel şekilleri inceleyerek hangi karakterleri temsil ettiklerini belirleyerek bu sorunu çözer.

Şu durumlarda OCR'a ihtiyaç duyarsın:

OCR Aracımız Nasıl Çalışır?

  1. Dosyanı yükle - taranmış bir PDF veya görüntü dosyası (JPG, PNG, WebP) sürükle bırak. Dosya tarayıcın tarafından yerel olarak okunur ve hiçbir sunucuya gönderilmez.
  2. Dil seç - belgedeki metnin dilini seç. Tesseract, tanıma doğruluğunu artırmak için o dile ait eğitilmiş karakter modelini yükler.
  3. Sayfaları seç - tüm belgeyi işle veya belirli sayfaları ya da aralıkları belirt.
  4. OCR'ı çalıştır - Tesseract, WebAssembly kullanarak tarayıcında her sayfa görüntüsünü analiz eder ve tanınan metni çıkarır.
  5. Sonuçları indir - çıkarılan metni düz bir .txt dosyası olarak kaydet veya doğrudan panonuza kopyala. İçeriği bir belge olarak düzenlemek için metni PDF editörüne yapıştır ya da orijinal taranmış dosyada OCR çalıştırdıktan sonra PDF'den Word'e dönüştürücü için kaynak olarak kullan.

OCR Doğruluğunu Etkileyen Faktörler

OCR doğruluğu, kaynak belgenin kalitesine bağlıdır. Beyaz arka plan üzerinde net ve koyu metinle yapılan yüksek çözünürlüklü taramalar en iyi sonuçları verir. Doğruluğu düşüren yaygın faktörler arasında düşük tarama çözünürlüğü, eğik veya döndürülmüş sayfalar, el yazısı metin, dekoratif fontlar, renkli arka planlar, metnin üzerine binen filigranlar ve yoğun JPEG sıkıştırma artifaktları sayılabilir. İşlemden önce doğru dili seçmek de önemli bir fark yaratır; çünkü Tesseract, belirsiz karakterleri çözmek için dile özgü karakter ve kelime modelleri kullanır.

OCR teknolojisinin nasıl çalıştığı ve taranmış belgeleri yönetmenin en iyi yolları hakkında daha fazla bilgi edinmek istiyorsan, OCR hakkındaki blog makalemiz temel teknikleri ve ne zaman kullanılacağını sade bir dille ele alıyor.

SSS

OCR, Optik Karakter Tanıma anlamına gelir. Her sayfa görüntüsünün piksel içeriğini analiz ederek ve büyük metin örnekleri üzerinde eğitilmiş örüntü tanıma modelleri kullanarak karakter şekillerini tanıyarak çalışır. Tanınan karakterler kelimeler ve satırlar halinde bir araya getirilir. Bu araç, tarayıcında WebAssembly modülü olarak çalışan Tesseract'ı kullanır; dolayısıyla işlem sırasında hiçbir dosya herhangi bir sunucuya yüklenmez.

Hayır. OCR motoru, tarayıcında tamamen bir WebAssembly modülü olarak çalışır. Dosyan, tarayıcının File API'si tarafından yerel olarak okunur ve cihazında işlenir. Hiçbir aşamada herhangi bir sunucuya veri iletilmez.

Taranmış bir PDF, fiziksel bir sayfanın fotoğraflanması veya taranmasıyla oluşturulur. Sonuç, altta yatan herhangi bir metin verisi olmayan bir raster görüntüdür - piksellerden oluşan bir ızgara. PDF görüntüleyiciler görüntüyü doğru şekilde render eder, bu yüzden normal bir belge gibi görünür; ancak görüntüleyicinin arayabileceği veya seçebileceği bir metin katmanı yoktur. OCR, piksel içeriğini okuyarak karakterleri tanır ve tanınan içerikten seçilebilir metin üretir.

OCR öncelikli olarak basılı veya yazılı metin için tasarlanmıştır ve el yazısı için güvenilir değildir. El yazısı karakterler, kişiden kişiye şekil, boyut, aralık ve eğim açısından önemli ölçüde farklılık gösterir; bu da basılı fontlara kıyasla doğru tanımayı çok daha zorlaştırır. Araç, özellikle yazı düzgün ve tutarlıysa bazı el yazısı kelimeleri doğru şekilde çıkarabilir; ancak el yazısı belgelerde doğruluk genellikle düşüktür.

Önce taranmış PDF'i OCR aracından geçirerek metni çıkar. Ardından çıkarılan metni al ve orijinal taranmış dosyada PDF'den Word'e aracını kullan ya da çıkarılan metni doğrudan bir Word belgesine yapıştır. PDF'den Word'e dönüştürücü, metin tabanlı PDF'lerde en iyi sonucu verir - önce OCR çalıştırmak, ihtiyacın olan ham metin içeriğini sağlar.

Hayır. Bu araç tanınan metni çıkarır ve düz bir .txt dosyası ya da pano kopyası olarak sunar. Orijinal PDF'i hiçbir şekilde değiştirmez. PDF dosyasının kendisi değişmeden kalır - yalnızca çıkarılan metin çıktı olarak döndürülür.

Araç 19 dili destekler: İngilizce, Almanca, Fransızca, İspanyolca, Portekizce, İtalyanca, Lehçe, Rusça, Türkçe, Japonca, Korece, Çince (Basitleştirilmiş ve Geleneksel), Arapça, Hintçe, Endonezce, Malayca, Vietnamca ve Tayca. İşlemden önce açılır menüden belgenin dilini seç. Tesseract, seçilen dile ait dile özgü eğitilmiş veri modelini yükler; bu da yanlış dil ayarı kullanmaya kıyasla tanıma doğruluğunu önemli ölçüde artırır.

Evet. Araç, sayfalar alanını kullanarak hangi sayfaların işleneceğini belirtmene olanak tanır. Tek tek sayfa numaralarını virgülle ayırarak ya da aralıkları tire kullanarak girebilirsin, örneğin 1, 3, 5-7. Seçime dahil edilmeyen sayfalar atlanır. Bu özellik, yalnızca belirli sayfaların taranmış görüntü olduğu ve yalnızca o sayfalardan metin ihtiyacı duyduğun büyük belgeler için kullanışlıdır.

OCR doğruluğu, kaynak görüntünün kalitesine bağlıdır. Eksik veya hatalı metnin yaygın nedenleri arasında düşük tarama çözünürlüğü, eğik sayfalar, solmuş mürekkep, görüntüler veya filigranlarla örtüşen metin, alışılmadık fontlar ve yoğun JPEG sıkıştırma artifaktları sayılabilir. Metin ile arka plan arasında iyi kontrast sağlanarak 300 DPI veya daha yüksek çözünürlükte tarama yapmak en doğru sonuçları verir. Tanıma kalitesi düşükse, OCR çalıştırmadan önce orijinal belgeyi daha yüksek çözünürlükte yeniden taramak çıktıyı önemli ölçüde iyileştirir.

Evet. Araç, PDF'e ek olarak JPG, PNG, GIF ve WebP görüntü dosyalarını da kabul eder. Bir görüntü yüklediğinde, Tesseract onu doğrudan işler ve tanınan metni çıkarır. Bu özellik, belge fotoğraflarından, ekran görüntülerinden veya PDF yerine görüntü olarak kaydedilmiş taranmış sayfalardan metin çıkarmak için kullanışlıdır.