What is OCR and how does it work?

OCR stands for Optical Character Recognition. It works by analyzing the pixel content of each page image and identifying character shapes using pattern recognition models trained on large sets of text samples. The recognized characters are assembled into words and lines. This tool uses Tesseract running as a WebAssembly module in your browser, so no file is uploaded to any server during the process.

Is my file uploaded to a server for OCR?

No. The OCR engine runs entirely in your browser as a WebAssembly module. Your file is read locally by the browser File API and processed on your device. No data is transmitted to any server at any point.

Why is my scanned PDF not searchable?

A scanned PDF is created by photographing or scanning a physical page. The result is a raster image with no underlying text data. PDF viewers render the image correctly so it looks like a normal document, but there is no text layer for the viewer to search or select. OCR reads the pixel content and identifies the characters, producing selectable text from the recognized content.

Can OCR recognize handwritten text?

OCR is primarily designed for printed or typed text and is not reliable for handwriting. Handwritten characters vary significantly between individuals in shape, size, spacing, and slant, which makes accurate recognition much harder than for printed fonts. The tool may extract some handwritten words correctly, particularly if the writing is neat and consistent, but accuracy on handwritten documents is generally low.

How do I convert a scanned PDF to Word?

Run the scanned PDF through the OCR tool first to extract the text. Then take that extracted text and use the PDF to Word tool on the original scanned file, or paste the extracted text directly into a Word document. The PDF to Word converter works best on text-based PDFs - running OCR first gives you the raw text content you need.

Does OCR change the appearance of my PDF?

No. This tool extracts the recognized text and delivers it as a plain .txt file or clipboard copy. It does not modify the original PDF in any way. The PDF file itself is unchanged - only the extracted text is returned as output.

What languages does the OCR tool support?

The tool supports 19 languages: English, German, French, Spanish, Portuguese, Italian, Polish, Russian, Turkish, Japanese, Korean, Chinese (Simplified and Traditional), Arabic, Hindi, Indonesian, Malay, Vietnamese, and Thai. Select the language of your document from the dropdown before processing. Tesseract loads the language-specific trained data model, which significantly improves recognition accuracy compared to using the wrong language setting.

Can I run OCR on just some pages of a PDF?

Yes. The tool lets you specify which pages to process using the pages field. Enter individual page numbers separated by commas, or ranges using a hyphen, for example 1, 3, 5-7. Pages not included in the selection are skipped. This is useful for large documents where only certain pages are scanned images and you only need text from those specific pages.

Why is the OCR output missing some words or characters?

OCR accuracy depends on the quality of the source image. Common causes of missing or incorrect text include low scan resolution, skewed pages, faded ink, text that overlaps with images or watermarks, unusual fonts, and heavy JPEG compression artifacts. Scanning at 300 DPI or higher with good contrast between text and background produces the most accurate results. If recognition quality is poor, rescanning the original document at higher resolution before running OCR will give significantly better output.

Can I use OCR on an image file instead of a PDF?

Yes. The tool accepts JPG, PNG, GIF, and WebP image files in addition to PDF. When you upload an image, Tesseract processes it directly and extracts the recognized text. This is useful for extracting text from photographs of documents, screenshots, or scanned pages that were saved as images rather than PDFs.

Araçlara Dön

OCR ile Metin Tanı

Optik karakter tanıma kullanarak taranmış PDF'lerden ve resimlerden metin çıkar.

Metin çıkarmak için taranmış bir PDF veya resim yükle. İşlem tamamen tarayıcında gerçekleşir.

PDF veya resim dosyasını buraya sürükle veya göz atmak için tıkla

Metin çıkarmak için bir PDF veya resim dosyası (JPG, PNG, vb.) seç

Herhangi Bir PDF'den Metin Çıkar - Ücretsiz OCR Aracı

Taranmış PDF'ler ve görüntü tabanlı belgeler normal dosyalar gibi görünür, ancak içlerinde okunabilir bir metin katmanı yoktur - bunlar aslında sayfaların fotoğraflarıdır. OCR PDF aracımız her sayfa görüntüsünü analiz eder ve Tesseract kullanarak karakterleri tanır, ardından çıkarılan metni kopyalayabileceğin, düzenleyebileceğin veya başka araçlara yapıştırabileceğin düz bir metin dosyası olarak sunar. İşlem, OCR motorunun WebAssembly derlemesi kullanılarak tamamen tarayıcında çalışır - dosyan hiçbir zaman cihazından çıkmaz.

OCR Ne Yapar ve Ne Zaman İhtiyaç Duyarsın?

OCR, Optik Karakter Tanıma anlamına gelir. Bir belge tarandığında, fotoğraflandığında veya sayfaları rasterize eden bir sistemden dışa aktarıldığında, ortaya çıkan PDF'de metin verisi bulunmaz - yalnızca harflerin piksel görüntüleri vardır. PDF görüntüleyiciler bu dosyaları doğru şekilde gösterir, ancak metin seçemez, arama yapmak için Ctrl+F kullanamazsın ya da bir cümleyi kopyalayamazsın. OCR, her sayfadaki görsel şekilleri inceleyerek hangi karakterleri temsil ettiklerini belirleyerek bu sorunu çözer.

Şu durumlarda OCR'a ihtiyaç duyarsın:

Taranmış bir sözleşmen, faturan veya formun var ve içindeki metni kopyalamak istiyorsun
PDF'in bir fotoğraf veya faks üzerinden oluşturulmuş ve aranabilir değil
PDF'den Word'e aracıyla dönüştürmeden önce taranmış bir belgeden metin çıkarmak istiyorsun
Uyumluluk veya kayıt tutma amacıyla arşivlenmiş belgeleri aranabilir hale getirmen gerekiyor
Metnin görüntü olarak göründüğü ve seçilemeyen bir PDF aldın

OCR Aracımız Nasıl Çalışır?

Dosyanı yükle - taranmış bir PDF veya görüntü dosyası (JPG, PNG, WebP) sürükle bırak. Dosya tarayıcın tarafından yerel olarak okunur ve hiçbir sunucuya gönderilmez.
Dil seç - belgedeki metnin dilini seç. Tesseract, tanıma doğruluğunu artırmak için o dile ait eğitilmiş karakter modelini yükler.
Sayfaları seç - tüm belgeyi işle veya belirli sayfaları ya da aralıkları belirt.
OCR'ı çalıştır - Tesseract, WebAssembly kullanarak tarayıcında her sayfa görüntüsünü analiz eder ve tanınan metni çıkarır.
Sonuçları indir - çıkarılan metni düz bir .txt dosyası olarak kaydet veya doğrudan panonuza kopyala. İçeriği bir belge olarak düzenlemek için metni PDF editörüne yapıştır ya da orijinal taranmış dosyada OCR çalıştırdıktan sonra PDF'den Word'e dönüştürücü için kaynak olarak kullan.

OCR Doğruluğunu Etkileyen Faktörler

OCR doğruluğu, kaynak belgenin kalitesine bağlıdır. Beyaz arka plan üzerinde net ve koyu metinle yapılan yüksek çözünürlüklü taramalar en iyi sonuçları verir. Doğruluğu düşüren yaygın faktörler arasında düşük tarama çözünürlüğü, eğik veya döndürülmüş sayfalar, el yazısı metin, dekoratif fontlar, renkli arka planlar, metnin üzerine binen filigranlar ve yoğun JPEG sıkıştırma artifaktları sayılabilir. İşlemden önce doğru dili seçmek de önemli bir fark yaratır; çünkü Tesseract, belirsiz karakterleri çözmek için dile özgü karakter ve kelime modelleri kullanır.

OCR teknolojisinin nasıl çalıştığı ve taranmış belgeleri yönetmenin en iyi yolları hakkında daha fazla bilgi edinmek istiyorsan, OCR hakkındaki blog makalemiz temel teknikleri ve ne zaman kullanılacağını sade bir dille ele alıyor.

SSS

OCR, Optik Karakter Tanıma anlamına gelir. Her sayfa görüntüsünün piksel içeriğini analiz ederek ve büyük metin örnekleri üzerinde eğitilmiş örüntü tanıma modelleri kullanarak karakter şekillerini tanıyarak çalışır. Tanınan karakterler kelimeler ve satırlar halinde bir araya getirilir. Bu araç, tarayıcında WebAssembly modülü olarak çalışan Tesseract'ı kullanır; dolayısıyla işlem sırasında hiçbir dosya herhangi bir sunucuya yüklenmez.

Hayır. OCR motoru, tarayıcında tamamen bir WebAssembly modülü olarak çalışır. Dosyan, tarayıcının File API'si tarafından yerel olarak okunur ve cihazında işlenir. Hiçbir aşamada herhangi bir sunucuya veri iletilmez.

Taranmış bir PDF, fiziksel bir sayfanın fotoğraflanması veya taranmasıyla oluşturulur. Sonuç, altta yatan herhangi bir metin verisi olmayan bir raster görüntüdür - piksellerden oluşan bir ızgara. PDF görüntüleyiciler görüntüyü doğru şekilde render eder, bu yüzden normal bir belge gibi görünür; ancak görüntüleyicinin arayabileceği veya seçebileceği bir metin katmanı yoktur. OCR, piksel içeriğini okuyarak karakterleri tanır ve tanınan içerikten seçilebilir metin üretir.

OCR öncelikli olarak basılı veya yazılı metin için tasarlanmıştır ve el yazısı için güvenilir değildir. El yazısı karakterler, kişiden kişiye şekil, boyut, aralık ve eğim açısından önemli ölçüde farklılık gösterir; bu da basılı fontlara kıyasla doğru tanımayı çok daha zorlaştırır. Araç, özellikle yazı düzgün ve tutarlıysa bazı el yazısı kelimeleri doğru şekilde çıkarabilir; ancak el yazısı belgelerde doğruluk genellikle düşüktür.

Önce taranmış PDF'i OCR aracından geçirerek metni çıkar. Ardından çıkarılan metni al ve orijinal taranmış dosyada PDF'den Word'e aracını kullan ya da çıkarılan metni doğrudan bir Word belgesine yapıştır. PDF'den Word'e dönüştürücü, metin tabanlı PDF'lerde en iyi sonucu verir - önce OCR çalıştırmak, ihtiyacın olan ham metin içeriğini sağlar.

Hayır. Bu araç tanınan metni çıkarır ve düz bir .txt dosyası ya da pano kopyası olarak sunar. Orijinal PDF'i hiçbir şekilde değiştirmez. PDF dosyasının kendisi değişmeden kalır - yalnızca çıkarılan metin çıktı olarak döndürülür.

Araç 19 dili destekler: İngilizce, Almanca, Fransızca, İspanyolca, Portekizce, İtalyanca, Lehçe, Rusça, Türkçe, Japonca, Korece, Çince (Basitleştirilmiş ve Geleneksel), Arapça, Hintçe, Endonezce, Malayca, Vietnamca ve Tayca. İşlemden önce açılır menüden belgenin dilini seç. Tesseract, seçilen dile ait dile özgü eğitilmiş veri modelini yükler; bu da yanlış dil ayarı kullanmaya kıyasla tanıma doğruluğunu önemli ölçüde artırır.

Evet. Araç, sayfalar alanını kullanarak hangi sayfaların işleneceğini belirtmene olanak tanır. Tek tek sayfa numaralarını virgülle ayırarak ya da aralıkları tire kullanarak girebilirsin, örneğin 1, 3, 5-7. Seçime dahil edilmeyen sayfalar atlanır. Bu özellik, yalnızca belirli sayfaların taranmış görüntü olduğu ve yalnızca o sayfalardan metin ihtiyacı duyduğun büyük belgeler için kullanışlıdır.

OCR doğruluğu, kaynak görüntünün kalitesine bağlıdır. Eksik veya hatalı metnin yaygın nedenleri arasında düşük tarama çözünürlüğü, eğik sayfalar, solmuş mürekkep, görüntüler veya filigranlarla örtüşen metin, alışılmadık fontlar ve yoğun JPEG sıkıştırma artifaktları sayılabilir. Metin ile arka plan arasında iyi kontrast sağlanarak 300 DPI veya daha yüksek çözünürlükte tarama yapmak en doğru sonuçları verir. Tanıma kalitesi düşükse, OCR çalıştırmadan önce orijinal belgeyi daha yüksek çözünürlükte yeniden taramak çıktıyı önemli ölçüde iyileştirir.

Evet. Araç, PDF'e ek olarak JPG, PNG, GIF ve WebP görüntü dosyalarını da kabul eder. Bir görüntü yüklediğinde, Tesseract onu doğrudan işler ve tanınan metni çıkarır. Bu özellik, belge fotoğraflarından, ekran görüntülerinden veya PDF yerine görüntü olarak kaydedilmiş taranmış sayfalardan metin çıkarmak için kullanışlıdır.

Edit & Organize

Optimize

Güvenlik

Convert & Images

More Tools

OCR ile Metin Tanı

Herhangi Bir PDF'den Metin Çıkar - Ücretsiz OCR Aracı

OCR Ne Yapar ve Ne Zaman İhtiyaç Duyarsın?

OCR Aracımız Nasıl Çalışır?

OCR Doğruluğunu Etkileyen Faktörler

SSS