What is OCR and how does it work?

OCR stands for Optical Character Recognition. It works by analyzing the pixel content of each page image and identifying character shapes using pattern recognition models trained on large sets of text samples. The recognized characters are assembled into words and lines. This tool uses Tesseract running as a WebAssembly module in your browser, so no file is uploaded to any server during the process.

Is my file uploaded to a server for OCR?

No. The OCR engine runs entirely in your browser as a WebAssembly module. Your file is read locally by the browser File API and processed on your device. No data is transmitted to any server at any point.

Why is my scanned PDF not searchable?

A scanned PDF is created by photographing or scanning a physical page. The result is a raster image with no underlying text data. PDF viewers render the image correctly so it looks like a normal document, but there is no text layer for the viewer to search or select. OCR reads the pixel content and identifies the characters, producing selectable text from the recognized content.

Can OCR recognize handwritten text?

OCR is primarily designed for printed or typed text and is not reliable for handwriting. Handwritten characters vary significantly between individuals in shape, size, spacing, and slant, which makes accurate recognition much harder than for printed fonts. The tool may extract some handwritten words correctly, particularly if the writing is neat and consistent, but accuracy on handwritten documents is generally low.

How do I convert a scanned PDF to Word?

Run the scanned PDF through the OCR tool first to extract the text. Then take that extracted text and use the PDF to Word tool on the original scanned file, or paste the extracted text directly into a Word document. The PDF to Word converter works best on text-based PDFs - running OCR first gives you the raw text content you need.

Does OCR change the appearance of my PDF?

No. This tool extracts the recognized text and delivers it as a plain .txt file or clipboard copy. It does not modify the original PDF in any way. The PDF file itself is unchanged - only the extracted text is returned as output.

What languages does the OCR tool support?

The tool supports 19 languages: English, German, French, Spanish, Portuguese, Italian, Polish, Russian, Turkish, Japanese, Korean, Chinese (Simplified and Traditional), Arabic, Hindi, Indonesian, Malay, Vietnamese, and Thai. Select the language of your document from the dropdown before processing. Tesseract loads the language-specific trained data model, which significantly improves recognition accuracy compared to using the wrong language setting.

Can I run OCR on just some pages of a PDF?

Yes. The tool lets you specify which pages to process using the pages field. Enter individual page numbers separated by commas, or ranges using a hyphen, for example 1, 3, 5-7. Pages not included in the selection are skipped. This is useful for large documents where only certain pages are scanned images and you only need text from those specific pages.

Why is the OCR output missing some words or characters?

OCR accuracy depends on the quality of the source image. Common causes of missing or incorrect text include low scan resolution, skewed pages, faded ink, text that overlaps with images or watermarks, unusual fonts, and heavy JPEG compression artifacts. Scanning at 300 DPI or higher with good contrast between text and background produces the most accurate results. If recognition quality is poor, rescanning the original document at higher resolution before running OCR will give significantly better output.

Can I use OCR on an image file instead of a PDF?

Yes. The tool accepts JPG, PNG, GIF, and WebP image files in addition to PDF. When you upload an image, Tesseract processes it directly and extracts the recognized text. This is useful for extracting text from photographs of documents, screenshots, or scanned pages that were saved as images rather than PDFs.

Kembali ke Tool

Kenali Teks via OCR

Ekstrak teks dari PDF hasil scan dan gambar menggunakan pengenalan karakter optik.

Upload PDF hasil scan atau gambar untuk mengekstrak teks. Pemrosesan sepenuhnya terjadi di browser kamu.

Letakkan file PDF atau gambar di sini atau klik untuk memilih

Pilih file PDF atau gambar (JPG, PNG, dll.) untuk mengekstrak teks

Ekstrak Teks dari PDF Apa Pun - Tool OCR Gratis

PDF hasil scan dan dokumen berbasis gambar terlihat seperti file biasa, tapi sebenarnya tidak memiliki layer teks yang bisa dibaca - isinya hanyalah foto dari halaman tersebut. Tool OCR PDF kami menganalisis setiap gambar halaman dan mengenali karakter menggunakan Tesseract, lalu menghasilkan teks yang diekstrak sebagai file teks biasa yang bisa kamu salin, edit, atau tempelkan ke tool lain. Pemrosesan berjalan sepenuhnya di browser kamu menggunakan build WebAssembly dari OCR engine - file kamu tidak pernah meninggalkan perangkatmu.

Apa Itu OCR dan Kapan Kamu Membutuhkannya

OCR adalah singkatan dari Optical Character Recognition. Ketika sebuah dokumen di-scan, difoto, atau diekspor dari sistem yang melakukan rasterisasi halaman, PDF yang dihasilkan tidak memiliki data teks - hanya gambar pixel dari huruf-huruf tersebut. PDF viewer menampilkan file ini dengan benar, tapi kamu tidak bisa memilih teks, menggunakan Ctrl+F untuk mencari, atau menyalin sebuah kalimat. OCR mengatasi hal ini dengan memeriksa bentuk visual di setiap halaman dan mengidentifikasi karakter yang diwakilinya.

Kamu membutuhkan OCR ketika:

Kamu punya kontrak, invoice, atau formulir hasil scan dan perlu menyalin teks darinya
PDF kamu dibuat dari foto atau faks dan tidak bisa dicari
Kamu ingin mengekstrak teks dari dokumen hasil scan sebelum mengonversinya dengan tool PDF to Word
Kamu perlu membuat dokumen arsip bisa dicari untuk keperluan compliance atau pencatatan
Kamu menerima PDF di mana teksnya muncul sebagai gambar dan tidak bisa dipilih

Cara Kerja Tool OCR Kami

Upload file kamu - seret PDF hasil scan atau file gambar (JPG, PNG, WebP). File dibaca secara lokal oleh browser kamu dan tidak pernah dikirim ke server mana pun.
Pilih bahasa - pilih bahasa teks dokumen. Tesseract akan memuat model karakter terlatih yang sesuai untuk bahasa tersebut guna meningkatkan akurasi pengenalan.
Pilih halaman - proses seluruh dokumen atau tentukan halaman atau rentang halaman tertentu.
Jalankan OCR - Tesseract menganalisis setiap gambar halaman di browser kamu menggunakan WebAssembly dan mengekstrak teks yang dikenali.
Unduh hasilnya - simpan teks yang diekstrak sebagai file .txt biasa atau salin langsung ke clipboard kamu. Untuk mengedit kontennya sebagai dokumen, tempelkan teks ke PDF editor atau gunakan sebagai sumber untuk PDF to Word converter setelah menjalankan OCR pada file scan aslinya.

Faktor yang Mempengaruhi Akurasi OCR

Akurasi OCR bergantung pada kualitas dokumen sumber. Scan resolusi tinggi dengan teks yang jelas dan gelap di atas latar putih menghasilkan hasil terbaik. Faktor umum yang mengurangi akurasi antara lain resolusi scan yang rendah, halaman yang miring atau berputar, teks tulisan tangan, font dekoratif, latar berwarna, watermark yang tumpang tindih dengan teks, dan artefak kompresi yang berat. Memilih bahasa yang tepat sebelum memproses juga membuat perbedaan yang signifikan, karena Tesseract menggunakan model karakter dan kata yang spesifik per bahasa untuk menyelesaikan karakter yang ambigu.

Jika kamu ingin mempelajari lebih lanjut tentang cara kerja teknologi OCR dan cara terbaik menangani dokumen hasil scan, artikel blog kami tentang OCR untuk file PDF membahas teknik-teknik utama dan kapan menggunakannya dalam bahasa yang mudah dipahami.

FAQ

OCR adalah singkatan dari Optical Character Recognition. Cara kerjanya adalah dengan menganalisis konten pixel dari setiap gambar halaman dan mengidentifikasi bentuk karakter menggunakan model pattern recognition yang dilatih pada kumpulan besar sampel teks. Karakter yang dikenali kemudian disusun menjadi kata-kata dan baris. Tool ini menggunakan Tesseract yang berjalan sebagai modul WebAssembly di browser kamu, sehingga tidak ada file yang diupload ke server mana pun selama proses berlangsung.

Tidak. OCR engine berjalan sepenuhnya di browser kamu sebagai modul WebAssembly. File kamu dibaca secara lokal oleh browser File API dan diproses di perangkatmu. Tidak ada data yang dikirimkan ke server mana pun kapan pun.

PDF hasil scan dibuat dengan memfoto atau men-scan halaman fisik. Hasilnya adalah gambar raster - kumpulan pixel - tanpa data teks di dalamnya. PDF viewer merender gambar tersebut dengan benar sehingga terlihat seperti dokumen biasa, tapi tidak ada layer teks yang bisa dicari atau dipilih oleh viewer. OCR membaca konten pixel dan mengidentifikasi karakternya, menghasilkan teks yang bisa dipilih dari konten yang dikenali.

OCR terutama dirancang untuk teks cetak atau ketik dan tidak dapat diandalkan untuk tulisan tangan. Karakter tulisan tangan sangat bervariasi antar individu dalam hal bentuk, ukuran, spasi, dan kemiringan, yang membuat pengenalan yang akurat jauh lebih sulit dibandingkan font cetak. Tool ini mungkin bisa mengekstrak beberapa kata tulisan tangan dengan benar, terutama jika tulisannya rapi dan konsisten, tapi akurasi pada dokumen tulisan tangan umumnya rendah.

Jalankan PDF hasil scan melalui tool OCR terlebih dahulu untuk mengekstrak teksnya. Kemudian ambil teks yang diekstrak tersebut dan gunakan tool PDF to Word pada file scan aslinya, atau tempelkan teks yang diekstrak langsung ke dokumen Word. PDF to Word converter bekerja paling baik pada PDF berbasis teks - menjalankan OCR terlebih dahulu memberi kamu konten teks mentah yang kamu butuhkan.

Tidak. Tool ini mengekstrak teks yang dikenali dan menghasilkannya sebagai file .txt biasa atau salinan clipboard. Tool ini tidak memodifikasi PDF asli dengan cara apa pun. File PDF itu sendiri tidak berubah - hanya teks yang diekstrak yang dikembalikan sebagai output.

Tool ini mendukung 19 bahasa: Inggris, Jerman, Prancis, Spanyol, Portugis, Italia, Polandia, Rusia, Turki, Jepang, Korea, Cina (Sederhana dan Tradisional), Arab, Hindi, Indonesia, Melayu, Vietnam, dan Thai. Pilih bahasa dokumen kamu dari dropdown sebelum memproses. Tesseract memuat model data terlatih yang spesifik per bahasa untuk bahasa yang dipilih, yang secara signifikan meningkatkan akurasi pengenalan dibandingkan menggunakan pengaturan bahasa yang salah.

Bisa. Tool ini memungkinkan kamu menentukan halaman mana yang akan diproses menggunakan field halaman. Masukkan nomor halaman individual yang dipisahkan dengan koma, atau rentang menggunakan tanda hubung, misalnya 1, 3, 5-7. Halaman yang tidak termasuk dalam seleksi akan dilewati. Ini berguna untuk dokumen besar di mana hanya halaman tertentu yang merupakan gambar hasil scan dan kamu hanya membutuhkan teks dari halaman-halaman tersebut.

Akurasi OCR bergantung pada kualitas gambar sumber. Penyebab umum teks yang hilang atau salah antara lain resolusi scan yang rendah, halaman yang miring, tinta yang pudar, teks yang tumpang tindih dengan gambar atau watermark, font yang tidak biasa, dan artefak kompresi JPEG yang berat. Scanning pada 300 DPI atau lebih tinggi dengan kontras yang baik antara teks dan latar belakang menghasilkan hasil yang paling akurat. Jika kualitas pengenalan buruk, men-scan ulang dokumen asli pada resolusi yang lebih tinggi sebelum menjalankan OCR akan memberikan output yang jauh lebih baik.

Bisa. Tool ini menerima file gambar JPG, PNG, GIF, dan WebP selain PDF. Ketika kamu mengupload gambar, Tesseract memprosesnya secara langsung dan mengekstrak teks yang dikenali. Ini berguna untuk mengekstrak teks dari foto dokumen, screenshot, atau halaman hasil scan yang disimpan sebagai gambar dan bukan PDF.

Edit & Organize

Optimize

Keamanan

Convert & Images

More Tools

Kenali Teks via OCR

Ekstrak Teks dari PDF Apa Pun - Tool OCR Gratis

Apa Itu OCR dan Kapan Kamu Membutuhkannya

Cara Kerja Tool OCR Kami

Faktor yang Mempengaruhi Akurasi OCR

FAQ