What is OCR and how does it work?

OCR stands for Optical Character Recognition. It works by analyzing the pixel content of each page image and identifying character shapes using pattern recognition models trained on large sets of text samples. The recognized characters are assembled into words and lines. This tool uses Tesseract running as a WebAssembly module in your browser, so no file is uploaded to any server during the process.

Is my file uploaded to a server for OCR?

No. The OCR engine runs entirely in your browser as a WebAssembly module. Your file is read locally by the browser File API and processed on your device. No data is transmitted to any server at any point.

Why is my scanned PDF not searchable?

A scanned PDF is created by photographing or scanning a physical page. The result is a raster image with no underlying text data. PDF viewers render the image correctly so it looks like a normal document, but there is no text layer for the viewer to search or select. OCR reads the pixel content and identifies the characters, producing selectable text from the recognized content.

Can OCR recognize handwritten text?

OCR is primarily designed for printed or typed text and is not reliable for handwriting. Handwritten characters vary significantly between individuals in shape, size, spacing, and slant, which makes accurate recognition much harder than for printed fonts. The tool may extract some handwritten words correctly, particularly if the writing is neat and consistent, but accuracy on handwritten documents is generally low.

How do I convert a scanned PDF to Word?

Run the scanned PDF through the OCR tool first to extract the text. Then take that extracted text and use the PDF to Word tool on the original scanned file, or paste the extracted text directly into a Word document. The PDF to Word converter works best on text-based PDFs - running OCR first gives you the raw text content you need.

Does OCR change the appearance of my PDF?

No. This tool extracts the recognized text and delivers it as a plain .txt file or clipboard copy. It does not modify the original PDF in any way. The PDF file itself is unchanged - only the extracted text is returned as output.

What languages does the OCR tool support?

The tool supports 19 languages: English, German, French, Spanish, Portuguese, Italian, Polish, Russian, Turkish, Japanese, Korean, Chinese (Simplified and Traditional), Arabic, Hindi, Indonesian, Malay, Vietnamese, and Thai. Select the language of your document from the dropdown before processing. Tesseract loads the language-specific trained data model, which significantly improves recognition accuracy compared to using the wrong language setting.

Can I run OCR on just some pages of a PDF?

Yes. The tool lets you specify which pages to process using the pages field. Enter individual page numbers separated by commas, or ranges using a hyphen, for example 1, 3, 5-7. Pages not included in the selection are skipped. This is useful for large documents where only certain pages are scanned images and you only need text from those specific pages.

Why is the OCR output missing some words or characters?

OCR accuracy depends on the quality of the source image. Common causes of missing or incorrect text include low scan resolution, skewed pages, faded ink, text that overlaps with images or watermarks, unusual fonts, and heavy JPEG compression artifacts. Scanning at 300 DPI or higher with good contrast between text and background produces the most accurate results. If recognition quality is poor, rescanning the original document at higher resolution before running OCR will give significantly better output.

Can I use OCR on an image file instead of a PDF?

Yes. The tool accepts JPG, PNG, GIF, and WebP image files in addition to PDF. When you upload an image, Tesseract processes it directly and extracts the recognized text. This is useful for extracting text from photographs of documents, screenshots, or scanned pages that were saved as images rather than PDFs.

العودة إلى الأدوات

تعرّف على النص عبر OCR

استخرج النص من ملفات PDF الممسوحة ضوئياً والصور باستخدام التعرف الضوئي على الحروف.

ارفع ملف PDF ممسوح ضوئياً أو صورة لاستخراج النص. تتم المعالجة بالكامل في متصفحك.

أسقط ملف PDF أو صورة هنا أو انقر للتصفح

حدد ملف PDF أو صورة (JPG، PNG، إلخ) لاستخراج النص

استخراج النص من أي PDF - أداة OCR مجانية

ملفات PDF الممسوحة ضوئيًا والمستندات المبنية على الصور تبدو كملفات عادية، لكنها لا تحتوي على طبقة نص قابلة للقراءة - فهي في الأساس صور فوتوغرافية للصفحات. تقوم أداة OCR PDF الخاصة بنا بتحليل صورة كل صفحة والتعرف على الأحرف باستخدام Tesseract، ثم تسليم النص المستخرج كملف نص عادي يمكنك نسخه أو تعديله أو لصقه في أدوات أخرى. تعمل المعالجة بالكامل في متصفحك باستخدام WebAssembly build لمحرك OCR - ولا يغادر ملفك جهازك أبدًا.

ما الذي يفعله OCR ومتى تحتاجه

OCR اختصار لـ Optical Character Recognition (التعرف الضوئي على الأحرف). عندما يُمسح مستند ضوئيًا أو يُصوَّر أو يُصدَّر من نظام يُحوِّل الصفحات إلى صور raster، فإن ملف PDF الناتج لا يحتوي على بيانات نصية - بل فقط صور pixel للأحرف. تعرض برامج قراءة PDF هذه الملفات بشكل صحيح، لكن لا يمكنك تحديد النص أو استخدام Ctrl+F للبحث أو نسخ جملة. يحل OCR هذه المشكلة من خلال فحص الأشكال المرئية في كل صفحة وتحديد الأحرف التي تمثلها.

تحتاج إلى OCR عندما:

لديك عقد أو فاتورة أو نموذج ممسوح ضوئيًا وتحتاج إلى نسخ النص منه
تم إنشاء ملف PDF الخاص بك من صورة فوتوغرافية أو فاكس وهو غير قابل للبحث
تريد استخراج النص من مستند ممسوح ضوئيًا قبل تحويله باستخدام أداة PDF إلى Word
تحتاج إلى جعل المستندات المؤرشفة قابلة للبحث لأغراض الامتثال أو حفظ السجلات
تلقيت ملف PDF يظهر فيه النص كصورة ولا يمكن تحديده

كيف تعمل أداة OCR لدينا

رفع ملفك - اسحب وأفلت ملف PDF ممسوحًا ضوئيًا أو ملف صورة (JPG أو PNG أو WebP). يقرأ المتصفح الملف محليًا ولا يُرسَل إلى أي server.
اختيار اللغة - اختر لغة نص المستند. يقوم Tesseract بتحميل نموذج الأحرف المدرَّب المقابل لتلك اللغة لتحسين دقة التعرف.
اختيار الصفحات - معالجة المستند كاملًا أو تحديد صفحات أو نطاقات بعينها.
تشغيل OCR - يحلل Tesseract صورة كل صفحة في متصفحك باستخدام WebAssembly ويستخرج النص المتعرَّف عليه.
تنزيل النتائج - احفظ النص المستخرج كملف .txt عادي أو انسخه مباشرة إلى clipboard. لتعديل المحتوى كمستند، الصق النص في محرر PDF أو استخدمه كمصدر لـ محوِّل PDF إلى Word بعد تشغيل OCR على الملف الممسوح ضوئيًا الأصلي.

ما الذي يؤثر على دقة OCR

تعتمد دقة OCR على جودة المستند المصدر. تُنتج عمليات المسح عالية الدقة التي تحتوي على نص واضح وداكن على خلفية بيضاء أفضل النتائج. تشمل العوامل الشائعة التي تقلل الدقة: انخفاض دقة المسح، والصفحات المائلة أو المدورة، والنص المكتوب بخط اليد، والخطوط الزخرفية، والخلفيات الملونة، والعلامات المائية المتداخلة مع النص، وتشوهات ضغط JPEG الشديدة. كما أن اختيار اللغة الصحيحة قبل المعالجة يُحدث فارقًا كبيرًا، إذ يستخدم Tesseract نماذج أحرف وكلمات خاصة بكل لغة لحل الأحرف الغامضة.

إذا أردت معرفة المزيد عن كيفية عمل تقنية OCR وأفضل الطرق للتعامل مع المستندات الممسوحة ضوئيًا، فإن مقالة المدونة حول OCR لملفات PDF تغطي التقنيات الأساسية ومتى تستخدمها بلغة واضحة وبسيطة.

الأسئلة الشائعة

OCR اختصار لـ Optical Character Recognition. يعمل عن طريق تحليل محتوى الـ pixel لصورة كل صفحة وتحديد أشكال الأحرف باستخدام نماذج pattern recognition مدرَّبة على مجموعات كبيرة من نماذج النصوص. تُجمَّع الأحرف المتعرَّف عليها لتكوين كلمات وأسطر. تستخدم هذه الأداة Tesseract يعمل كـ WebAssembly module في متصفحك، لذا لا يُرفع أي ملف إلى أي server أثناء العملية.

لا. يعمل محرك OCR بالكامل في متصفحك كـ WebAssembly module. يقرأ المتصفح ملفك محليًا عبر File API ويعالجه على جهازك. لا تُنقل أي بيانات إلى أي server في أي وقت.

يُنشأ ملف PDF الممسوح ضوئيًا عن طريق تصوير أو مسح صفحة مادية. والنتيجة هي صورة raster - شبكة من الـ pixels - بدون أي بيانات نصية مضمَّنة. تعرض برامج قراءة PDF الصورة بشكل صحيح فتبدو كمستند عادي، لكن لا توجد طبقة نص يمكن للبرنامج البحث فيها أو تحديدها. يقرأ OCR محتوى الـ pixel ويحدد الأحرف، مما يُنتج نصًا قابلًا للتحديد من المحتوى المتعرَّف عليه.

صُمِّم OCR أساسًا للنصوص المطبوعة أو المكتوبة على الآلة الكاتبة وليس موثوقًا للتعرف على خط اليد. تتباين الأحرف المكتوبة بخط اليد بشكل كبير بين الأفراد من حيث الشكل والحجم والمسافات والميل، مما يجعل التعرف الدقيق عليها أصعب بكثير من الخطوط المطبوعة. قد تستخرج الأداة بعض الكلمات المكتوبة بخط اليد بشكل صحيح، خاصة إذا كانت الكتابة أنيقة ومتسقة، لكن الدقة على المستندات المكتوبة بخط اليد تكون منخفضة بشكل عام.

شغِّل ملف PDF الممسوح ضوئيًا أولًا عبر أداة OCR لاستخراج النص. ثم خذ النص المستخرج واستخدم أداة PDF إلى Word على الملف الممسوح الأصلي، أو الصق النص المستخرج مباشرة في مستند Word. يعمل محوِّل PDF إلى Word بشكل أفضل على ملفات PDF المبنية على النص - وتشغيل OCR أولًا يمنحك محتوى النص الخام الذي تحتاجه.

لا. تستخرج هذه الأداة النص المتعرَّف عليه وتسلِّمه كملف .txt عادي أو نسخة إلى clipboard. لا تُعدِّل ملف PDF الأصلي بأي شكل. يبقى ملف PDF كما هو دون تغيير - والناتج الوحيد هو النص المستخرج.

تدعم الأداة 19 لغة: الإنجليزية والألمانية والفرنسية والإسبانية والبرتغالية والإيطالية والبولندية والروسية والتركية واليابانية والكورية والصينية (المبسطة والتقليدية) والعربية والهندية والإندونيسية والملايوية والفيتنامية والتايلاندية. اختر لغة مستندك من القائمة المنسدلة قبل المعالجة. يقوم Tesseract بتحميل نموذج البيانات المدرَّب الخاص باللغة المختارة، مما يُحسِّن دقة التعرف بشكل ملحوظ مقارنةً باستخدام إعداد لغة خاطئ.

نعم. تتيح لك الأداة تحديد الصفحات التي تريد معالجتها باستخدام حقل الصفحات. أدخل أرقام الصفحات الفردية مفصولة بفواصل، أو نطاقات باستخدام واصلة، مثلًا 1, 3, 5-7. تُتخطى الصفحات غير المضمَّنة في التحديد. هذا مفيد للمستندات الكبيرة التي تكون فيها صفحات معينة فقط عبارة عن صور ممسوحة وتحتاج إلى نص من تلك الصفحات تحديدًا.

تعتمد دقة OCR على جودة الصورة المصدر. تشمل الأسباب الشائعة للنص المفقود أو الخاطئ: انخفاض دقة المسح، والصفحات المائلة، والحبر الباهت، والنص المتداخل مع الصور أو العلامات المائية، والخطوط غير المعتادة، وتشوهات ضغط JPEG الشديدة. يُنتج المسح بدقة 300 DPI أو أعلى مع تباين جيد بين النص والخلفية أكثر النتائج دقة. إذا كانت جودة التعرف ضعيفة، فإن إعادة مسح المستند الأصلي بدقة أعلى قبل تشغيل OCR سيُعطي ناتجًا أفضل بكثير.

نعم. تقبل الأداة ملفات صور JPG وPNG وGIF وWebP إضافة إلى PDF. عند رفع صورة، يعالجها Tesseract مباشرة ويستخرج النص المتعرَّف عليه. هذا مفيد لاستخراج النص من صور المستندات الفوتوغرافية أو screenshots أو الصفحات الممسوحة ضوئيًا التي حُفظت كصور بدلًا من ملفات PDF.

Edit & Organize

Optimize

الأمان

Convert & Images