فناوری اطلاعات قهستان

مطالب جذاب و متنوع از دنیای بی‌کران ارتباطات و فناوری اطلاعات

فناوری اطلاعات قهستان

مطالب جذاب و متنوع از دنیای بی‌کران ارتباطات و فناوری اطلاعات

فناوری اطلاعات قهستان

طبقه بندی موضوعی
چهارشنبه, ۲۳ ارديبهشت ۱۳۹۴، ۰۸:۵۵ ب.ظ

گوگل و یک برنامه کارای تبدیل عکس به متن فارسی OCR

ocr فارسیبسیاری از موارد ما نیاز پیدا می‌کنیم که یک فایل گرافیکی را به متن تبدیل کنیم:

– دانشجو هستیم و لازم می‌شود ده – بیست صفحه از کتاب مرجع فارسی را به صورت تایپ‌شده داشته باشیم.

– محقق هستیم و لازم می‌شود به سرعت تایپ‌شده ده‌ها کتاب و مقاله را داشته باشیم، تا در فصت بعدی روی آنها تحقیق کنیم و ویرایش‌شان کنیم.

– یک کتاب و مجله قدیمی داریم و دوست داریم، این کتاب را در محیط اینترنت با دیگران به اشتراک بگذاریم...

در همه این موارد نیاز به دسته‌ای از نرم‌افزارها پیدا می‌شود به نام OCR یا Optical Character Recognition که به سرعت، یک فایل گرافیکی را هوشمندانه به متن تبدیل کند و ما را از مشقت تایپ کُند رها کند.

گرچه سالهاست که OCRهای خوب به زبان انگلیسی و نیز تعداد قابل توجهی از زبان‌های دیگر در دسترس بودند، اما به جرأت می‌توانم بگویم که هیچ OCR خوبی به زبان فارسی در دسترس نبود.

من شخصا با زحمت زیاد چند OCR گران‌قیمت به زبان فارسی را تهیه کرده‌ام و باید بگویم که نتایج آنها واقعا وحشتناک بودند! تعداد قابل توجهی آنها در واقع تنها از هسته OCRهای مشهور مثل Readiris استفاده می‌کردند و با یک رابط کاربری جدید، سعی می‌کردند که بقبولانند کار جدیدی در عرصه OCR انجام داده‌اند.

غالبا فایل متنی که این OCRها ارائه می‌دادند، آنقدر پراشتباه بود که  شما راحت‌تر بودید که خودتان متن را تایپ کنید تا اینکه متن را به آنها بسپارید.

اما ششم ماه می – یعنی ۴ روز پیش- روز خوبی برای ما ایرانی‌ها و نیز شهروندان ده‌ها کشور دیگر دنیا بود. چرا؟

چون گوگل اعلام کرد که ویژگی OCR را برای ۲۰۰ زبان دنیا به گوگل درایو خود افزوده است!

یعنی الان شما می‌توانید یک فایل تصویری یا یک PDF اسکن شده به زبان فارسی را در گوگل درایو آپلود کنید و بعد از مدتی، فایل متنی فارسی، آن را با میزان دقت بسیار خوب و حداقل اشتباه دریافت کنید.

پیداست که اگر وضوح اسکن یا عکس شما خیلی پایین باشد، OCR گوگل نمی‌تواند معجزه کند. اما طبق آزمایش من، OCR گوگل در وضوح‌هایی که OCRهای روتین، معمولا اشتباهات خیلی زیاد داشتند، به راحتی می‌تواند کار کند.

کار با OCR گوگل آسان است:

۱- به گوگل درایو خود بروید و فایل مورد نظر را آپلود کنید.

۲- بعد از مدتی در کنار فایل آپلود شده اصلی، یک فایل متنی با اسم مشابه ایجاد می‌شود.

۳- روی این فایل راست کلیک کنید و از open with، گزینه google docs را انتخاب کنید و فایل متنی را دریافت کنید.

البته باید خاطرنشان کنم که متن‌های ایجادشده با این روش هنوز به ویرایش نهایی کاربر نیاز دارند. گاهی هم اختلالاتی مثل از قلم افتادن برخی از سطرها هنگام تبدیل به متن مشاهده می‌شوند.

گاهی هم اگر پشت‌زمینه متن رنگی باشد، نتایج بسیار عجیب و غریب می‌شوند.

به نظر می‌رسد که اگر وضوح اسکن یا عکس‌های دریافتی در حد متوسط باشند، دقت OCR گوگل بسیار قابل توجه است.

نظرات  (۰)

هیچ نظری هنوز ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.