گوگل و یک برنامه کارای تبدیل عکس به متن فارسی OCR
بسیاری از موارد ما نیاز پیدا میکنیم که یک فایل گرافیکی را به متن تبدیل کنیم:
– دانشجو هستیم و لازم میشود ده – بیست صفحه از کتاب مرجع فارسی را به صورت تایپشده داشته باشیم.
– محقق هستیم و لازم میشود به سرعت تایپشده دهها کتاب و مقاله را داشته باشیم، تا در فصت بعدی روی آنها تحقیق کنیم و ویرایششان کنیم.
– یک کتاب و مجله قدیمی داریم و دوست داریم، این کتاب را در محیط اینترنت با دیگران به اشتراک بگذاریم...
در همه این موارد نیاز به دستهای از نرمافزارها پیدا میشود به نام OCR یا Optical Character Recognition که به سرعت، یک فایل گرافیکی را هوشمندانه به متن تبدیل کند و ما را از مشقت تایپ کُند رها کند.
گرچه سالهاست که OCRهای خوب به زبان انگلیسی و نیز تعداد قابل توجهی از زبانهای دیگر در دسترس بودند، اما به جرأت میتوانم بگویم که هیچ OCR خوبی به زبان فارسی در دسترس نبود.
من شخصا با زحمت زیاد چند OCR گرانقیمت به زبان فارسی را تهیه کردهام و باید بگویم که نتایج آنها واقعا وحشتناک بودند! تعداد قابل توجهی آنها در واقع تنها از هسته OCRهای مشهور مثل Readiris استفاده میکردند و با یک رابط کاربری جدید، سعی میکردند که بقبولانند کار جدیدی در عرصه OCR انجام دادهاند.
غالبا فایل متنی که این OCRها ارائه میدادند، آنقدر پراشتباه بود که شما راحتتر بودید که خودتان متن را تایپ کنید تا اینکه متن را به آنها بسپارید.
اما ششم ماه می – یعنی ۴ روز پیش- روز خوبی برای ما ایرانیها و نیز شهروندان دهها کشور دیگر دنیا بود. چرا؟
چون گوگل اعلام کرد که ویژگی OCR را برای ۲۰۰ زبان دنیا به گوگل درایو خود افزوده است!
یعنی الان شما میتوانید یک فایل تصویری یا یک PDF اسکن شده به زبان فارسی را در گوگل درایو آپلود کنید و بعد از مدتی، فایل متنی فارسی، آن را با میزان دقت بسیار خوب و حداقل اشتباه دریافت کنید.
پیداست که اگر وضوح اسکن یا عکس شما خیلی پایین باشد، OCR گوگل نمیتواند معجزه کند. اما طبق آزمایش من، OCR گوگل در وضوحهایی که OCRهای روتین، معمولا اشتباهات خیلی زیاد داشتند، به راحتی میتواند کار کند.
کار با OCR گوگل آسان است:
۱- به گوگل درایو خود بروید و فایل مورد نظر را آپلود کنید.
۲- بعد از مدتی در کنار فایل آپلود شده اصلی، یک فایل متنی با اسم مشابه ایجاد میشود.
۳- روی این فایل راست کلیک کنید و از open with، گزینه google docs را انتخاب کنید و فایل متنی را دریافت کنید.
البته باید خاطرنشان کنم که متنهای ایجادشده با این روش هنوز به ویرایش نهایی کاربر نیاز دارند. گاهی هم اختلالاتی مثل از قلم افتادن برخی از سطرها هنگام تبدیل به متن مشاهده میشوند.
گاهی هم اگر پشتزمینه متن رنگی باشد، نتایج بسیار عجیب و غریب میشوند.
به نظر میرسد که اگر وضوح اسکن یا عکسهای دریافتی در حد متوسط باشند، دقت OCR گوگل بسیار قابل توجه است.