OCR עברי

|
הכנתי מזהה כתיב אופטי עברי, התוכנה מזהה את רוב סוגי הפונטים הנפוצים ומכילה מנשק משתמש גרפי פשוט על בסיס גנום. התכנה כרגע אינה מוכנה לשימוש שוטף, היא מתרסקת אם היא לא אוהבת את התמונה שהיא מקבלת, לא מסוגלת לקרא ניקוד, וחסרה חיבור נוח למנשקים המקובלית של sane.

אתר התכנה:
http://hocr.berlios.de/index.html

דוגמאות שימוש:
http://hocr.berlios.de/examples.html

עריכה (13.8.05):
באתר הפרוייקט זמינים חבילה לדביאן אן-סטייבל וכן קוד המקור של גירסה 0.2.
מי שרוצה לעזור בפיתוח יכול להוריד את הקוד מה SVN של האתר לבדוק את מצב הקוד ברגע זה, לשפר ולשלוח פטצ'ים.

קובי.

אפשרויות לתצוגת תגובות

בחרו באפשרות התצוגה הרצויה, ולחצו על "שמור הגדרות".

אגב

אגב, היה גם מזהה אופטי עברי חופשי לפני שפותח
לפי מיטב ידיעתי הוא לא היה כל כך מפותח, אבל אולי תוכל להעזר בו לפיתוח
http://www.math.tau.ac.il/~didi/ocr/

CooL_SPoT...

תודה, אני מכיר א...

תודה, אני מכיר את התכנה הזו. בהתחלה רציתי לבנות רק מעטפת גרפית סביב hebocr אבל המטרה של hebocr שונה מהמטרות שהצבתי. אני רציתי מערכת שתדע להתמודד עם סוגי כתיב שונים מאוד זה מזה ותעבוד מהר. hebocr לא יודעת לעשות את הדברים הללו, hocr יודעת להתמודד עם סוגי כתיב שונים מאוד ללא כל הכנה, והיא גם מהירה מאוד. כתוצאה מכך הקוד של שתי התכנות שונה מאוד וקשה להתשתמש בבסיס הקוד של אחת בשניה, אבל הדבר אפשרי ומאוד אשמח לקבל פט'צ שמשלב את היכולות של שתי התכנות.

הוספתי מדריך פל...

הוספתי מדריך פלש המדגים סריקת מסמכים למדריכים של דביאן עברי.

מדריך הסריקה:
http://debian-hebrew.alioth.debian.org/tut-1/scan.html

המדריכים של דביאן עברי:
http://debian-hebrew.alioth.debian.org/tut-1/

התכנה לא מוכנה ל...

התכנה לא מוכנה לשימוש שוטף, אבל מי שרוצה לשחק יכול להוריד חבילה מוכנה לדביאן אן-סטייבל מספריית החבילות המועמדות לכניסה לדביאן עברי:
http://debian-hebrew.alioth.debian.org/debian/incoming/

אים החבילה לא שם, היא כנראה כבר נכנסה למאגר של דביאן-עברי (אני מקווה שזה יקרה היום או מחר) ואז אפשר יהיה לעשות לה apt-get :)

יובל טאני שלך לי...

יובל טאני שלך לי פט'צ שגורם להצגת הטקס והתמונה באותו חלון כדי להקל על בדיקת הטקס.

הפט'צ כבר בתוך ה svn של הפרוייקט וגם הוספתי באותה הזדמנות גם בדיקת איות (צריך aspell6 עם תמיכה בעברית).

תמונת מסך של התכונות החדשות:
http://hocr.berlios.de/tests/screenshot-3.jpeg

עדכנתי גם את חבילות הדביאן באתר דביאן עברי להכיל את התכונות החדשות:
http://debian-hebrew.alioth.debian.org/debian/incoming/

קובי

הצעת ייעול

אולי כדאי שבמקרה שהתוכנה לא מזהה אות במילה מסויימת (בתמונות זה מופיע בירוק ובטקסט בכוכבית), אז בודק האיות יתקן אוטומטית את המילה (אולם הצבע של האות ישאר שונה כדי לתת למשתמש את הבחירה).

אה, ועוד משהו, ר...

אה, ועוד משהו,
ראיתי שיש בעיה עם ס' (סמך) ו- ם' (מם סופית) (התוכנה מתבלבלת ביניהם). אני משער שהבעיה קיימת גם בין ו' (וו) ל- ן' (נון סופית). אולי כדאי להגדיר כמה כללים בעניין (אותיות סופיות לא יכולות לבוא באמצע מילה).

חוץ מזה,
באמת כל הכבוד.

נ.ב אם הייתי יודע לתכנת אולי הייתי עוזר :(.

OCR עברי חינם באתר של ליגטורה

ליגטורה מציעה OCR ONLINE FREE באתר:
http://www.ligatureltd.com
ניתן לשלוח סריקות ולקבלם בחזרה כ- PDF או DOC

OCR בג'אווה סקריפט

מסקרן

http://ejohn.org/blog/ocr-and-neural-nets-in-javascript