[Gelistirici] Türkçe OCR

Anıl Özbek ozbekanil at gmail.com
21 Ağu 2010 Cmt 00:56:07 EEST


Mevcut OKTS'leri ve Türkçe Desteklerine Dair Küçük Bir Karşılaştırma
=======================================================

abbyyocr - http://www.ocr4linux.com/en:start
-------------------------------------------------------------

komut
-----------
abbyyocr -rl Turkish -if tst.png -of tst


çıktı
------
Kitabe-i Seng-i Mezar
Hiçbir şeyden çekmedi dünyada
Nasırdan çektiği kadar;
Hatta çirkin yaratıldığından bile
O kadar müteessir değildi;
Kundurası vurmadığı zamanlarda
Anmazdı ama Allahın adını.
Günahkarda sayılmazdı.
Yazık oldu Süleyman Efendi'ye.


notlar
---------
- da'yı bitişik yazmış
- kapalı kaynak, ücretli
- grafik arayüzü yok



ocrad - http://www.gnu.org/software/ocrad/ocrad.html
--------------------------------------------------------------------------

komut
----------
ocrad --charset=iso-8859-9 tst.pnm > tst


çıktı
-------
HICblr şeyden Cekmedı dunyada
Na_ıdan Ceklığı _dar.
Halla Cırkın yaralıldığından bıle
o _dar mulee__ır değıldı.
Kundura_ı uurmadığı _amanlada
Anma_dı ama Allahın adını.
Gunah_r da _ayılma_dı
Ya_ık oldu Suleyman Efendı'ye


notlar
---------
- depoda önceki bir sürümü var
- Türkçe desteği pek iyi değil


gocr - http://jocr.sourceforge.net/
----------------------------------------------

komut
----------
gocr tst.pnm > tst


çıktı
------
Kitabe-i Seng-i Mezar

H i_bir _eyden _ekmedi dünyada
Nas_rdan _ektigi kadar;
Hatta _irkin yarat_ld_g_ndan bile
O kada r m üteessir degildi;
Kunduras_ vurmad_g_ zamanlarda
Anmazd_ ama AIlah_n ad_n_,
G üna hka r da say_lmazd_.
Yaz_k oldu Süleyma n Efendi'ye.


notlar
---------
- Türkçe desteği pek iyi değil
- şöyle bir şey olabilirmiş: http://www.eksisozluk.com/show.asp?t=gocr


tesseract - http://code.google.com/p/tesseract-ocr/
----------------------------------------------------------------------

komut
----------
tesseract tst.tiff tst -l tur


çıktı
------
Kita be-i Seng-i Meza r
Hiçbir şeyden çekmedi dünyada
Nasırdan çektiği kadar;
Hatta çirkin yaratıldığından bile
O kadar müteessir değildi;
Kundurası vurmadığı zamanlarda
Anmazdı ama Allahın adını,
Günahkar da sayılmazdı.
Yazık oldu Süleyman Efendi'ye.


notlar
----------
- Türkçe desteği iyi, kolayca daha da iyileştirilebilir
- kendisine şimdiden bir çevre oluşturmuş durumda:
  http://sourceforge.net/projects/tesseract-gui/
  http://kde-look.org/content/show.php/OCR+using+Tesseract?content=121289
  http://code.google.com/p/ocropus/
- Türkçe desteğinin olduğu sürüm henüz çıkmadı
- Kütüphanelerle ilgili (statik) sorunları var
- bazı küçük a'lardan sonra boşluk koymuş
- önceki denemelerden hatırladığım kadarıyla Türkçe karakterler dışındaki
  karakterler için yeteri kadar eğitilmemiş Türkçe eğitim dosyası


test edilmemiş uygulamalar
-----------------------------------------
cuneiform - http://www.cuneiform.ru/eng/index.html
OCR Shop XTR Lite - ?


diğer karşılaştırmalar/testler/incelemeler
---------------------------------------------------------
http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison
http://www.ozgurlukicin.com/gezegen/user/59/ (23 Mart 2008 tarihli yazı)


ilgili hata kayıtları
------------------------
http://hata.pardus.org.tr/buglist.cgi?quicksearch=Cuneiform
http://hata.pardus.org.tr/buglist.cgi?quicksearch=ocropus
http://hata.pardus.org.tr/show_bug.cgi?id=8232
http://hata.pardus.org.tr/show_bug.cgi?id=12847


test dosyası
------------------
http://dl.dropbox.com/u/1836567/tesseract/tst.png


kullanılan şiir
-------------------
http://www.orhanveli.net/kaniksadigimbiri/dizcokerten.html


nereden esti
-------------------
17-08-2010 IRC Toplantısı


görüş
---------
Tesseract yeni bir sürüm çıkardığında paketi güncellenip, ilişkili diğer
uygulamalar paketlenebilir. Türkçe desteği için imkan / iş gücü varsa mevcut
geliştirme sürümleri üzerinde de çalışma yapılabilir.


beyin
--------
http://www.ozgurlukicin.com/beyin2/644/detail/
-------------- sonraki bölüm --------------
Bir HTML eklentisi temizlendi...
URL: <http://liste.pardus.org.tr/gelistirici/attachments/20100821/dfab69c4/attachment-0002.htm>


Gelistirici mesaj listesiyle ilgili daha fazla bilgi