Linux- Yazilim : Linux' uzerinde yazilim gelistirme Haberlesme Listesi: [Linux-programlama] Re: python, tif dosyaları ve ocr

From: Aydın ŞEN <adigeaydin_at_gmail.com>
Date: Fri, 1 Aug 2008 14:33:25 +0300
Message-ID: <2196d7e0808010433h146b3d94m7a039bef48c95766@mail.gmail.com>

Daha önce java ile ile image işleme ile uğraşmıştım. Ayıracağınız döküman
türelerinin sabit olduğunu varsayıyorum. Belgeleri ayırabilmek için
referanslara ihtiyacınız var. İlk olarak aklıma gelen örneğin her image'in
(10,10) boyutlarında bir alanının taranması (bu alan sizin belirlediğiniz,
dosyaların birbirinden renk olarak farklı olduğu alanlar olmalı). Her dosya
için bu alanların renk kodlarını belirlersiniz ve daha sonra karşılaştırma
ile dökümanın türünü ayırt edebilirsiniz. Bu belirlediğiniz alanlarda
değişken bir şey olmamalı, yazı falan gelmemeli üzerine. Eğer
dökümanlarınızda referans alabileceğiniz böyle alanlar varsa bu yöntemle
halledebilirsiniz diye düşünüyorum. Hele tarayıcınızdan dökümanların düz bir
şekilde taranma garantisi varsa işiniz pek zor olmayacaktır.

İlk olarak aklıma gelen çözüm bu.

2008/8/1 Timuçin Kızılay <tim_at_savaskarsitlari.org>

> Merhaba,
>
> Linux-sunucu mail listesine bu mesajı yazmıştım. Liste üyelerinden bir
> arkadaş bu mail listesine yazmamı hatırlattı. Bu konu ile ilgili birşeyle
> söyleyebilecek var mı?
>
> -------------------------
> linux sunucu üzerinde python ile tif dosyalarını ocr işleminden geçirmek
> istiyorum. tif dosyaları ile uğraşmak için PIL (Python Imaging Library)
> kullanmaya çalıştım ama bu libray group4 sıkıştırmalı tif dosyalarını
> desteklemiyor, kullandığım network dokuman scanner cihazı da bu formatta
> sıkıştırma yapıyor. ZSI python library diye birşey buldum, bununla tif
> dosyalarını sayfalara ayırma vb. işlemlerini yapabiliyorum. Şimdi sıra
> geldi OCR işlemi ile bu tif dosyalarında belgelerin türlerini bulmaya.
> OCR ile dokumanları text'e çevirmek gibi bir ihtiyacım yok, zaten o
> dokumanlarda olan bilgilerin çoğu elimdeki bir veritabanında var, benim
> yapmaya çalıştığım OCR ile tif dosyalarını okutup bu dokumanların
> türlerini ayırabilmek, yani şu sayfa faturadır, bu sayfa makbuzdur, şu
> sayfa bilmemne formudur gibi çoğunlukla hep aynı formatta dokumanların
> türlerini ayırabilmek. Bunun için OCR doğru yöntem değil diye
> düşünüyorum ama aklıma başka yöntem gelmedi. Bu konuda ipucu verecek var
> mı?
> Bu projenin aynı işini yapan benzer bir projeyi 3 yıl önce windows
> üzerinde visual basic ile ve MS office içinden çıkan OCR library
> kullanarak halletmiştim ama aynı yazılımı linux sunucu üzerinde
> çalışacak şekilde python kullanarak yeniden yazmak istiyorum.
>
> -----------
>
> Sunucu listesi yerine programlama veya python listelerine gönderirseniz
> daha çok kişi yardımcı olacaktır.
>
> _______________________________________________
> Linux-sunucu E-Posta Listesi
> Linux-sunucu_at_liste.linux.org.tr
>
> Bu Listede neden bulunduğunuzu bilmiyorsanız veya artık bu listeden gelen
> e-postaları almak istemiyorsanız aşağıdaki bağlantı adresini kullanarak 1
> dakika içinde üyeliğinizi sonlandırabilirsiniz.
> http://liste.linux.org.tr/mailman/listinfo/linux-sunucu
>
>
> _______________________________________________
> Linux-programlama mailing list
> Linux-programlama_at_liste.linux.org.tr
> http://liste.linux.org.tr/mailman/listinfo/linux-programlama
>
>

_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Fri 01 Aug 2008 - 14:03:18 EEST