[Linux-programlama] sed ile extraction

---------

New Message Reply About this list Date view Thread view Subject view Author view Attachment view

From: Ali Metin (siyisoy@hotmail.com)
Date: Mon 03 Apr 2006 - 07:59:49 GMT


Merhaba
Elimde 500 civarinda Html dosyasi var. Bu dosyalarin formatli birbirlerine
benziyor. Yani basliklar hep buyuk harfle yazilmis ve devami normal
yazilmis(satir baslari buyuk olacak sekilde paragraf(lar)). Genelde konu
baslari hep ayni cumlelerden olusuyor. Benim yapmak istedigim satir
baslarina ait bilgileri (yani konu baslarinin altindaki paragraflardaki)
cekip basliga gore database e atmak.
Links -dump opsiyonuyla htmlyi text yapiyorum. -dump-charset ile de Turkce
yapiyorum.
Sonra da sed ile istedigim paragraflari cekmek istiyorum. Bunun icin
links -dump -dump-charset iso8859-9 text | sed -e
'/^[[:upper:]*]/,/[[:upper:]*]/p'
gibi bir cok komut denedim ama yapamadim. Textin Turkce olmasiyla ilgili de
sorunlar yasadim. Mesela farkli charsetlerde Ş harfi Yth olarak
cikiyor. Bu da benim yazdigim regexi bozuyor.
Buradaki sorularim:
1- Iki konu basligi arasindaki texti sed ile cikarabilir miyim?
2- Buyuk harflerden olusan kumeleri veren regex nedir? Benim yazdigim
[[:upper:]*] ifadesi yanlis.
Turkce FC2 kullaniyorum.

_______________________________________________
Linux-programlama mailing list
Linux-programlama@liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama


New Message Reply About this list Date view Thread view Subject view Author view Attachment view

---------

Bu arsiv hypermail 2.1.2 tarafindan uretilmistir.