[Linux-programlama] sed ile extraction

New Message	Reply	About this list	Date view	Thread view	Subject view	Author view	Attachment view

From: Ali Metin (siyisoy@hotmail.com)
Date: Mon 03 Apr 2006 - 07:59:49 GMT

Previous message: Yılmaz Uğurlu: "Re: [Linux-programlama] Realtime Upload Bilgileri"

Merhaba
Elimde 500 civarinda Html dosyasi var. Bu dosyalarin formatli birbirlerine
benziyor. Yani basliklar hep buyuk harfle yazilmis ve devami normal
yazilmis(satir baslari buyuk olacak sekilde paragraf(lar)). Genelde konu
baslari hep ayni cumlelerden olusuyor. Benim yapmak istedigim satir
baslarina ait bilgileri (yani konu baslarinin altindaki paragraflardaki)
cekip basliga gore database e atmak.
Links -dump opsiyonuyla htmlyi text yapiyorum. -dump-charset ile de Turkce
yapiyorum.
Sonra da sed ile istedigim paragraflari cekmek istiyorum. Bunun icin
links -dump -dump-charset iso8859-9 text | sed -e
'/^[[:upper:]*]/,/[[:upper:]*]/p'
gibi bir cok komut denedim ama yapamadim. Textin Turkce olmasiyla ilgili de
sorunlar yasadim. Mesela farkli charsetlerde Ş harfi Yth olarak
cikiyor. Bu da benim yazdigim regexi bozuyor.
Buradaki sorularim:
1- Iki konu basligi arasindaki texti sed ile cikarabilir miyim?
2- Buyuk harflerden olusan kumeleri veren regex nedir? Benim yazdigim
[[:upper:]*] ifadesi yanlis.
Turkce FC2 kullaniyorum.

_______________________________________________
Linux-programlama mailing list
Linux-programlama@liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama

Previous message: Yılmaz Uğurlu: "Re: [Linux-programlama] Realtime Upload Bilgileri"

New Message	Reply	About this list	Date view	Thread view	Subject view	Author view	Attachment view

Bu arsiv hypermail 2.1.2 tarafindan uretilmistir.