[Linux-programlama] Web sayfasından veri koparmak.

---------

[Linux-programlama] Web sayfasından veri koparmak.

From: Mirat Can Bayrak <horselogy_at_gmail.com>
Date: Tue, 26 Aug 2008 23:27:54 +0300
Message-ID: <48B4674A.1040001@gmail.com>

Radikal gazetesinin bu seneki kültür sanat haberlerinin arşivini yapan
bir program yazmaya çalışıyorum.
Yaptığım şey tarih içeren urller üretip o url içerisinden habere giden
<a taglarından adresleri kopartıp bu adresleri indirmek. Bu
söylediklerimi program (kod her ne kadar kirli olsa da) başarabiliyor.

http://www.sudrap.org/paste/4439/

Fakat ben bu noktadan sonra bu bahsi geçen haberleri şu sayfanın sağında
solunda bulunan kısımları hariç sadece kendisini alabilmek, yani şurayı
http://imaj.at/image/47579

Bunun için regexp ler ile denemeler yaptım fakat başa çıkamadım.

Bu metin alanı içerisindeki bütün metni alıp , şu <font < vs gibi
tag'lardan kurtarıp sade ve düzgün bir biçimde html dosyası olarak
kaydetmek istiyorum (bunu yaparken makale ile ilgili resim kutularını
koruyarak.) bu kısmı benim için halledebilecek biri varmı_?

_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Tue 26 Aug 2008 - 22:56:14 EEST

---------

Bu arsiv hypermail 2.2.0 tarafindan uretilmistir.