Radikal gazetesinin bu seneki kültür sanat haberlerinin arşivini yapan
bir program yazmaya çalışıyorum.
Yaptığım şey tarih içeren urller üretip o url içerisinden habere giden
<a taglarından adresleri kopartıp bu adresleri indirmek. Bu
söylediklerimi program (kod her ne kadar kirli olsa da) başarabiliyor.
http://www.sudrap.org/paste/4439/
Fakat ben bu noktadan sonra bu bahsi geçen haberleri şu sayfanın sağında
solunda bulunan kısımları hariç sadece kendisini alabilmek, yani şurayı
http://imaj.at/image/47579
Bunun için regexp ler ile denemeler yaptım fakat başa çıkamadım.
Bu metin alanı içerisindeki bütün metni alıp , şu <font < vs gibi
tag'lardan kurtarıp sade ve düzgün bir biçimde html dosyası olarak
kaydetmek istiyorum (bunu yaparken makale ile ilgili resim kutularını
koruyarak.) bu kısmı benim için halledebilecek biri varmı_?
_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Tue 26 Aug 2008 - 22:56:14 EEST