Tuesday 26 August 2008 Tarihinde 23:27:54 yazmıştı:
> Radikal gazetesinin bu seneki kültür sanat haberlerinin arşivini yapan
> bir program yazmaya çalışıyorum.
> Yaptığım şey tarih içeren urller üretip o url içerisinden habere giden
> <a taglarından adresleri kopartıp bu adresleri indirmek. Bu
> söylediklerimi program (kod her ne kadar kirli olsa da) başarabiliyor.
>
> http://www.sudrap.org/paste/4439/
>
> Fakat ben bu noktadan sonra bu bahsi geçen haberleri şu sayfanın sağında
> solunda bulunan kısımları hariç sadece kendisini alabilmek, yani şurayı
> http://imaj.at/image/47579
>
> Bunun için regexp ler ile denemeler yaptım fakat başa çıkamadım.
>
> Bu metin alanı içerisindeki bütün metni alıp , şu <font < vs gibi
> tag'lardan kurtarıp sade ve düzgün bir biçimde html dosyası olarak
> kaydetmek istiyorum (bunu yaparken makale ile ilgili resim kutularını
> koruyarak.) bu kısmı benim için halledebilecek biri varmı_?
>
>
> _______________________________________________
> Linux-programlama mailing list
> Linux-programlama_at_liste.linux.org.tr
> http://liste.linux.org.tr/mailman/listinfo/linux-programlama
BeautifulSoup sanki işini görür gibi geliyor. mechanize.Browser() ile beautiful soup ile olur gibi sanki. bir ara click & earn sitelere autoclicker yapmaya çalışmıştım :S işe yaramıştı.
-- ########################################################################## # Anahtar parmakizi = 94BC 9ACC 73A1 E7B5 032E 5554 EFB5 A4C4 0D22 DC24 # # uid Recep KIRMIZI (rkirmizi) <rkirmizi_at_gmail.com> # ##########################################################################
_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Tue 26 Aug 2008 - 23:12:42 EEST