Linux- Yazilim : Linux' uzerinde yazilim gelistirme Haberlesme Listesi: [Linux-programlama] Re: Web sayfasından veri koparmak.

From: Recep KIRMIZI <rkirmizi_at_gmail.com>
Date: Tue, 26 Aug 2008 23:47:31 +0300
Message-Id: <200808262347.31812.rkirmizi@gmail.com>

Tuesday 26 August 2008 Tarihinde 23:27:54 yazmıştı:
> Radikal gazetesinin bu seneki kültür sanat haberlerinin arşivini yapan
> bir program yazmaya çalışıyorum.
> Yaptığım şey tarih içeren urller üretip o url içerisinden habere giden
> <a taglarından adresleri kopartıp bu adresleri indirmek. Bu
> söylediklerimi program (kod her ne kadar kirli olsa da) başarabiliyor.
>
> http://www.sudrap.org/paste/4439/
>
> Fakat ben bu noktadan sonra bu bahsi geçen haberleri şu sayfanın sağında
> solunda bulunan kısımları hariç sadece kendisini alabilmek, yani şurayı
> http://imaj.at/image/47579
>
> Bunun için regexp ler ile denemeler yaptım fakat başa çıkamadım.
>
> Bu metin alanı içerisindeki bütün metni alıp , şu <font < vs gibi
> tag'lardan kurtarıp sade ve düzgün bir biçimde html dosyası olarak
> kaydetmek istiyorum (bunu yaparken makale ile ilgili resim kutularını
> koruyarak.) bu kısmı benim için halledebilecek biri varmı_?
>
>
> _______________________________________________
> Linux-programlama mailing list
> Linux-programlama_at_liste.linux.org.tr
> http://liste.linux.org.tr/mailman/listinfo/linux-programlama

BeautifulSoup sanki işini görür gibi geliyor. mechanize.Browser() ile beautiful soup ile olur gibi sanki. bir ara click & earn sitelere autoclicker yapmaya çalışmıştım :S işe yaramıştı.

-- 
##########################################################################
# Anahtar parmakizi = 94BC 9ACC 73A1 E7B5 032E  5554 EFB5 A4C4 0D22 DC24 #
# uid                 Recep KIRMIZI (rkirmizi) <rkirmizi_at_gmail.com>      #
##########################################################################

_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Tue 26 Aug 2008 - 23:12:42 EEST