[Linux-programlama] Re: Web sayfasından veri koparmak.

---------

[Linux-programlama] Re: Web sayfasından veri koparmak.

From: Ozgur KOCA <ozgurkoca_at_gmail.com>
Date: Wed, 27 Aug 2008 00:22:14 +0300
Message-ID: <5a32a3ec0808261422s5a1e9ff0i382df374baa68b9f@mail.gmail.com>

Merhaba,

Sayın Kırmızı'nın önerisine ek olarak; HTML DOM ağacından veri parsellemek
için HTML SQL adında bir PHP class'ı var. SQL sorgu kurallarını kullanarak
HTML content'i içinden istediğiniz veriyi parselliyebiliyorsunuz. Manuel
metodda ise REGEX sorunlu olabilir, bunun yerine GetBetween(inStr, startStr,
endStr) gibi bir fonksiyonla HTML sablonu içinde başlangıç ve bitiş
noktalarını belirttiğiniz aralıkta ifadeleri alabilirsiniz. Bu biraz daha
makul bir yöntem.

HTML SQL'in proje sayfasi:
http://www.phpclasses.org/browse/package/3086.html

Demo Sayfası:
http://www.jonasjohn.de/lab/htmlsql/

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Özgür Koca
Adres: Samsun, E.M.L Web Teknolojileri Dalı Şefi
Tel: (362) 231 6855, GSM: (505) 282 2452
http://www.tankado.com/ ¦ ozgurkoca[at]gmail.com
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

2008/8/26 Mirat Can Bayrak <horselogy_at_gmail.com>

> Radikal gazetesinin bu seneki kültür sanat haberlerinin arşivini yapan
> bir program yazmaya çalışıyorum.
> Yaptığım şey tarih içeren urller üretip o url içerisinden habere giden
> <a taglarından adresleri kopartıp bu adresleri indirmek. Bu
> söylediklerimi program (kod her ne kadar kirli olsa da) başarabiliyor.
>
> http://www.sudrap.org/paste/4439/
>
> Fakat ben bu noktadan sonra bu bahsi geçen haberleri şu sayfanın sağında
> solunda bulunan kısımları hariç sadece kendisini alabilmek, yani şurayı
> http://imaj.at/image/47579
>
> Bnun için regexp ler ile denemeler yaptım fakat başa çıkamadım.
>
> Bu metin alanı içerisindeki bütün metni alıp , şu <font < vs gibi
> tag'lardan kurtarıp sade ve düzgün bir biçimde html dosyası olarak
> kaydetmek istiyorum (bunu yaparken makale ile ilgili resim kutularını
> koruyarak.) bu kısmı benim için halledebilecek biri varmı_?
>
>
> _______________________________________________
> Linux-programlama mailing list
> Linux-programlama_at_liste.linux.org.tr
> http://liste.linux.org.tr/mailman/listinfo/linux-programlama
>

_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Tue 26 Aug 2008 - 23:45:49 EEST

---------

Bu arsiv hypermail 2.2.0 tarafindan uretilmistir.