[Linux-programlama] Re: Python ile html parsing

---------

[Linux-programlama] Re: Python ile html parsing

From: Ömer F. USTA <omerusta_at_gmail.com>
Date: Mon, 19 Nov 2007 12:12:59 +0000
Message-ID: <956cd5870711190412x21d4e194ie89e95e4aff16eb9@mail.gmail.com>

HTML parsing olayında regex kullanılmaması birçok sitede tavsiye ediliyor.
onun yerini beautifulsoup[1] ismimli html parsing kütüphanesini
kullanabilirsiniz.

[1] = http://www.crummy.com/software/BeautifulSoup/

On Nov 19, 2007 11:29 AM, serdar güler <e141598_at_metu.edu.tr> wrote:
> Önceki html parsing tecrübelerimde şöyle bir sorunla karşılaşmıştım.
> eğer internet üstünden veri toplanacaksa bir çok büyük site de bile bir
> çok html hatası yapılıyor ve html parse edilirken bir çok sorun çıkıyor.
> tidy programı ile bunları düzeltip sonra işlemeyi denemiştim. sonunda en
> güzeli çeşitli regular expressionlarla bu işi halletmek diye düşünmüştüm.
>
> html hatası olan sayfaları işlemek için kolay bir yol bilen var mıdır acaba?
>
> Yılmaz Uğurlu wrote:
> > Beautifulsoup
> >
> > http://www.crummy.com/software/BeautifulSoup/
> >
> > 18.11.2007 tarihinde *Caglar Akyuz * <caglar_at_bilkon-kontrol.com.tr
> > <mailto:caglar_at_bilkon-kontrol.com.tr>> yazmış:
>
> >
> > Necmettin Begiter wrote:
> > > On Saturday 17 November 2007 17:14:22 Caglar Akyuz wrote:
> > >> regular expression ile. Ben aşağıdakine benzer bir kod
> > kullanıyorum.
> > >> Deneme şansım yok, o yüzden yazım hatası olabilir:
> > >>
> > >> import re
> > >> html = open('/dosya/yolu','r')
> > >> regex = re.compile(r'<href=*>')
> > >>
> > >> for line in html.readlines():
> > >> line
> > >> href = re.findall(regex,line)
> > >> if href: #birşeyler buldu
> > >> for s in href:
> > >> print s
> > >>
> > >> html.close()
> > >
> > > Peki adam olmadık bir yerde satırı böldüyse? :
> > >
> > > <a href=
> > > "ıyk.html">şurada
> > > </a>
> > >
> >
> > Ben ilk gelen mesajdan sanki çok genel anlamda değil de, sadece
> > özel bir
> > durum için gerekli olacak bir parse işlemi istendiğini düşündüm. Bunun
> > için de regular expression kullanımını örneklemek istedim. Yoksa bence
> > de genel bir kullanım için hazır bir kütüphane kullanımı daha
> > mantıklı.
> >
> > Caglar
> > _______________________________________________
> > Linux-programlama mailing list
> > Linux-programlama_at_liste.linux.org.tr
> > <mailto:Linux-programlama_at_liste.linux.org.tr>
> > http://liste.linux.org.tr/mailman/listinfo/linux-programlama
> >
> >
> >
> >
> > --
> > Yılmaz Uğurlu ~ jabber : metoikos_at_jabber.org
> > <mailto:metoikos@jabber.org> ~ http://www.2nci.com ~ İzmir
> > ------------------------------------------------------------------------
>
> >
> > _______________________________________________
> > Linux-programlama mailing list
> > Linux-programlama_at_liste.linux.org.tr
> > http://liste.linux.org.tr/mailman/listinfo/linux-programlama
> >
>
> _______________________________________________
> Linux-programlama mailing list
> Linux-programlama_at_liste.linux.org.tr
> http://liste.linux.org.tr/mailman/listinfo/linux-programlama
>

-- 
Ömer Fadıl USTA
http://www.bilisimlab.com/
_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Mon 19 Nov 2007 - 13:39:31 EET

---------

Bu arsiv hypermail 2.2.0 tarafindan uretilmistir.