[Linux-programlama] Re: Python ile html parsing

---------

[Linux-programlama] Re: Python ile html parsing

From: serdar güler <e141598_at_metu.edu.tr>
Date: Mon, 19 Nov 2007 13:29:36 +0200
Message-ID: <474173A0.5050705@metu.edu.tr>

Önceki html parsing tecrübelerimde þöyle bir sorunla karþýlaþmýþtým.
eðer internet üstünden veri toplanacaksa bir çok büyük site de bile bir
çok html hatasý yapýlýyor ve html parse edilirken bir çok sorun çýkýyor.
tidy programý ile bunlarý düzeltip sonra iþlemeyi denemiþtim. sonunda en
güzeli çeþitli regular expressionlarla bu iþi halletmek diye düþünmüþtüm.

html hatasý olan sayfalarý iþlemek için kolay bir yol bilen var mýdýr acaba?

Yýlmaz Uðurlu wrote:
> Beautifulsoup
>
> http://www.crummy.com/software/BeautifulSoup/
>
> 18.11.2007 tarihinde *Caglar Akyuz * <caglar_at_bilkon-kontrol.com.tr
> <mailto:caglar_at_bilkon-kontrol.com.tr>> yazmýþ:
>
> Necmettin Begiter wrote:
> > On Saturday 17 November 2007 17:14:22 Caglar Akyuz wrote:
> >> regular expression ile. Ben aþaðýdakine benzer bir kod
> kullanýyorum.
> >> Deneme þansým yok, o yüzden yazým hatasý olabilir:
> >>
> >> import re
> >> html = open('/dosya/yolu','r')
> >> regex = re.compile(r'<href=*>')
> >>
> >> for line in html.readlines():
> >> line
> >> href = re.findall(regex,line)
> >> if href: #birþeyler buldu
> >> for s in href:
> >> print s
> >>
> >> html.close()
> >
> > Peki adam olmadýk bir yerde satýrý böldüyse? :
> >
> > <a href=
> > "ýyk.html">þurada
> > </a>
> >
>
> Ben ilk gelen mesajdan sanki çok genel anlamda deðil de, sadece
> özel bir
> durum için gerekli olacak bir parse iþlemi istendiðini düþündüm. Bunun
> için de regular expression kullanýmýný örneklemek istedim. Yoksa bence
> de genel bir kullaným için hazýr bir kütüphane kullanýmý daha
> mantýklý.
>
> Caglar
> _______________________________________________
> Linux-programlama mailing list
> Linux-programlama_at_liste.linux.org.tr
> <mailto:Linux-programlama_at_liste.linux.org.tr>
> http://liste.linux.org.tr/mailman/listinfo/linux-programlama
>
>
>
>
> --
> Yýlmaz Uðurlu ~ jabber : metoikos_at_jabber.org
> <mailto:metoikos@jabber.org> ~ http://www.2nci.com ~ Ýzmir
> ------------------------------------------------------------------------
>
> _______________________________________________
> Linux-programlama mailing list
> Linux-programlama_at_liste.linux.org.tr
> http://liste.linux.org.tr/mailman/listinfo/linux-programlama
>

_______________________________________________
Linux-programlama mailing list
Linux-programlama_at_liste.linux.org.tr
http://liste.linux.org.tr/mailman/listinfo/linux-programlama
Received on Mon 19 Nov 2007 - 13:07:41 EET

---------

Bu arsiv hypermail 2.2.0 tarafindan uretilmistir.