lundi 21 mars 2011

HttpLib: Extraction de page Web avec Python

Description
Le module httplib permet de faire des requêtes http et de récupérer la réponse.
Très pratique pour faire récupérer automatiquement des informations sur le net, httplib sera le compagnon idéal de Beautiful Soup (article à venir).

Installer HttpLib
Le module httplib est disponible par défaut avec Python, il n'est donc pas nécessaire de l'installer.



Exemple
A titre d'exemple, voici un exemple récupérant et affichant le contenu d'une page web du site Amazon (une recherche précise).
>>> import httplib
>>> domainName = "www.amazon.fr" 
>>> # this uri contains the result of a search
>>> uri = "/gp/product/2081251663/ref=s9_newr_gw_ir02?pf_rd_m=A1X6FK5RDHNB96&pf_rd_s=center-1&pf_rd_r=008J6N5KCCH0Q3YAXZR5&pf_rd_t=101&pf_rd_p=463375513&pf_rd_i=405320"
>>> conn = httplib.HTTPConnection( domainName )
>>> conn.request( "GET", uri )
>>> r1 = conn.getresponse()
>>> print r1.status, r1.reason
200 OK
>>> data1 = r1.read()
>>> # Data1 string is tooooooo long, take a subset of data
>>> data1Preview = data1[:200] # 200 first chars
>>> data1Preview
'\n\n    \n    \n\n  \n  \n    \n\n\n  \n  \n  \n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n  \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n\n\n    \n    \n\n\n\n<html>\n<head>\n\n\n\n\n\n\n\n\n\n<style type="text/css"><!--\n\nbody { background-color: #FFFFFF; } \n* htm'

Ressources
Plus d'exemples d'utilisation sont disponibles docs.python.org/library/httplib.html

Aucun commentaire: