搜索
您的当前位置:首页正文

python小爬虫

来源:二三娱乐

目的:用urllib2,爬一堆风景图片

重点代码

<code>
response = urllib2.urlopen(url).read()
soup = BeautifulSoup(
response, # html字符串
'html.parser', # html解析器
from_encoding='utf-8' # 字符编码
)
</code>

  • 其中,urlopen就顾名思义了,可以简单理解为打开一个url,然后获得该URL相对应的东西在python里的对象,然后通过read之后,就得到了页面的所有构成元素了

可见读取到的是一个完整的HTML页面
  • 然后上面重点代码里的soup是一个BeautifulSoup对象,是一个第三方的用于html页面内容解析的库,当创建了一个BeautifulSoup对象之后,就可以用这个对象对html的内容进行解析,比如:
    <code>
    attr = {
    'class':'pic',
    }
    nodes = soup.find_all('a',attr)
    </code>

  • find_all()函数是查找所有符合参数条件的元素,上面的代码就是查找所有类名为pic的a元素,除了find_all之外,还有一个find元素,是查找符合条件的第一个元素,知道这两个函数之后,已经可以爬东西了。

爬图片的话,其实就是读取到图片之后,转成二进制数据之后,写入文件就行了,然后运行就可以了,然后就看到一堆图片在目录里


Top