扒网页这个思路非常简单:
- 通过 Chrome 等桌面工具1 ,找到我们要扒的对象(比如微博配图)的链接
- 通过捷径获取目标网页(比如某条微博)的 HTML 文件
- 在这个 HTML 文件中匹配出我们要扒的对象(还是微博配图)的链接,并将其下载下来
所有的套路都是如此,只不过可能在找到要扒的对象的链接,或者匹配它的时候会比较麻烦。出于文章的可读性和间接性,我不方便过多展开一些不相关的细节。
因此,为了让各位尝试更多扒网页的思路,能够处理更多不同的情况,我把一些自用的以扒网页为手段获取内容的捷径提供给大家,作为练习。