Semalt –如何抓取网页?

Beautiful Soup是一个Python库,广泛用于通过从XML和HTML文档创建解析树来刮取网页。 Web抓取是一种从网站和页面提取数据的技术,已广泛用于数据分析和管理领域。在大多数情况下,Python编程语言是数据科学中的先决条件。

Python 3具有可应用于数据管理项目的抓取工具和模块。该模块当前以Beautiful Soup 4的形式运行,与Python 3和Python 2.7兼容。 Beautiful Soup 4模块还能够为非封闭标签汤创建解析树。在本教程中,您将学习如何抓取页面并将抓取的数据写入CSV文件。

入门

首先,请在您的PC上设置服务器或基于本地的Python编码环境。您还应该在计算机上安装Beautiful Soup and Requests模块。了解使用两个模块的知识也是必要的先决条件。熟悉HTML标记和结构也是一个附加优点。

了解您的数据

在这种情况下,来自国家美术馆的真实数据将用于帮助您了解如何使用“美丽汤4”。国家美术馆包括120,000件作品,大约由13,000名艺术家完成。该艺术总部位于美国华盛顿特区。

使用Beautiful Soup进行Web数据提取并不那么复杂。例如,如果您专注于字母Z,则在列表上标记并记下名字。在这种情况下,名字叫Niccola Zabaglia。为了保持一致,请指明页面数和该页面上最后一位歌手的姓名。

如何导入请求和Beautiful Soup库

要导入库,请激活您的Python 3编程环境。检查以确保您与编程环境在同一目录中。运行以下命令开始。 my_env / bin / activate。

创建一个新文件,然后开始导入Beautiful Soup and Requests库。 Requests库将允许您以可读格式在Python程序中使用HTTP。另一方面,Beautiful Soup可以快速刮取页面。使用bs4导入Beautiful Soup。

如何收集和解析网页

使用请求收集您第一页的URL。第一页的URL将分配给可变页。从Requests构建一个BeautifulSoup对象,然后从Python的解析器中解析该对象。

在本教程中,目的是收集链接和艺术家的姓名。例如,您可以收集艺术家的日期和国籍。对于Windows用户,请右键单击艺术家的名字。在这种情况下,请使用尼古拉的Zabaglia。对于Mac OS用户,请点击“ CTRL”,然后单击名称。单击屏幕上弹出的“检查元素”菜单,以访问Web开发人员的工具。打印出艺术家的姓名,以使Beautiful Soup快速解析一棵树。

删除底部链接

要删除网页上的底部链接,请右键单击该元素以检查DOM。您将确定这些链接位于HTML表下。使用Beautiful Soup,使用“分解方法”从解析树中删除标签。

如何从标签中提取内容

您不必打印整个链接标签,而使用Beautiful Soup可以删除标签中的材料。您还可以使用Beautiful Soup 4捕获与艺术家相关的URL。

将抓取的数据捕获到CSV文件

CSV文件将允许您以纯文本格式存储结构化数据,该格式主要用于数据表。建议您具备使用Python处理纯文本文件的知识。

Web数据提取用于抓取页面并获取信息。考虑要从中提取信息的网站。一些动态网站限制其网站上的Web数据提取。使用Beautiful Soup和Python 3抓取页面很简单。