Semalt: Mengekstrak URL Dari Halaman Web Dengan Sup Cantik

Beautiful Soup adalah paket Python tingkat tinggi yang digunakan untuk parsing dokumen XML dan HTML. Pustaka Beautiful Soup Python membuat pohon parse yang digunakan untuk mengekstrak informasi yang berguna dari HyperText Markup Language (HTML). Perpustakaan ini tersedia untuk versi Python 2 dan Python 3.

Dalam kebanyakan kasus, Anda menemukan bahwa data target Anda hanya dapat diakses dan digunakan sebagai bagian dari halaman web. Dalam kasus seperti itu, Anda perlu menggunakan teknik pengikisan web yang dapat mengekstraksi data dalam format yang dapat dianalisis. Di sinilah perpustakaan Beautiful Soup masuk.

Persyaratan

Anda memerlukan modul yang tepat untuk menggunakan perpustakaan Beautiful Soup. Untuk memulai, Anda perlu menginstal bahasa pemrograman Python 2.7 pada mesin Anda. Dalam posting ini, Anda akan belajar cara mengikis situs web dan mengekstrak semua URL menggunakan Requests dan Beautiful Soup 4. Penguraian HTML adalah tugas do-it-yourself, terutama dengan bantuan teknis dari Beautiful Soup.

Mengapa Menggunakan Sup Cantik?

Beautiful Soup adalah paket Python peringkat teratas yang telah digunakan untuk mengikis situs web dan mem-parsing tag HTML sejak 2004. Baru-baru ini, Beautiful Soup 4 menggantikan Beautiful Soup 3 di industri. Perhatikan bahwa BS4 bekerja pada kedua versi Python sedangkan BS3 hanya bekerja pada Python 2.7. Perpustakaan terdiri dari beberapa fitur inbuilt berikut:

  • Kemampuan penyandian - Anda tidak perlu panik tentang penyandian begitu Anda memasang modul Soup cantik yang diperlukan di mesin Anda. Perpustakaan otomatis untuk mengkonversi input ke Unicode dan output ke UTF-8.
  • Kemampuan navigasi - Beautiful Soup menawarkan metode yang mudah digunakan untuk mencari, menavigasi, dan memodifikasi pohon parse.

Bagaimana cara menggunakan perpustakaan Beautiful Soup?

Setelah memasang Beautiful Soup di mesin Anda, Anda dapat mulai menggunakan perpustakaan. Untuk memulai, impor perpustakaan bs4 di awal kode Python Anda. Kirim konten atau URL ke Sup Cantik untuk membuat objek Sup. Namun, perpustakaan tidak mengambil sendiri halaman web target. Di sini, Anda harus menyelesaikan tugas itu secara manual. Anda juga dapat dengan mudah mengambil halaman web pilihan menggunakan kombinasi Python dan Beautiful Soup.

Peran pustaka permintaan

Untuk mengikis halaman, Anda harus mengunduhnya terlebih dahulu. Anda dapat mengunduh halaman web menggunakan pustaka permintaan. Pustaka permintaan berfungsi dengan membuat permintaan "GET" ke server web, yang pada gilirannya akan mengunduh konten HTML dari halaman web yang diinginkan.

Mengekstrak URL dari halaman web

Sekarang Anda memiliki informasi terperinci tentang perpustakaan Beautiful Soup. Kombinasi perpustakaan BS4 dan Python akan membantu Anda mengambil halaman web dengan sangat cepat. Untuk mengekstrak semua URL dari halaman web target Anda, gunakan metode "temukan semua". Metode ini akan memberi Anda kompilasi elemen dengan tag. Dari bs4, impor Beautiful Soup dan permintaan. Jalankan kode Anda dan masukkan situs web atau halaman web untuk mengekstrak URL dari.

mass gmail