التعرف على مكتبة BeautifulSoup وتثبيتها وعملها في استخراج البيانات في بايثون Python الدرس|27| - Programmer Tech

Programmer Tech

موقع تعليم مجاني يهتم بتعلم البرمجة و علوم الكمبيوتر, أمن المعلومات, القرصنة الأخلاقية, سكربتات

إعلان اعلى المقالة

الاثنين، 13 يوليو 2020

التعرف على مكتبة BeautifulSoup وتثبيتها وعملها في استخراج البيانات في بايثون Python الدرس|27|


 مكتبة BeautifulSoup

سنتحدث اليوم عن مكتبة BeautifulSoup هي مكتبة تمكننا من عمل تحليل للبيانات parsing و البيانات المحددة يكون شكلها معقد و غير منظم مثل html الذي نعمل لها information gathering نأخذ البيانات عبر مكتبات urllib او requests او اي مكتبة و نستخدم مكتبة مثل BeautifulSoup لعمل تنظيم للبيانات او بمعنى اصح ندخل للرابط نأخذ البيانات او عمل parsing للبيانات المهمة الذي تلزمنا بعملنا.

لتثبيت هذه المكتبة نستخدم الامر

pip install bs4


معنى bs4 هو اختصار للكلمة BeautifulSoup و الرقم 4 هو الاصدار اي version ,عند انتهاء التثبيت سوف يكتب لنا نجاح العملية كما يلي
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1

هذا يؤكد لنا نجاح عملية التثبيت بنجاح.

المكتبة كبيرة جداً إذا نريد شرحها كاملة سوف تأخذ وقت كبير جداً, لكن سنتحدث عن اهم النقاط بها فقط و كيفية استخدامها بعملية parser او استخراج للبيانات.

>>> from bs4 import BeautifulSoup
>>> import requests
>>> url = "https://www.google.com/search?q=programmer-tech"
>>> res = requests.get(url)
>>> soup = BeautifulSoup(res.content,'html.parser')
>>> soup.title
<title>programmer-tech - Google'da Ara</title>
>>>  
في البداية استدعينا جزء من مكتبة bs4 وهو BeautifulSoup و بعده استدعينا مكتبة requests ثم وضعنا رابط موقعنا في متغير variable كما يظهر في متصفح جوجل اي قيمة الـ q ثم استخدمنا متغير آخر res و عيننا له requests و قلنا له بالذهاب للموقع المحدد في المتغير url هكذا اصبح لدينا بيانات html مخزنة في requests سنحتاج لإستخدام BeautifulSoup ثم وضعنا متغير soup و قيمته طلب بيانات الـ html عن طريق res.content ثم عملنا parser للداتا و بعده استعرضنا العنوان title و اعطانا إياه.

اذا كتبنا
>>> soup.title.text
"programmer-tech - Google'da Ara"
>>>
اخرج لنا البيانات بدون تاج.


اذا نريد طباعة الداتا كاملة نكتب
>>> soup.prettify()

عند الضغط على Enter سيأخذ وقت و يطبع كامل الداتا.

للتعرف اكثر على هذه المكتبة و كيف عمل استخراج بيانات لموقع ما او اسم من الشبكة العنكبوتية سأضع لكم رابط كتاب بسيط صغير يشرحها و يشرح عملها بالتفصيل.

لتحميل الكتاب اضغط هنا أو على صورة التحميل.
http://www.mediafire.com/file/yh23q16axg2a9if/beautifulsoup4.pdf/file

ليست هناك تعليقات:

إرسال تعليق

facebook

تسميات

تواصل معنا

Translate

أخر الافكار

من انا

authorمبرمجين ويب و محبين للتقنية و الشبكات و امن المعلومات و سوف نقدم لكم الافضل إن شاء الله
أعرف المزيد ←

نموذج الاتصال

الاسم

بريد إلكتروني *

رسالة *

اقسام