وباسکرپینگ و وبکراولر چیست؟ + انواع آنها و معرفی ابزار ها
وباسکرپینگ(web scraping) چیست؟
انواع تکنیک های وباسکرپینگ
فرآیند استخراج و یا جمعآوری اطلاعات از صفحات وب روش ها و تکنیک های متفاوتی دارد. حتی ابزارهایی هم برای آن ساخته شده است که از این ابزارها میتوان به افزونه web scraper اشاره کرد.
اما انواع تکنیک ها را میتوان در لیست زیر مشاهده کرد:
- HTTP Programming
- Computer vision web-page analysis
- Text pattern matching
- Semantic annotation recognizing
- HTML parsing
- DOM parsing
انواع ابزار های وباسکریپینگ
- Wget
- Apify
- Scrapy
- cURL
- HtmlUnit
- HTTrack
وب کراولر (crawl) چیست؟
گاهی اوقات لازم است که برنامه ما در جاهای مختلف یک وبسایت حرکت کند، ( اصطلاحاً خَزش کند) که به این کار وبکراولر میگویند.
برای مثال فهرست کتاب درسی خود را بازکنید در این فهرست، نمایش داده ها بر اساس حروف الفبا و صفحات درج شده کتاب را میبینید.
تفاوت آن موتور جستجو با کتاب این است که بجای شماره گذاری صفحه، یک موتور جستجو پیوندهایی را به شما نشان می دهد؛
و شما میتوانید اطلاعات مورد نظر را انتخاب کنید.
تفاوت مهم شاخص های جستجو و کتاب این است که اولی پویاست و میتوان آن را به شکل دلخواه تغییر داد.
انواع اصلی خزنده وب
خزنده های وب فقط محدود به موتور های جستجو نیستند و انواع مختلفی دارند.
خزیدن ایمیل
این نوع خزش برای کسبکار ها میتواند بسیار مفید باشد، مثلا براساس نوع زمینه کاری، مخاطبین مناسب را جذب کرد.
البته این کار بدون اجازه صاحب ایمیل ها غیرقانونی است.
خزیدن اخبار
با ظهور اینترنت، اخبار سراسر دنیا میتوانند به سرعت در سراسر وب پخش شود و استخراج داده ها از وب سایت های مختلف کاملا غیر قابل کنترل است.
خزنده های زیادی وجود دارند که بتوانند این نوع خزش را انجام دهند، چنین خزنده هایی قادر به بازیابی اطلاعات از، اطلاعات قدیمی، جدید و مطالب خبری آرشیو شده است.
خزیدن تصویر
همانطور که از نام آن پیداست، این نوع خزیدن بر روی تصاویر انجام میشود؛
اینترنت پر تصاویر مختلف است، بنابراین چنین ربات هایی به افراد کمک میکند تا تصاویر مرتبط را در انبوهی از تصاویر در سراسر وب پیدا کنند.
خزیدن در شبکه های اجتماعی
خزیدن در شبکه های اجتماعی جالب است زیرا همه شبکه های اجتماعی اجازه خزش را نمیدهند.
همچنین باید به خاطر داشته باشید که چنین خزشی اگر نقض رعایت حریم خصوصی داده ها باشد ، غیرقانونی است.
اما هستند شبکه های اجتماعی که اجازه خزش بدهند.
برای مثال توییتر اجازه میدهد صفحاتی را که برای کاربر حساس نیستند و اطلاعات شخصی را فاش نمیکنند، اسکن کنند. فیس بوک و لینکدین در این مورد سخت گیری می کنند.
خزیدن ویدئو
بعضی اوقات تماشای فیلم بسیار راحت تر از خواندن مطالب زیاد است.
اگر تصمیم دارید Youtube ،Vimeo یا هر محتوای ویدیویی دیگری را در وب سایت خود قرار دهید ، میتواند توسط برخی از خزنده های وب فهرست شود.
نگهداری از خزنده ها
وب سایت ها مرتباٌ ساختار html خود را تغییر میدهند، که باعث ایجاد خرابی خزنده ما میشوند، این یکی از مشکلات وباسکریپینگ است که باید توجه خاصی به آن داشت.
فرقی ندارد که شما کدنویسی کرده باشید یا از نرمافزار استفاده کرده باشید خزنده شما نیاز به نگهداری دارد، تا اطلاعات شما منظم، دقیق و اصولی باشد.
قوانین ومقررات
نکته مهمی که باید حتما رعایت شود این است که زمانی که میخواهید وبکراولینگ و وباسکرپینگ انجام دهید، حتما از قوانین مطلع باشید که زیر پا نگذارید؛
چون وقتی ما اطلاعات را از وبسایتها بر میداریم و ذخیره میکنیم لازم است که ما کپیرایت و حقوق آن سایت را رعایت کنیم.
بعضی از وبسایتها از نظر قانونی رضایت ندارند که از اطلاعات آنان استفاده تجاری کنیم.
یکی از راه های راحتی که میشود این موضوع را تشخیص داد که از کدام اطلاعات وبسایتها میشود استفاده کرد، این است که در نوار آدرس مرورگر به فرمت زیر عمل کنیم.
این کار یکسری قوانین را به شما نشان خواهد داد که طبق آن میتوانید وبسایت را کراول کنید.
درواقع در این صفحه وب به شما میگوید که کدام صفحه را حق اسکرپ کردن دارید و کدام را ندارید.
یکی دیگر از مواردی که این صفحه به شما میگوید این است که کدام صفحات را چند بار حق خواندن توسط کُدتان را دارید.
آن هم به این دلیل است که اگر بیش از اندازه این درخواست ها به سرور و لود شدن صفحات صورت بگیرد، بار زیادی را بر روی سرور آن سایت خواهد داشت.
و البته قوانین کپیرایت آن سایت را هم مطالعه کنید که به مسائل قانونی دچار نشوید.
پایتون و علوم داده
پایتون یکی از مهم ترین ابزار ها در علوم داده است، و همانطور که انتظار میرود کتابخانه های زیادی هم برای این موضوع وجود دارد.
ما در دوره پایتون مهارتمحور این کتابخانه ها را پوشش دادهایم.
در کامنت ها راجعبه قوانین کپیرایت و صفحات قابل استفاده وبسایتها کامنت کنید، تا باهم بیشتر در تعامل باشیم.
این پست مفید بود ؟
به این پست امتیاز بدین !
امتیاز تا کنون: / 5. تعداد امتیاز ها:
هنوز کسی امتیاز نداده! شما اولین نفر باشین!
از این که نتونستیم نظرتون رو جلب کنیم متاسفیم.
بهمون کمک کنین !
چه طوری کیفیت کارمون رو بهتر کنیم ؟
مطالب زیر را حتما بخوانید
-
انواع زبان های برنامهنویسی چه کاربردی دارند؟
3.08k بازدید
-
برای برنامه نویسی پایتون کجا باید کد بزنیم؟ | محیط های کد زنی پایتون
11.59k بازدید
-
آموزش نصب پایتون در ویندوز 10 + رفع مشکلات
16.36k بازدید
-
گیت(git) چیست؟ و چه کاربردی دارد؟
4.55k بازدید
-
فریم ورک چیست و چه کاربردی دارد؟
4.05k بازدید
-
API(ای پی آی) چیست و چه کاربردی دارد؟ | همه چیز راجعبه API ها
5.58k بازدید
دیدگاهتان را بنویسید