پروژه خزنده وب
این یک پروژه ساده به منظور جمع آوری دیتا از وب سایت ها و تالار های گفتگو می باشد که با زبان PHP نوشته شده است
مدتی قبل نیاز به جمع آوری داده های یک موضوع خاص در یک انجمن گفتگو داشتم که موضوع مربوطه بیش از 100 صفحه آرشیو داشت و هر صفحه ۱۰ ارسال داشت. به صورت معمول جمع آوری این مقدار داده به صورت دستی کاری طاقت فرسا و دشوار است. بنا بر این یک اسکریپت خزنده با زبان php نوشتم که بتوانم تمامی این مطالب مورد نظر را به صورت خودکار جمع آوری و در دیتابیس ذخیره کنم که در نهایت تبدیل به یک پروژه جذاب برای من شد. همچنین در ادامه شاخه های دیگری از این پروژه را توسعه دادم که منجر به دریافت اطلاعات خاص تری مانند جمع آوری عکس های یک وبسایت خاص و یا جستجو در لینک های تو در تو شد.
نسخه شماره ۱ از این اسکریپت را در گیتهاب منتشر کرده ام و در ادامه به توضیحاتی در خصوص کارکرد آن میپردازم.
اطلاعات فنی در مورد این اسکریپت:
- زبان اسکریپت: php
- دیتابیس: mysql
قابلیت های این اسکریپت:
- جمع آوری اطلاعات پست های تالار های گفتگو و وبسایت ها
- ذخیره اطلاعات جمع آوری شده در دیتابیس
- قابلیت جستجو در بین داده های ذخیره شده به صورت Ajax
- قابلیت مشاهده کلیه داده های ذخیره شده به صورت صفحه بندی
ویدئوی نحوه کار این اسکریپت را در زیر میتوانید مشاهده کنید
در ویدئو به طور مثال تمامی پست های مربوط به تاپیک «زیباترین شعرهای نو (شعرهای کوتاه)» از انجمن شهر سخت افزار را استخراج میکنیم.
توجه: اسکریپت تمامی محتوای بین دو تگ معرفی شده را استخراج میکند که این مورد شامل تگ های html نیز میباشد.
جهت مشاهده سورس کد پروژه میتوانید به مخزن گیت هاب از طریق لینک زیر مراجعه نمائید: