כניסה למערכת מאמרים

               אין חשבון עדיין?

אינטרנט ומחשבים

הכנת זחלן-רשת (Web Spider) בפלאש

  • PDF
דירוג משתמש: / 0
גרועהכי טוב 

מהו זחלן-רשת?
זחלן-רשת הוא תוכנת מחשב שסורקת אתרי-אינטרנט בזה אחר זה ומבצעת פעולות המבוססות על התוכן הנמצא בדפי-האתרים. המעבר של זחלן-הרשת מאתר לאתר מבוצע ע"י זיהוי הקישורים החיצוניים (קישורים לאתרים אחרים) שנמצאים באתר הנוכחי שנסרק. לדוגמא, זחלן-הרשת מתחיל מכתובת של אתר אינטרנט ומבצע את הפעולות הבאות: קבלת קוד ה-HTML של העמוד הראשי באתר, ניתוח קוד ה-HTML, שליפת הקישורים (תגי <a>) וסיווג כל קישור כקישור שמוביל לעמוד אחר באותו האתר (קישור פנימי) או כקישור שמוביל לאתר אחר (קישור חיצוני), לאחר מכן ביצוע אותם הפעולות בעמוד הבא באתר (שנשלף מרשימת הקישורים הפנימיים). בתום סריקת דפי-האתר, הזחלן מתקדם לאתר הבא מתוך רשימת הקישורים החיצוניים שנוצרה. כך הזחלן סורק את הרשת, דף אחר דף, אתר אחר אתר.

זחלן-הרשת של גוגל
זחלן-הרשת של גוגל סורק את כל הדפים שנמצאים באינטרנט בתדירות שונה לכל אתר (בהתאם לקצב השינויים באתר). הרובוט שומר את קוד ה-HTML של העמודים כדי שבשלב מאוחר יותר, קוד זה ישמש כקלט של האלגוריתמים של גוגל, המדרגים את העמודים וקובעים את מיקומם בתוצאות החיפוש. כאשר מבוצעת בקשה לקבלת דף-אינטרנט משרת Web, היא מבוצעת בפרוטוקול HTTP, אחד השדות בפרוטוקול HTTP הוא השדה UserAgent המכיל מחרוזת שמזהה את התוכנה שביצעה את הבקשה (לדוגמא שם הדפדפן שהגולש משתמש בו). כשהזחלן של גוגל מבקש דף-אינטרנט, בשדה UserAgent מופיעה המחרוזת Googlebot. שרת ה-Web יכול לדעת מהו ערך השדה UserAgent ולפיכך לדעת מתי הזחלן של גוגל סרק כל עמוד.

איך להכין זחלן-רשת בפלאש
ניתן להכין זחלן-רשת בפלאש (בשפת AS3) ע"י שימוש במחלקה URLLoader.
סדר הפעולות ליצירת זחלן-רשת:
א. שימוש במחלקה URLLoader כדי לקבל את קוד ה-HTML של דף האינטרנט הראשון ממנו הזחלן יתחיל לפעול. קוד ה-HTML מתקבל באמצעות הגדרת האירוע Event.COMPLETE.
ב. ניתוח קוד ה-HTML ע"י שימוש ב: Regular Expressions, indexOf, lastIndexOf, substr, substring כדי לשלוף את כל הקישורים הפנימיים (שמובילים לדפים אחרים בתוך האתר) והקישורים החיצוניים (שמובילים לאתרים אחרים).
ג. ביצוע פעולות שונות בהתאם למטרות הזחלן, הקלט של הפעולות הוא קוד ה-HTML של העמוד.
ד. שימוש ב-URLLoader שוב בצורה רקורסיבית על פני כל אחד מהעמודים ברשימת הקישורים הפנימיים ולאחר סריקת כל עמודי האתר, מעבר לאתר חדש.




עוד כתבות :

» מלחמת גוגל-פייסבוק מחריפה: הכירו את כפתור GOOGLE +1

דמיינו לעצמכם: אתם קמים בבוקר, מפהקים, מתיישבים מול המחשב ומחפשים משהו בגוגל, ואז, לתדהמתכם, אתם רואים שעל אחת מתוצאות החיפוש, חבר שלכם איציק כהן, המליץ. לא תיכנסו? בוודאי שכן. זהו בדיוק השרות החדש של גוגל, GOOGLE +1, שירות המלצות חברתי הדומה לכפתור ה"לייק" של פייסבוק, ומאפשר לגולשים לסמן תוצאות חיפוש או פרסומות של גוגל המוצאות חן בעיניהם. שירות זה הוא תגובה ישירה...

» קידום אתרים בחו"ל

קידום אתרים בחו"ל , בדומה לקידום אתרים בארץ, הוא קידום אתרים המבוסס על שיטות קידום ידועות. יחד עם זאת השוני הוא בגמישות מנועי החיפוש עבור שיטות קידום שנחשבות לשיטות פסולות. הוא תחום שתופס תאוצה רבה בשנים האחרונות. ישנו מגוון הולך וגדל של חברות ועסקים שגילו את הפוטנציאל העסקי הטמון באינטרנט. חברות אלה מזמינות אתרים מסחריים שדרכם הן נפתחות לקהל לקוחות רחב...

» קידום אתרים בעזרת מאמרים

קידום אתרים הינו תהליך מורכב. ישנם שיטות רבות לקדם את האתר. אחד השיטות היא להוסיף לתוכן האתר מאמרים מקצועיים העוסקים בתחום פעילותו של האתר. באמצעות מאמרים מתבצע על ידי צבירת כמות גדולה של מאמרים רלוונטיים המתחדשים מדי פעם ונגישים לגולשים המגיעים לאתר המקודם. מאמרים תורמים לאתר המקודם במספר תחומים. חשוב לכתוב ולבנות את המאמרים בהתאם למטרה שהם אמורים...

» שלבים בפיתוח משחק פלאש

שלב ראשון: איפיוןתהליך הפיתוח מתחיל בשלב האיפיון, בשלב זה נכתב מסמך ע"י הלקוח או ע"י , המכיל את הפונקציונאליות הדרושה וגם את שירטוטי החלונות השונים. ככל שהאיפיון יהיה מפורט יותר ולא יהיו בו חלקים חסרים, כך משך הזמן שיידרש לשלבי העבודה הבאים יהיה קצר יותר והמשחק יהיה בנוי בצורה טובה יותר שתאפשר לבצע עידכונים בעתיד בפשטות.שלב שני: עיצובבשלב זה המעצב מכין את...

» הכנת רובוט למשחק הדו-פרצופי בערוץ 2

בכל יום שישי בערב, יגאל שילון מנחה משחק טלוויזיוני בשם: . במשחק מוצגת תמונה של פרצוף המורכב מפרצופם של שני מפורסמים, משתתף עולה לשידור ובמידה וגילה מיהם שני המפורסמים - זוכה במכונית. ביום שישי האחרון שני המפורסמים היו: בוני גינצבורג ובר רפאלי. כדי להשתתף במשחק הטלוויזיוני צריך לשחק במשחק האינטרנטי באתר המשחקים של מאקו ולצבור את הניקוד הגבוה ביותר בכל השבוע....

» פרוטוקולי-רשת בפלאש

מהו פרוטוקול?פרוטוקול הוא הגדרה של רצף אירועים המתרחשים בזה אחר זה כדי לבצע פעולות מסויימות. לדוגמא: כדי ששיחת טלפון תתקיים, צד אחד צריך לחייג והצד השני לענות. רק לאחר מכן שני הצדדים יוכלו לדבר בינהם. דוגמא אחרת לפרוטוקול-רשת באינטרנט: הפרוטוקול FTP (File Transfer Protocol) מגדיר איך קובץ יכול להישלח ממחשב אחד לאחר. הפרוטוקול מגדיר איך הקשר הראשוני נוצר, שמות הפקודות...

» מבוא לפיתוח משחקים מרובי-משתתפים

למה לפתח משחק מרובה-משתתפים?משחקים מרובי-משתתפים מורכבים יותר להכנה מאשר משחקים לשחקן אחד. בדרך כלל הסיכוי של משחק עם האפשרות לשחק נגד שחקנים אמיתים להצליח הוא גבוה יותר. לדוגמא: משחק  בפייסבוק אשר פותח ע"י חברת זינגה העוסקת בתחום  - לא היה מגיע למימדי הצלחה כאלו אם השחקנים האחרים לא היו אמיתיים. לפעמים אפשר להוסיף למשחק של שחקן אחד את האפשרות לשחק...

» זיהוי רובוטים במשחקים מרובי-משתתפים

מהו משחק מרובה-משתתפים?משחק מרובה-משתתפים (הנכתב ע"י  למשל) הוא כל משחק בו משתתף יותר משחקן אחד בו-זמנית (לדוגמא: , שש בש ובינגו).אפשר לחלק משחקים מרובי-משתתפים לשתי קבוצות: הקבוצה הראשונה מכילה משחקים בהם משתתפים שני שחקנים בלבד (לדוגמא: שחמט, שש בש ודמקה) והקבוצה השנייה מכילה משחקים בהם משתתפת קבוצת שחקנים (לדוגמא: פוקר ובינגו). במשחקים מרובי-משתתפים כל...

» פלטפורמה למשחקים של שני שחקנים

למה להשתמש בפלטפורמה?בשנתיים האחרונות פיתחתי פלטפורמה למשחקים של שני שחקנים עם משחק אחד לדוגמא (שפועל על גבי הפלטפורמה) - .היתרון בפיתוח פלטפורמה הוא שכעת ניתן לפתח משחקים אחרים בהם שני שחקנים משחקים אחד נגד השני (לדוגמא: שחמט ודמקה), ללא פיתוח מחדש של כל המערכת, אלא רק החלק הספיציפי של המשחק. כל יתר החלקים (כגון: ממשק הניהול, לובי, טורנירים וכדומה) נשארים...

» התקפת DDoS באמצעות פלאש

התקפת DDoS (Distributed Denial of Service) הינה התקפה המבוצעת ע"י מספר גדול של גורמים (לדוגמא: מחשבים שונים באינטרנט) על גורם מסויים אחד (לדוגמא: אתר אינטרנט).מטרת התקיפה היא לגרום להשבתת פעילות הגורם (לדוגמא: מניעה מאתר מסויים לתת שירות לגולשיו), בהמשך אפרט איך ניתן מקובץ בלתי-מזיק לכאורה ליצור התקפה מאסיבית על אתרי אינטרנט.התקפות DDoS מבוצעות ע"י ניצול המשאבים של הגורם...