การสืบค้นข้อมูลสารสนเทศ

คำนิยาม
แหล่งข้อมูลสารสนเทศบนอินเทอร์เน็ตเป็นแหล่งข้อมูลทางอิเล็กทรอนิกส์ที่สำคัญ และ ใหญ่ที่สุดมีการเปลี่ยนแปลงอยู่ตลอดเวลาแทบทุกวินาที และมีข้อมูลหลากหลายประเภท ดังนั้นในการค้นหาข้อมูลที่ต้องการนั้น เป็นเรื่องที่ทำได้ยากมาก จึงได้มีการจัดทำเครื่องมือหรือเว็บไซต์ที่อำนวยความสะดวกในการสืบค้นข้อมูลและข่าวสารให้แก่ผู้ใช้อินเตอร์เน็ต จากแหล่งข้อมูลเว็บไซต์ต่างๆ ขึ้นมา

วัตถุประสงค์ในการสืบค้นข้อมูลสารสนเทศ
วัตถุประสงค์ในการสืบค้นข้อมูลสารสนเทศ มีมากมาย เช่น
1. เพื่อหาข้อมูลไปทำรายงาน
2. เพื่ออ่านข่าวสารสถานการณ์ต่างๆ ที่ต้องการ
3. เพื่อความบันเทิง

ความหมายของ search engine
Search Engine คือ เครื่องมือการค้นหาข้อมูลผ่านอินเตอร์เน็ต ที่ทุกคนสามารถหาข้อมูลผ่านอินเตอร์เน็ตก็ได้ โดยกรอก ข้อมูลที่ต้องการค้นหา หรือ Keyword (คีย์เวิร์ด) เข้าไปที่ช่อง Search Box แล้วกด Enter แค่นี้ข้อมูลที่เราค้นหาก็จะถูกแสดงออกมาอย่างมากมาย เพื่อให้เราเลือกข้อมูลตรงกับความต้องการของเรามากที่สุด โดยลักษณะการแสดงผลของ Search Engine นั้นจะทำการแสดงผลแบบ เรียงอันดับ Search Results ผ่านหน้าจอคอมพิวเตอร์ของเรา


ประเภทของ search engine
1. แบบอาศัยการเก็บข้อมูลเป็นหลัก (Crawler-Based Search Engine)
หลักการนี้เป็นการใช้เครื่องมือที่เรียกว่า Crawler-Based Search Engine เป็นเครื่องมือที่ทำการบันทึกและเก็บข้อมูลเป็นหลัก ซึ่งเป็นประเภท Search Engine ที่ได้รับความนิยมมากที่สุดในปัจจุบันซึ่งการทำงานประเภทนี้ จะใช้โปรแกรมตัวเล็ก ๆ ที่เรียกว่า Web Crawler หรือ Spider หรือที่เรียกอีกอย่างว่า Search Engine Robots หรือที่เรียกสั้น ๆ ว่า บอท ในภาษาไทย www คือเครือข่ายใยแมงมุม ตัวโปรแกรมเล็ก ๆ ตัวนี้ก็คือแมงมุมนั่นเอง โดยเจ้าแมงมุมตัวนี้จะทำการไต่ไปยังเว็บไซต์ต่าง ๆ ทั่วโลกอินเตอร์เน็ต โดยอาศัยไต่ไปตาม URL ต่าง ๆ ที่มีการเชื่อมโยงอยู่ในแต่ละเพจ แล้วทำการ Spider กวาดข้อมูลที่จำเป็นต่าง ๆ (ขึ้นอยู่กับ Search Engine แต่ละที่ว่าต้องการเก็บรวบรวมข้อมูลอะไรบ้าง) แล้วเก็บลงฐานข้อมูล การใช้โปรแกรมกวาดข้อมูลแบบนี้ จึงทำให้ข้อมูลที่ได้มีความแม่นยำ และสามารถเก็บรวบรวมข้อมูลได้เร็วมาก Search Engine ที่เป็นประเภทนี้ เช่น Google Yahoo MSN
2. แบบสารบัญเว็บไซต์ (Web Directory)
Search Engine ที่เป็นแบบนี้มีอยู่หลายเว็บไซต์มาก ๆ ที่ดังที่สุดในเมืองไทย ที่เอ่ยออกไปใครใครคงต้องรู้จัก นั้นก็คือที่สารบัญเว็บของ Sanook.com ซึ่งหลาย ๆ คนคงเคยเข้าไปใช้บริการ หรืออย่างที่ Truehits.com เป็นต้น สิ่งที่เราจะสังเกตเห็นจาก Search Engine ประเภทนี้ก็คือ ลักษณะของการจัดเก็บข้อมูลที่แสดงให้เราเห็นทั้งหมด ว่ามีเว็บอะไรบ้างอยู่ในฐานข้อมูล ซึ่งแตกต่างจากประเภทแรก ที่หากคุณไม่ค้นหาโดยใช้คำค้น หรือ Keyword แล้ว คุณจะมีทางทราบเลยว่ามีเว็บไซต์อะไรอยู่บ้าง และมีเว็บอยู่เท่าไหร่ แบบสารบัญเว็บไซต์ จะแสดงข้อมูลที่รวบรวมเว็บไซต์ที่มีทั้งหมดในฐานข้อมูล และจะแบ่งเป็นหมวดหมู่ และอาจจะมีหมวดหมู่ย่อย ซึ่งผู้ค้นหาข้อมูลสามารถคลิกเข้าไปดูได้ หลักการทำงานแบบนี้ จะอาศัยการเพิ่มข้อมูลจากเจ้าของเว็บไซต์ต่าง ๆ ที่ต้องการประชาสัมพันธ์เว็บ หรืออาจใช้เจ้าหน้าที่ที่ดูแลส่วน Search Engine เป็นผู้หาข้อมูลเว็บไซต์มาเพิ่มในฐานข้อมูล ซึ่งข้อมูลในส่วนของสารบัญเว็บไซต์จะเน้นในด้านความถูกต้องของฐานข้อมูล ซึ่งข้อมูลเว็บไซต์ที่ถูกเพิ่มเข้ามาจะถูกตรวจสอบและแก้ไขจากผู้ดูแล
3. แบบอ้างอิงในคำสั่ง Meta Tag (Meta Search Engine )
Search Engine ประเภทนี้จะอาศัยข้อมูลใน Meta tag ซึ่งเป็นส่วนของข้อมูลที่อยู่ในแท็ก HEAD ของภาษา HTML ซึ่งข้อมูลในส่วนนี้ จะเป็นส่วนที่ให้ข้อมูลกับ Search Engine Robots
Search Engine ประเภทนี้ไม่มีฐานข้อมูลของตนเอง แต่จะอาศัยข้อมูลจาก Search Engine Index Server ของที่อื่น ๆ ซึ่งข้อมูลจะมาจาก Server หลาย ๆ ที่ ดังนั้น จึงมักได้ผลลัพธ์จากการค้นหาที่ไม่แม่นยำ ตัวอย่างเว็บที่ใช้งานประเภทนี้ metacrawler.com

เทคนิคการสืบค้นข้อมูล
เพื่อประหยัดเวลาในการสืบค้น ได้ข้อมูลในปริมาณไม่มากเกินไป และได้ผลการสืบค้นที่ตรงตามประสงค์ของผู้สืบค้น สามารถใช้เทคนิคเหล่านี้ ได้แก่

1. เลือก Search Engine ที่เหมาะสม

2. เลือกเว็บไซต์ที่อยู่ใกล้และอยู่ในช่วงเวลาที่เหมาะสม

3. การเลือกใช้คำสำคัญ (Keyword) หรือหัวเรื่อง(Subject) ที่ตรงกับเรื่องที่ต้องการ

4. กำหนดขอบเขตของคำค้น โดยใช้ตัวเชื่อมบูลีน(Boolean Operators) เช่น AND OR NOT
NEAR BEFORE เป็นต้น หรือการค้นวลี(Phrase Searching) การตัดคำ หรือการใช้คำเหมือน ดังต่อไปนี้

4.1 Boolean Operators
- AND หรือ เครื่องหมาย + ใช้เมื่อต้องการให้ค้นเอกสารที่มีคำทั้งสองคำปรากฏ เช่น
ค้นหาคำว่า Research AND Thailand ข้อมูลที่ได้จะมีเฉพาะคำว่า Research และ Thailand อยู่ในเอกสาร
- OR ใช้เมื่อต้องการค้นหน้าเอกสารที่มีคำใดคำหนึ่งปรากฏ เช่น Research OR
Thailand ข้อมูลที่ได้จะมีคำใดคำหนึ่งหรือมีทั้งสองคำปรากฏอยู่ในเอกสาร
- NOT หรือ เครื่องหมาย – ใช้เมื่อต้องการตัดคำที่ไม่ต้องการให้ค้นออก (คำหลัง NOT
หรือ เครื่องหมาย -) เช่น Research NOT Thailand ข้อมูลที่ได้จะมีคำว่า Research แต่จะไม่มีคำว่า
Thailand อยู่ในเอกสาร
- NEAR ใช้เมื่อต้องการให้คำที่กำหนดอยู่ห่างจากกันไม่เกิน 10 คำ ในประโยคเดียวกัน
หรือใกล้เคียงกัน (อยู่ด้านหน้าหรือหลังก็ได้) เช่น Research NEAR Thailand ข้อมูลที่ได้จะมีคำว่า Research และ Thailand ที่ห่างกันไม่เกิน 10 คำ ตัวอย่างเช่น Research on the Cost of Transportation in Thailand
- BEFORE ใช้เมื่อต้องการกำหนดให้คำแรกปรากฏอยู่ข้างหน้าคำหลังในระยะห่างไม่เกิน 8 คำ เช่น Research BEFORE Thailand
- AFTER ใช้เมื่อต้องการกำหนดให้คำแรกปรากฏอยู่ข้างหลังคำหลังในระยะห่างไม่เกิน 8 คำ เช่น Research AFTER Thailand
- (parentheses) ใช้เมื่อต้องการกำหนดให้ทำตามคำสั่งภายในวงเล็บก่อนคำสั่งภายนอก เช่น (Research OR Quantitative) and Thailand

4.2 การค้นวลี (Phrase searching)
เป็นการใช้เครื่องหมายอัญประกาศ (“ ”) เมื่อต้องการกำหนดให้ค้นเฉพาะหน้าเอกสารที่มีการเรียงลำดับคำตามที่กำหนดเท่านั้น เช่น “Methodology Research”

4.3 การตัดคำ (Word stemming / Truncation)
เป็นการใช้เครื่องหมาย asterisk (*) ตามท้ายคำ 3 คำขึ้นไป เพื่อค้นหาคำที่ขึ้นต้นด้วยตัวอักษรที่กำหนด เช่น Research*

4.4 คำพ้องความหมาย (Synonym)
เป็นการใช้คำเหมือนที่มีความหมายเดียวกันหรือใกล้เคียงกันเพื่อช่วยให้ค้นเรื่องที่ครอบคลุม เช่น Ocean Sea Marine

4.5 เขตข้อมูลเพื่อการค้น (Field Searching)
เป็นการกำหนดเขตข้อมูลเพื่อการค้น เช่น ชนิดของข้อมูล หรือที่อยู่ของข้อมูล เป็นต้น
เช่น text: “green tea” url: NASA

4.6 ตัวเล็กตัวใหญ่ถือว่าต่างกัน (Case sensitive)
เป็นการใช้ตัวอักษรใหญ่กับตัวเล็กในความหมายที่แตกต่างกัน เช่นใช้ตัวอักษรใหญ่ขึ้นต้นชื่อเฉพาะ เช่น George W. Bush

4.7 ภาษาธรรมชาติ (Natural Language)
เป็นการสืบค้นจากคำถามที่เป็นภาษาธรรมชาติ เช่น ใช้คำถามภาษาอังกฤษง่ายๆ ที่ต้องการให้ Search Engine หาคำตอบให้ เช่น What is Research?


การใช้งาน google
Google เป็นเว็บไซต์ฐานข้อมูลที่ใหญ่มากแห่งหนึ่งของโลก ในอดีตเป็นบริษัทที่ดำเนินการด้านฐานข้มูลเพื่อให้บริการแก่เว็บไซต์ค้นหา อื่นๆ ปัจจุบันได้เปิดเว็บไซต์ค้นหาเอง ด้วยฐานข้มูลมากกว่าสามพันล้านเว็บไซต์และเพิ่มขึ้นเรื่อยๆ ทุกวัน ที่เหนือกว่าผู้ให้บริการรายอื่นๆ คือ เป็นเว็บไซต์ค้นหาที่สนับสนุนภาษาต่างๆ มากกว่า 80 ภาษาทั่วโลก (รวมทั้งภาษาไทย) และมีเครื่องเซิร์ฟเวอร์ให้บริการในส่วนต่างๆ ของโลกมากถึง 36 ประเทศ

เมื่อเราเปิดบราวเซอร์และพิมพ์ URL : www.google.com ลงไป ด้วยระบบตรวจสอบภาษาของเว็บไซต์ Google เมื่อพบว่าเราใช้บราวเซอร์บนวินโดว์ภาษาไทยระบบจะสวิทช์เป้าหมายมายัง www.google.co.th โดยอัตโนมัติดังภาพข้างบน
บริการค้นหาของ Google แยกฐานข้อมูลออกเป็น 4 หมวด (ในแต่ละหมวดมีการค้นหาแบบพิเศษเพิ่มเติมด้วย) คือ

1. เว็บ : เป็นการค้นหาข้อมูลจากเว็บไซต์ต่างๆ ทั่วโลก
2. รูปภาพ : เป็นการค้นหารูปภาพหลากหลายฟอร์แมตจากเว็บไซต์ต่างๆ ทั่วโลก
3. กลุ่มข่าว : เป็นการค้นหาเรื่องราวที่น่าสนใจจากกลุ่มข่าวต่างๆ
4. สารบบเว็บ : การค้นหาข้อมูลจากเว็บไซต์ที่แยกออกเป็นหมวดหมู่

การค้นหาเว็บแบบเจาะลึก



การค้น หาแบบเจาะลึกเกี่ยวกับเว็บ สามารถระบุรายละเอียดต่างๆ ได้ เพื่อให้สามารถจำกัดวงในการค้นหาให้แคบเข้า เช่น การกำหนดคำหลักที่ต้องการ คำที่คล้ายคลึงและคำที่ไม่ต้องการให้ปรากฏอยู่ด้วย กำหนดเฉพาะภาษา ชนิดของไฟล์ (เอกสารเว็บ(html) เอกสารเวิร์ด (word)) ช่วงระยะเวลาที่เอกสารนั้นสร้างขึ้น จากโดเมนเว็บไซต์ชื่ออะไร เป็นต้น



การค้นหาภาพระดับสูง

การ ค้นหาภาพเพื่อให้สามารถค้นหาได้รวดเร็วควรใช้การค้นหาระดับสูง เพราะสามารถระบุชื่อหรือบางส่วนของชื่อ ชนิดรูปภาพเป็นไฟล์ฟอร์แมตใด (JPG, GIF, PNG) ชนิดของสี (Black/White, Grayscale, Color) ชื่อของโดเมนที่คาดว่าน่าจะมีภาพนั้นๆ

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

พัฒนาการของอินเทอร์เน็ต และประโยชน์ของเทคโนโลยีสารสนเทศ น่ารู้

ประโยชน์และตัวอย่างของการใช้เทคโนโลยีสารสนเทศและการสื่อสาร