استفاده گوگل از فیلترهای بلوم، داده های فیلتر شده بالاتر را در کنسول جستجو توضیح می دهد
به گزارش reportaj.me و به نقل از searchenginejournal در آخرین قسمت از جلسه پرسش و پاسخ ماهانه ساعات اداری Google، سؤالی در مورد حجم بالاتر داده های فیلتر شده در مقایسه با داده های کلی در کنسول جستجوی Google مطرح شد. این سوال پاسخ مفصلی را از گری ایلیس، یکی از اعضای تیم روابط
به گزارش reportaj.me و به نقل از searchenginejournal در آخرین قسمت از جلسه پرسش و پاسخ ماهانه ساعات اداری Google، سؤالی در مورد حجم بالاتر داده های فیلتر شده در مقایسه با داده های کلی در کنسول جستجوی Google مطرح شد.
این سوال پاسخ مفصلی را از گری ایلیس، یکی از اعضای تیم روابط جستجوی گوگل، که استفاده گوگل از فیلترهای شکوفایی را روشن کرد، به همراه داشت.
داده های نامتناسب در کنسول جستجو
سوال این بود که “چرا داده های فیلتر شده بالاتر از داده های کلی در کنسول جستجو است، هیچ منطقی ندارد.”
در ظاهر، این ممکن است به عنوان یک تناقض به نظر برسد.
انتظار این است که داده های کلی باید جامع تر و در نتیجه گسترده تر از هر زیر مجموعه فیلتر شده باشد.
با این حال، این چیزی نیست که کاربران تجربه می کنند. اینجا چه خبره؟
کنسول جستجو و فیلترهای بلوم
ایلیس پاسخ خود را اینگونه آغاز می کند:
پاسخ کوتاه این است که ما به شدت از چیزی به نام فیلترهای بلوم استفاده می کنیم زیرا باید داده های زیادی را مدیریت کنیم و فیلترهای بلوم می توانند در زمان و فضای ذخیره سازی ما صرفه جویی کنند.
وقتی شما تعداد زیادی آیتم را در یک مجموعه مدیریت می کنید، و منظورم میلیاردها آیتم است، اگر نگوییم تریلیون ها، جستجوی سریع چیزها فوق العاده سخت می شود. اینجاست که فیلترهای بلوم به کار میآیند.»
فیلترهای بلوم با مراجعه به مجموعه جداگانه ای از داده های هش شده یا کدگذاری شده، جستجو در داده های بزرگ را سرعت می بخشند.
ایلیز توضیح می دهد که این امکان تجزیه و تحلیل سریعتر اما کمتر دقیق را فراهم می کند:
«از آنجایی که ابتدا به دنبال هش میگردید، بسیار سریع است، اما هش کردن گاهی اوقات با از دست دادن دادهها همراه میشود، چه هدفمند یا غیر هدفمند، و این دادههای از دست رفته همان چیزی است که شما تجربه میکنید: دادههای کمتر برای مرور به معنای پیشبینی دقیقتر در مورد اینکه آیا چیزی وجود دارد یا خیر. در مجموعه اصلی وجود دارد یا نه، و این دادههای از دست رفته همان چیزی است که شما تجربه میکنید: دادههای کمتری که باید از طریق آنها مرور شود به معنای پیشبینی دقیقتر درباره وجود یا عدم وجود چیزی در مجموعه اصلی است.
اساساً، فیلترهای بلوم با پیشبینی اینکه آیا چیزی در مجموعه دادهای وجود دارد یا خیر، جستجوها را سرعت میبخشند، اما به بهای دقت، و هرچه مجموعه داده کوچکتر باشد، پیشبینیها دقیقتر هستند.
سرعت بیش از دقت: یک معامله عمدی
توضیح ایلیز یک مبادله عمدی را نشان می دهد: سرعت و کارایی بیش از دقت کامل.
این رویکرد ممکن است شگفتانگیز باشد، اما زمانی که با مقیاس وسیع دادهای که Google روزانه مدیریت میکند، یک استراتژی ضروری است.
به طور خلاصه
دادههای فیلتر شده میتواند بالاتر از دادههای کلی در کنسول جستجو باشد، زیرا Google از فیلترهای بلوم برای تجزیه و تحلیل سریع حجم وسیعی از دادهها استفاده میکند.
فیلترهای بلوم به گوگل این امکان را می دهند که با تریلیون ها نقطه داده کار کند، اما برخی از دقت را قربانی می کنند.
این مبادله عمدی است. گوگل بیشتر از دقت ۱۰۰ درصد به سرعت اهمیت می دهد. نادرستی های جزئی ارزش آن را دارد که گوگل به سرعت داده ها را تجزیه و تحلیل کند.
بنابراین، این اشتباه نیست که ببینیم داده های فیلتر شده بالاتر از داده های کلی هستند. این نحوه عملکرد فیلترهای شکوفه است.
ارسال نظر شما
مجموع نظرات : 1 در انتظار بررسی : 1 انتشار یافته : ۰