TF-IDF یا فراوانی وزنی کلمات کلیدی چگونه محاسبه می‌شود؟

Q: هدف TF-IDF چیست؟

ارزیابی اهمیت کلمات در اسناد مختلف با توجه به فراوانی آنها در یک سند خاص و در کل مجموعه اسناد.

نویسنده: درسا والامقام

شنبه 27 بهمن 1403

مطالعه: ۲۰ دقیقه ۰ نظر ۱۳۳۸ بازدید

در این مقاله میخوانید

TF-IDF چیست؟
TF یا Term Frequency در TF-IDF چیست؟
IDF در TF-IDF چیست؟
محاسبه TF-IDF چگونه است؟
کاربرد TF-IDF چیست؟
رابطه سئو و TF-IDF چیست؟
مزایای TF-IDF چیست؟
معایب TF-IDF چیست؟
TF-IDF و رتبه‌بندی گوگل
تفاوت چگالی کلمات با TF-IDF چیست؟
چه زمانی باید از تحلیل TF-IDF استفاده کرد؟
استفاده از 3 ابزار برای تحلیل TF-IDF
۳. تحلیل TF-IDF با ابزار SEMRush
بهینه سازی TF-IDF با تمرکز بر کاربر
استفاده از TF-IDF برای سئو
TF-IDF Vectorizer چیست؟
CountVectorizer چیست؟
مقایسه CountVectorizer و TF-IDFVectorizer
ماتریس Term-Term چیست؟
جمع‌بندی
سؤالات متداول

TF-IDF یا Frequency-inverse document frequency به موتورهای جستجو کمک می‌کند تا ارزش و اهمیت محتوای شما را درک کرده و آن را در جایگاه مناسب قرار دهد. این کار نیز به طور کلی، با شمارش تعداد کلمات مهم یک محتوا و مقایسه آن با تعداد همین کلمه در محتواهای مشابه انجام می‌شود. در این راهنما از بخش آموزش سئو در سایت پارس‌‎پک، تعریف و فرمول‌ این پارامتر را با مثال می‌بینید و با کاربردها، مزایا و معایب آن آشنا می‌شوید. به‌علاوه یاد می‌گیرید که چطور این پارامتر را پیدا کنید و چگونه محتواها و سئوی وب‌سایت را بر اساس آن بهینه کنید.

TF-IDF چیست؟

TF-IDF مخفف عبارت Frequency-inverse document frequency و به معنی فراوانی وزنی کلمات است. TF-IDF یکی از تکنیک‌های پردازش زبان طبیعی (NLP) و بازیابی اطلاعات از اسناد متنی است. روش کلی این تکنیک این است که با تحلیل تعداد کلمات کلیدی (Keywords) مختلف در یک سند (نسبت به مجموعه‌ای از اسناد) میزان اهمیت هر یک از آن‌ها را تعیین می‌کند.
TF-IDF در سئو نیز همین سازوکار را دارد. با این نکته مهم که موتورهای جستجو، از این تکنیک برای درک بهتر موضوع محتوا و بعد رتبه‌بندی (Ranking) صفحات استفاده می‌کند. در واقع گوگل با الگوریتم‌های پیشرفته خود (از جمله Hummingbird، BERT و RankBrain) و تکنیک TF-IDF، محتوای صفحات وب را بررسی کرده و میزان ارتباط آن‌ها را با عبارت جستجوی کاربران ارزیابی می‌کند. در نهایت هر چه ارتباط قوی‌تری بین محتوا و جستجوی کاربر پیدا کند، به آن محتوا رتبه بالاتری می‌دهد.
برای مثال، فرض کنید می‌خواهید محتوایی با موضوع «رتبه‌بندی صفحات در گوگل» بنویسید. در این صورت در این محتوا باید از کلمات کلیدی زیر استفاده کنید:

رتبه‌بندی گوگل
الگوریتم‌های موتور جستجو
PageRank
سئو
و…

میزان استفاده از کلمات کلیدی مختلف در متن یا TF-IDF — TF-IDF یا میزان فراوانی وزنی کلمه کلیدی مختلف

بر اساس TF-IDF، باید از کلمات «رتبه‌بندی» و گوگل» بیشتر استفاده کنید تا گوگل متوجه اهمیت و اولویت آن‌ها شود. از کلمات «PageRank» یا «الگوریتم‌های موتور جستجو» نیز باید در تعداد کمتری استفاده کنید تا به تقویت کلمات کلیدی اصلی کمک کند.
لازم به ذکر است که TF-IDF با آپدیت‌های گوگل به‌مرورزمان اهمیت بیشتری پیدا کرده‌است. از جمله این آپدیت‌ها، می‌توان به آپدیت الگوریتم مدیک (Medic) سال 2018 (با موضوع تأکید بر E-A-T) و آپدیت محتوای مفید (Helpful Content) سال 2022 (با موضوع کاربرپسند بودن محتواها) اشاره کرد.

TF یا Term Frequency در TF-IDF چیست؟

معنا و فرمول محاسبه TF یا Term Frequency — فرمول محاسبه TF

TF-IDF از ترکیب دو مفهوم مختلف تشکیل شده که بخش اول آن TF (Term Frequency)، به معنی فراوانی کلمه است. TF تعداد دفعاتی است که یک کلمه خاص در سند تکرار شده‌است. این پارامتر یک مقدار نسبی است که نسبت به تعداد کل کلمات سند حساب می‌شود.
فرمول محاسبه TF به این ترتیب است:

TF = نظر مورد کلمه تکرار تعداد سند در کلمات کل تعداد

هر چه TF یک کلمه در محتوا بیشتر باشد، نشان‌دهنده اهمیت بالای آن کلمه در متن است. اما نتیجه نهایی تحلیل TF-IDF، به کمک IDF حاصل می‌شود.

برای مثال، پاراگراف زیر را در نظر بگیرید:

«رتبه‌بندی صفحات در گوگل، از مهم‌ترین مباحث سئوی وب‌سایت است‌. الگوریتم‌های موتور جستجو (Search engine)، مانند PageRank در تعیین رتبه صفحات نقشی کلیدی دارد. برای بهبود رتبه صفحات در گوگل، باید اصول بهینه‌سازی را در قالب یک استراتژی فکرشده، اجرا کنید.»
این پاراگراف 39 کلمه دارد. کلمه «رتبه» 3 بار در آن تکرار شده‌است. بنابراین، TF برای این کلمه برابر با 339 ، یعنی حدود 0.076 است. اگر این مقدار در متن‌های مشابه وب‌سایت‌های دیگر بیشتر باشد، گوگل آن را سیگنالی برای ارتباط قوی متن با موضوع جستجوی کاربر تشخیص می‌دهد.

IDF در TF-IDF چیست؟

بررسی مفهوم IDF و Inverse Document Frequency — فرومول IDF در وبسایت

IDF (Inverse Document Frequency) یا فراوانی معکوس سند، روش دیگری برای تخمین اهمیت کلمات است. به‌این‌ترتیب که وزن کلماتی را که در اسناد مختلف بارها تکرار شده، کم می‌کند (اهمیت آن‌ها را کمتر در نظر می‌گیرد). در مقابل، کلماتی که در اسناد کمتری ظاهر شده، مهم‌تر در نظر می‌گیرد.

برای محاسبه IDF، از فرمول زیر استفاده می‌شود:

IDF = Log (نظر مورد داده پایگاه در اسناد کل تعداد نظر مورد کلمه شامل اسناد تعداد)

اگر یک کلمه در همه یا اغلب اسناد ظاهر شود، IDF آن 0 در نظر گرفته می‌شود. اما اگر کلمه‌ای فقط در تعداد کمی از اسناد ظاهر شود، مقدار IDF بالاتری گرفته و مهم‌تر تلقی می‌شود.
برای مثال فرض کنید گوگل در کل سه مقاله دارد. کلمه «رتبه» در دو مقاله تکرار شده‌است. بنابراین IDF آن حدود 0/176 می‌شود. اما کلمه «هوش مصنوعی» فقط در یک مقاله ظاهر شده و IDF آن حدود 0.477 می‌شود. گوگل با مقایسه این اعداد، به این نتیجه می‌رسد که کلمه «هوش مصنوعی» ارزش بیشتری دارد.
اما کلماتی عمومی مانند «برای»، «می‌شود»، «همان» و… که TF بسیار بالایی در تمام محتواها با موضوعات مختلف دارد چطور؟ این کلمات در تکنیک TF-IDF نادیده گرفته می‌شود. برای مثال کلمه «برای» را فرض کنید. این کلمه در هر سه محتوا ظاهر شده‌است. بنابراین، IDF برابر 0 بوده و اهمیتی برای گوگل ندارد.

محاسبه TF-IDF چگونه است؟

برای محاسبه TF-IDF و رتبه‌بندی گوگل، اول تعداد دفعاتی که یک کلمه در محتوا ظاهر شده (TF) حساب می‌شود. سپس تعداد تکرار آن کلمه در کل اسناد (IDF) به دست می‌آید. در نهایت، این دو پارامتر در هر ضرب می‌شود:

IDF = TFIDF

برای مثال پاراگرافی را که بالاتر درباره رتبه‌بندی صفحات آوردیم در نظر بگیرید. TF کلمه «رتبه» در این پاراگراف، حدود 0.076 به‌دست‌آمد. از طرفی فرض کردیم که این کلمه در 2 مقاله از مجموع 3 مقاله گوگل آمده‌ و IDF آن برابر 0.176 است. در این صورت TF-IDF کلمه «رتبه» این‌گونه به دست می‌آید:

IDF = 0.076 0.176 = 0.013376

کاربرد TF-IDF چیست؟

کاربردهای این تکنیک به اندازه‌ای تأثیرگذار است که آن را به یکی از ابزارهای کلیدی پردازش زبان طبیعی و تحلیل داده‌های متنی تبدیل کرده‌است. در نگاهی دقیق‌تر، می‌توان کاربردهای کلی TF-IDF را این‌گونه برشمرد:

بازیابی اطلاعات (Information Retrieval): این روش، برای شناسایی و بازیابی اسناد یا داده‌های مرتبط، از مجموعه بزرگی از داده‌ها بر اساس جستجوی کاربران استفاده می‌شود. این کار با وزن‌دهی به کلمات و تطبیق آن‌ها با موضوع مورد نظر کاربر انجام می‎‌شود.
متن‌کاوی (Text Mining): استخراج اطلاعات ارزشمند از داده‌های متنی غیرساختاریافته، متن کاوی است که بخشی از فرایند TF-IDF محسوب می‌‎شود. مبحثی که مشخص می‌کند هر کلمه چقدر در درک موضوع محتوا اهمیت دارد و در نهایت، موضوع اصلی محتوا روشن می‌‎شود.
مدل‌سازی کاربر (User Modeling): در این تکنیک، یک نمایه یا مدل دیجیتال از رفتار، علایق و ترجیحات کاربران ساخته می‌شود. این مدل، پیشنهادهای سیستم‌های هوشمند، مانند سامانه‌های توصیه‌گر (Recommender Systems) را بیشتر شخصی‌سازی می‌کند.

رابطه سئو و TF-IDF چیست؟

نمایش نتایجی با ارتباط بیشتر به موضوع مورد نظر کاربر. در واقع، این تکنیک به موتور جستجو کمک می‌کند که محتوای صفحات وب را بهتر تحلیل کرده و صفحاتی را که بیشترین ارتباط را با جستجوهای کاربران دارد، رتبه‌بندی کند.
متخصصان سئو نیز می‌توانند بر اساس TF-IDF، کلمات کلیدی مرتبط را شناسایی کرده و از آن‌ها در مکان‌های استراتژیک استفاده کنند. این کار باعث می‌شود که گوگل محتوای صفحه را دقیق‌تر درک کرده و آن را در نتایج جستجو به شکل موثرتری نمایش دهد.

مزایای TF-IDF چیست؟

TF-IDF در کنار کاربردهای ذکر شده در بخش‌های قبلی مزایای دیگری هم دارد که اهمیت آن را بالا برده‌است. از جمله:

محاسبه آسان: محاسبه TF-IDF برای هر کلمه بسیار راحت است و به الگوریتم یا سیستم پیچیده‌ای نیاز ندارد. بنابراین، به‌‎عنوان یک کارشناس سئو هم می‌توانید فراوانی وزنی کلمات مختلف را به‌راحتی حساب کرده و برای کلمات مهم‌تر، عدد بالاتری را در نظر بگیرید.
تعیین کلمات مهم‌تر: این تکنیک، با همین روش ساده، کلمات را از نظر اهمیت درجه‌بندی می‌کند. موضوعی که به‌خودی‌خود می‌تواند یک چالش برای موتورهای جستجو باشد.
تفکیک کلمات مهم از کلمات رایج: تکنیک TF-IDF، کلمات عمومی، ربطی و… را از تعداد تکرار آن‌ها در اسناد تشخیص می‌دهد. بنابراین، این دو نوع کلمات را به جای هم اشتباه نمی‎گیرد.
مستقل از زبان: چند الگوریتم‌ گوگل (Google algorithm)، هنوز در وب فارسی (یا بعضی زبان‌های دیگر) به‎‌اندازه زبانی مانند انگلیسی کارآمد نیست. اما TF-IDF در همه زبان‌های به یک اندازه مؤثر است.
مقیاس‌پذیری: این تکنیک برای تمام محتواها با هر تعداد کلمه‌ای پاسخگو است. بنابراین، برای تحلیل داده‌های بسیار بزرگ هم کاربردی است.

معایب TF-IDF چیست؟

این تکنیک، مانند هر فناوری دیگری، محدودیت‌هایی هم دارد که عبارت است از:

مشکل‌ساز بودن کلمات بسیار نادر: بعضی از کلمات یا اصطلاحات نادر (که گاهی به موضوع اصلی محتوا هم ارتباط خاصی ندارد)، IDF بسیار پایینی دارد. پایین بودن این پارامتر نشانی از اهمیت این کلمات است. در صورتی که در واقع، این اصطلاحات هیچ اهمیتی در روشن شدن موضوع محتوا ندارد.
درک نکردن معنی کلمه: TF-IDF موضوع محتوا را بر اساس کلماتی که در آن بیشتر استفاده شده تشخیص می‌دهد. اما در نهایت درکی از معنی واقعی این کلمات ندارد.
ضعف در آنالیز کلمات مشابه: این روش تمام کلمات را به‌صورت مستقل در نظر می‎‌گیرد. بنابراین محاسبه فراوانی وزنی کلمات مترادف‌ و مشابه نیز مستقل انجام می‌شود. این موضوع ممکن است از دقت امتیازدهی گوگل کم کند.

TF-IDF و رتبه‌بندی گوگل

گوگل به‌صورت غیرمستقیم از TF-IDF برای ارزیابی و وزن‌دهی کلمات کلیدی در محتوای وب‌سایت‌ها استفاده می‌کند. به این معنی که موتور جستجو بر اساس میزان فراوانی کلمات در سند و البته فراوانی آن‌ها در اسناد دیگر، کلمات مهم‌تر و خاص‌تر را پیدا می‌کند.
هرچندکه گوگل به طور علنی اعلام نکرده که از TF-IDF به‌طور خاص در رتبه‌بندی استفاده می‌کند؛ اما این تکنیک در الگوریتم‌های جستجو گنجانده شده‌است. کاربرد اصلی آن نیز پیدا کردن کلمات کلیدی و تشخیص ارتباط بین محتواها و جستجوی کاربران است.
در این باره، از جان مولر (John Mueller) پرسیده شد که چه نظری درباره TF-IDF دارد و آیا گوگل از سازوکار مشابه آن استفاده می‌کند؟ او پاسخ داد:
از TF-IDF کنار تکنیک‌های دیگر، به‌صورت اساسی برای بازیابی اطلاعات استفاده می‌شود. درک کلمات مرتبط در یک صفحه توسط گوگل، در طول سال‌ها با این تکنیک‌ها تکامل یافته‌است. توصیه کلی من این است که تمام تمرکز خود را روی این معیارهای مصنوعی نگذارید. به این دلیل که نمی‌توانید آن‌ها را دقیقاً مانند گوگل حساب یا استفاده کنید. چراکه شما به تام داده‌هایی که گوگل در سرتاسر وب دسترسی دارد، دسترسی ندارید.

یکی دیگر از موارد تاثیرگذار بر سئو سایت، Core Web Vitals است. مقاله زیر را از سایت پارس‌پک بخوانید:

Core Web Vitals چیست؟

تفاوت چگالی کلمات با TF-IDF چیست؟

بررسی تفاوت چگالی کلمات با TF-IDF — بررسی تفاوت‌های چگالی کلمات کلیدی با TF-IDF

چگالی کلمات کلیدی نیز به فراوانی آن‌ها در طول محتوا اشاره دارد. این پارامتر (که فقط شامل تعداد کلمه در طول محتوا است)، توسط افزونه‌‎هایی مانند یواست سئو (Yoast SEO) و رنک‌مث (Rankmath) هم حساب می‌شود؛ اما نه به‌صورت لگاریتمی!
در واقع TF-IDF وزن لگاریتمی کلمات مختلف را در محتوا به دست می‌آورد. در نگاهی دقیق‌تر، این پارامتر نشان می‌دهد که فراوانی این کلمه در این محتوا و نسبت به کل محتواهای یک مجموعه بزرگ (مانند پایگاه داده گوگل) چه قدر است. پارامتری که بر اساس همین تفاوت، درجه اهمیت کلمات را بهتر تشخیص می‌دهد.

چه زمانی باید از تحلیل TF-IDF استفاده کرد؟

تحلیل (TF-IDF (Term Frequency-Inverse Document Frequency با سازوکاری که بالاتر دیدید، می‌تواند در بهینه‌سازی محتواها و در مقیاس بزرگ‌تر، بازاریابی دیجیتال (Digital Marketing) با تحلیل TF-IDF گره خورده‌است. استفاده بهینه از کلمات کلیدی در محتوا برای ارائه بهترین سیگنال‌ها به گوگل، هدف نهایی متخصصان سئو از استفاده از TF-IDF است.
اما چه زمانی باید از این تحلیل به‌عنوان یک راهکار برای ارتقای بهینه سازی سایت (Website Optimization) استفاده کنیم؟ در ادامه مشکلات مختلفی را می‌بینید که می‌توانید که TF-IDF می‌تواند گره‌گشای آن‌ها باشد.

۱. محتوا به آرامی ترافیک و رتبه‌بندی را از دست داده‌است.

شاید محتوا پیش از این رتبه و ترافیک خوبی داشته؛ اما به‌تدریج افت کرده‌است. در این صورت، شاید رقبایتان تلاش بیشتری برای بهینه‌سازی محتوا بر اساس کلمات کلیدی کرده‌اند و ارتباط خود را با جستجوی کاربر، به گوگل بهتر ثابت کرده‌اند. می‌توانید ابتدا با ابزاری مانند «SpyFu»، وضعیت SERP را در گذشته ببینید و با حال حاضر مقایسه کنید.

۲. محتوای با کیفیت در صفحه دوم باقی مانده‌است.

شاید ابعاد مختلف سئو (SEO) را برای یک صفحه رعایت کرده‌ و آن را به صغحه دوم رسانده‌اید؛ اما نمی‌توانید آن را به صفحه اول بیاورید. پس شاید مشکل در فراوانی وزنی کلمات است. نگاهی به آن بیندازید و در صورت لزوم، محتوا را برای ارتقای آن بهینه کنید.

۳. صفحات محصولی که رتبه ندارند!

محتوای صفحه محصول، از بهترین سیگنال‌ها برای گوگل است که محصول شما را در صدر نتایج خود نشان دهد. اما اگر پارامتر TF-IDF را برای این محتوا بهینه نکرده باشید، گوگل در درک این صفحه و ارتباطش با نیاز کاربر دچار مشکل می‌شود. بسته به نوع وب‌سایتی که دارید، گاهی این پارامتر در محتوای صفحه محصول اهمیت بیشتری نسبت به مقالات دارد.

استفاده از 3 ابزار برای تحلیل TF-IDF

پیدا کردن TF-IDF فقط با شمارش تعداد یک کلمه در محتوای وب‌سایت خودتان ممکن نیست و به اطلاعات پایگاه گوگل هم وابسته است. بنابراین، باید برای آگاهی از این پارامتر، از ابزارهای سئو استفاده کنید. با اطلاع از این پارامتر در چند مرحله ساده، می‌توانید محتواهای خود به شکلی بهینه و همسو با الگوریتم‌های گوگل،به‌روزرسانی کنید. در ادامه آموزش TF-IDF برای سئو و نحوه آگاهی از آن را در سه تا از بهترین ابزارها می‌بینید.

۱. تحلیل TF-IDF با ابزار Screaming Frog

اسکریمینگ‌فراگ (Screaming Frog) نمی‌تواند به‌‎صورت مستقیم TF-IDF را حساب کند. با وجود این، می‌توانید با ویژگی‌ استخراج سفارشی (Custom Extraction) و تجزیه و تحلیل N-Gram، داده‌های لازم را جمع‌آوری کنید. سپس آن‌ها را در نرم‌افزارهای دیگر ببرید یا با کدنویسی، مقادیر TF-IDF را به دست آورید.
دقت کنید که برای بهره‌مندی از این قابلیت، باید از نسخه پولی آن استفاده کنید. از طرفی باید دانش استخراج داده و تحلیل متون را تا حدی داشته باشید. مراحل کلی انجام این کار به این ترتیب است:

در منوی بالای اسکریمینگ‌فراگ، به مسیر Configuration > Custom > Extraction بروید.
در پنجره بازشده، روی Add کلیک کنید تا یک استخراج‌کننده جدید اضافه کنید.
با ابزار مرورگر داخلی، عناصر متنی مورد نظر را انتخاب کنید تا مسیر XPath یا CSS آن‌ها به‌صورت خودکار تولید شود.
URL وب‌سایت مورد نظر را در کادر بالای ابزار وارد کرده و فرایند خزیدن را آغاز کنید تا داده‌های متنی استخراج شود.
بعد از اتمام خزیدن، به مسیر Content> N-Grams بروید.
در این بخش می‌توانید فراوانی توالی‌های کلمات (N-Grams) را مشاهده کنید که برای تحلیل کلمات و عبارات پرتکرار مفید است.
از داده‌های استخراج‌شده و تحلیل N-Gram به‌صورت فایل CSV یا Excel خروجی بگیرید.
داده‌های صادرشده را در نرم‌افزارهای تحلیل داده، مانند Python، با کتابخانه‌هایی مانند Scikit-learn یا R وارد کنید.

۲. تحلیل TF-IDF با ابزار Ryte

Ryte یک ابزار TF-IDF دارد که به کمک آن می‌توانید تا 10 بار تجزیه‌و‌تحلیل رایگان داشته باشید. مراحل انجام این کار نیز به شرح زیر است:
در ابزار TF-IDF در Ryte، کلمه کلیدی اصلی مدنظرتان را وارد کنید.

Ryte محتوای صفحه را با 10 نتیجه برتر گوگل برای کلمه کلیدی مورد نظر، قیاس کرده و فهرستی را از کلمات کلیدی مهم نمایش می‌دهد. به کمک این فهرست می‌‎توانید محتوای خود را آپدیت کرده و کلمات کلیدی مرتبط را به متن اضافه کنید.

اگر روی تب Detail mode کلیک کنید، اطلاعات بیشتری را از کلماتی می‌بینید که بیشترین وزن را دارد و می‌بینید که این کلمه در صفحه دقیقاً چند بار ذکر شده‌است.

می‌توانید این نتایج را با رقبای خود مقایسه کنید. روی تب Competition کلیک کنید. می‌بینید که کدام رقبا از این اصطلاحات استفاده می‌کند. موس را روی دایره‌ها ببرید تا ببینید هر کلمه دقیقاً در کدام وب‌سایت و چند بار تکرار شده‌است. با کد رنگ، می‌توانید متوجه شوید که امتیاز TF-IDF این کلمه بالا است یا پایین.

یک ابزار ویرایشگر متن هم در این ابزار موجود است که می‌تواند متن را در لحظه تحلیل کند. می‌توانید متن را بنویسید یا فقط آن را کپی و اینجا Paste کنید.

۳. تحلیل TF-IDF با ابزار SEMRush

برای پیدا کردن TF-IDF با SEMrush، می‌توانید از ابزار Content Analyzer و ویژگی SEO Content Template این پلتفرم استفاده کنید. برای استفاده از این ابزار نیز برای پیدا کردن این پارامتر، مراحل زیر را طی کنید:

وارد بخش SEO Content Template شوید.
کلمه کلیدی مرتبط را وارد کنید تا SEMRush پیشنهاداتی را بر اساس TF-IDF ارائه دهد.
در ابزار SEO Content Template نیز می‌توانید کلمه کلیدی را وارد کنید تا 10 نتیجه برتر را بر اساس آن ببینید. SEMRush به‌صورت خودکار، TF-IDF را برای این کلمات حساب کرده و پیشنهاداتی را ارائه می‌دهد.
بر اساس فهرستی که SEMRush تحویل می‌دهد، می‌توانید محتواها را بر اساس کلمات کلیدی مهم و مرتبط بهینه کنید.

بهینه سازی TF-IDF با تمرکز بر کاربر

اما حالا که می‌دانید TF-IDF چیست، چطور باید از این تکنیک یا داده‌های به‌دست‌آمده برای بازاریابی محتوایی (Content marketing) استفاده کنید؟ در ادامه ۳ روش را برای به‌روزسانی محتوا بر اساس این تکنیک می‌بینید.

۱. ویرایش لیست کلمات کلیدی

لیستی را که از ابزارهای سئو تحویل گرفته‌اید، از زاویه دید خودتان ویرایش کنید. بعضی کلمات کلیدی ممکن است شامل نام یک برند باشد یا به هر ترتیبی کارایی لازم را برای شما نداشته باشد. تمام این کلمات کلیدی را بررسی کرده و یک فهرست کاربردی‌تر برای خود بسازید.

۲. شناسایی گپ‌ها یا اصطلاحات مهم که در لیست شما نیست!

با پیدا کردن TF-IDF و کلمات کلیدی مهم، احتمالاً وسوسه می‌شوید که از این کلمات چند بار در محتوا استفاده کنید. اما نتیجه این کار چیزی جز کیورداستافینگ (Keyword Stuffing) نیست! به جای این کار، محتوایتان را دقیق‌تر ببینید تا شکاف‌ها یا گپ‌هایی را که بین کلمات کلیدی شما و فهرستی به‌دست‌آمده وجود دارد، پیدا کنید.
اگر تعداد کلماتی که باید اضافه می‌کردید زیاد بود، سعی کنید برای آن‌ها محتوای بیشتری بنویسید. به‌این‌ترتیب تعداد کلمات کلیدی نسبت به تعداد کل کلمات محتوا، بیش از حد نخواهد بود.

۳. تغییر قالب

منظور از قالب، ساختار کلی و معماری محتوا است. اگر ساختارهای متنوع را امتحان کرده‌اید و به نتیجه نرسیده‌اید، قالب محتوا را تغییر دهید. برای مثال گاهی ممکن است امکان اضافه کردن بعضی بخش‌ها را به محتوایتان نداشته باشید. یا ممکن است ساختار رقبا را بررسی کرده و یک قالب کاربردی‌تر برای حوزه خود پیدا کنید.

در تغییر قالب محتوا، می‌توانید از ترفندهای زیر استفاده کنید:

ترکیبی از عناصر بصری را در محتوا بگنجانید تا کاربر خسته نشود.
از بولت‌لیست‌ها، عناوین فرعی، متن‌های Bold، جدول و… استفاده کنید.
CTA (Call to ACtion) بیشتری را در متن بگنجانید (در ازای هر 300 تا 500 کلمه، یک CTA).
سلسلسه‌مراتب را در نظر بگیرید و مطالب اصلی را کاربر برای خواندن آن‌ها مشتاق‌تر است، همان ابتدای بدنه محتوا انتقال دهید.

استفاده از TF-IDF برای سئو

برای بهره گرفتن از مزایای TF-IDF و بهبود رتبه سایت، چند مرحله کلی دارید که عبارت است از:

تحقیق کلمات کلیدی: با ابزارهایی مانند KWFinder، Keyword Tool و… تحقیق کلمات کلیدی را انجام دهید و یک فهرست از آن‌ها بسازید.
از این کلمات به‌صورت دقیق و بودن تغییر، در عنوان، متن بدنه و هدینگ‌ها استفاده کنید.
به جای تکرار زیاد یک کلمه کلیدی، از مترادف‌های آن استفاده کنید.
با ابزارهایی سئویی که بالاتر دیدید، این بار کلمات کلیدی مهم را بر اساس TF-IDF پیدا کرده و بر اساس آن، محتوا را آپدیت کنید.
همواره گوش‌به‌زنگ آپدیت‌های الگوریتم گوگل باشید و با آن‌ها هماهنگ بمانید.
از کلماتی که در تحلیل TF-IDF پیدا کرده‌اید، در لینک‌سازی داخلی و خارجی نیز به‌عنوان انکر تکست (Anchor Text) استفاده کنید.

TF-IDF Vectorizer چیست؟

مبدل وکتور (TF-IDF (TF-IDF Vectorizer تکنیکی برای نمایش عددی متون است که در پردازش زبان طبیعی (NLP)و یادگیری ماشین برای تحلیل دقیق‌تر متن استفاده می‌شود.
این تکنیک از ترکیب دو مفهوم TF (Term Frequency) و IDF (Inverse Document Frequency) برای محاسبه وزن هر کلمه در یک مجموعه از اسناد استفاده می‌کند. سپس یک وکتور عددی را برای هر سند می‌سازد که به ماشین‌ها این امکان را می‌دهد که متون را بر اساس داده‌های عددی تحلیل کند.
نقش TF-IDF برای دسته‌بندی متن نیز با تکنیک TF-IDF Vectorizer گره خورده‌است. به‌این‌ترتیب که می‌توان اسناد را بر اساس شباهت‌های معنایی به دسته‌ها یا خوشه‌های مختلف تقسیم کرد.

CountVectorizer چیست؟

مبدل وکتور شمارش کلمات (CountVectorizer) نیز ابزاری در پردازش زبان طبیعی (NLP) است که برای تبدیل متن به پارامترهای عددی استفاده می‌شود. این ابزار به طور خاص در یادگیری ماشین و مدل‌های تحلیل متن کاربرد دارد. در واقع، CountVectorizer یک تکنیک بازیابی ویژگی‌ها است که تعداد دفعات تکرار هر کلمه را در اسناد یا متون مختلف محاسبه کرده و این اطلاعات را به یک وکتور عددی تبدیل می‌کند. در این تکنیک، ابتدا تمام کلمات موجود در مجموعه‌ای از اسناد شناسایی شده و یک دیکشنری از آن‌ها ساخته می‌شود. هر کلمه نیز یک ویژگی یا فیچر در دیکشنری خواهد بود.
سپس CountVectorizer تعداد دفعاتی را که هر کلمه در هر سند ظاهر می‌شود، حساب کرده و آن را به یک وکتور عددی تبدیل می‌کند. خروجی این تکنیک، یک ماتریس از اعداد است که هر سطر آن، نمایانگر یک سند و هر ستون نمایانگر یک کلمه خاص است. عدد داخل هر خانه نشان‌دهنده تعداد دفعات تکرار آن کلمه در آن سند است.

مقایسه CountVectorizer و TF-IDFVectorizer

اما تفاوت دو پارامتری که بالاتر دیدید در بحث TF-IDF چیست؟ مقایسه این پارامترها را می‌توانید در جدول زیر ببینید.

پارامترهای مقایسه	TF-IDF Vectorizer	CountVectorizer
روش کار	محاسبه میزان اهمیت کلمات بر اساس TF و IDF	شمارش تعداد دفعات تکرار کلمات در اسناد
معایب	وزن‌دهی به کلمات بر اساس تعداد تکرار آن‌ها	وزن ندادن به کلمات بر اساس رایج یا مهم بودن آن‌ها
کاربردها	موتورهای جستجو، تحلیل احساسات و دسته‌بندی پیچیده	تحلیل‌های پایه‌ای و مدل‌های ساده برای دسته‌بندی متن
خروجی	ماتریس با وزن‌دهی به کلمات	ماتریس شمارش کلمات

ماتریس Term-Term چیست؟

ماتریس Term-Term (Term-Term Matrix) یا ماتریس اصطلاح‌به‌اصطلاح، ماتریسی است که روابط بین کلمات مختلف را در یک مجموعه مشخص از اسناد نشان می‌دهد. این ماتریس روشن می‌کند که هر کلمه از یک سند، چطور با کلماتی در اسناد دیگر هم‌راستا یا مرتبط است.
این ماتریس به‌طور معمول از داده‌های ترم-مستند (Term-Document) به دست می‌آید؛ اما برای هر دو کلمه در اسناد مختلف، میزان شباهت آن‌ها را تعیین می‌کند. فرض کنید یک مجموعه از اسناد داریم که شامل ۳ جمله است:

رتبه‌بندی گوگل با استفاده از الگوریتم PageRank انجام می‌شود.
الگوریتم‌های موتور جستجو، مانند PageRank، به رتبه‌بندی صفحات کمک می‌کند.
SEO و بهینه‌سازی سایت برای رتبه‌بندی در گوگل اهمیت زیادی دارد.

کلمات کلیدی این جملات «رتبه‌بندی»، «گوگل»، «الگوریتم»، «PageRank»، «سئو» و «بهینه‌‎سازی» است. حالا برای هر جفت کلمه، تعداد دفعاتی که آن‌ها در کنار هم در اسناد مختلف ظاهر شده‌اند، حساب می‌شود.

	رتبه‌بندی	گوگل	الگوریتم	PageRank	سئو	بهینه‌سازی
رتبه‌بندی	3	2	11	0	0	0
گوگل	2	3	1	1	1	1
الگوریتم	1	1	2	2	0	0
PageRank	1	1	2	3	0	0
سئو	0	1	0	0	2	1
بهینه‌سازی	0	1	0	0	1	0

بهترین هاست پربازدید را از پارس‌پک بخواهید!

خرید یک هاست امن و پرسرعت یکی از نیازهای مهم هر کسب‌وکار و سایت پربازدید است. برای خرید یک هاست با این ویژگی‌ها بهترین انتخاب پارس‌پک است. در لینک زیر تعرفه‌های خرید هاست پربازدید را مشاهده کنید:

هاست پربازدید

جمع‌بندی

در این راهنما دیدید که TF-IDF چیست و چه کاربردی در سئو دارد؟ با به دست آوردن این فاکتور، می‌توانید محتوای خود را به‌صورت هوشمندانه و متوازن بهینه کنید، از کیورد استافینگ جلوگیری کرده و با انتخاب کلمات کلیدی مناسب، محتوای خود را به نیازهای واقعی کاربران و الگوریتم‌های موتور جستجو نزدیک‌تر کنید.

سؤالات متداول

۱. TF-IDF چیست؟

TF-IDF (Term Frequency-Inverse Document Frequency) یا فراوانی وزنی کلمات، یک تکنیک در پردازش زبان طبیعی است که می‌تواند به کلمات بر اساس اهمیتشان وزن دهد.

۲. هدف TF-IDF چیست؟

ارزیابی اهمیت کلمات در اسناد مختلف با توجه به فراوانی آن‌ها در یک سند خاص و در کل مجموعه اسناد.

۳. کاربرد TF-IDF در سئو سایت چیست؟

گوگل از این تکنیک برای درک موضوع محتوا و تطبیق آن با جستجوی کاربران استفاده می‌کند. متخصصین سئو نیز از آن برای تقسیم درست کلمات کلیدی در محتوا بهره‌ می‌برند.