TF-IDF یا فراوانی وزنی کلمات کلیدی چگونه محاسبه میشود؟

در این مقاله میخوانید
- TF-IDF چیست؟
- TF یا Term Frequency در TF-IDF چیست؟
- IDF در TF-IDF چیست؟
- محاسبه TF-IDF چگونه است؟
- کاربرد TF-IDF چیست؟
- رابطه سئو و TF-IDF چیست؟
- مزایای TF-IDF چیست؟
- معایب TF-IDF چیست؟
- TF-IDF و رتبهبندی گوگل
- تفاوت چگالی کلمات با TF-IDF چیست؟
- چه زمانی باید از تحلیل TF-IDF استفاده کرد؟
- استفاده از 3 ابزار برای تحلیل TF-IDF
- ۳. تحلیل TF-IDF با ابزار SEMRush
- بهینه سازی TF-IDF با تمرکز بر کاربر
- استفاده از TF-IDF برای سئو
- TF-IDF Vectorizer چیست؟
- CountVectorizer چیست؟
- مقایسه CountVectorizer و TF-IDFVectorizer
- ماتریس Term-Term چیست؟
- جمعبندی
- سؤالات متداول
TF-IDF یا Frequency-inverse document frequency به موتورهای جستجو کمک میکند تا ارزش و اهمیت محتوای شما را درک کرده و آن را در جایگاه مناسب قرار دهد. این کار نیز به طور کلی، با شمارش تعداد کلمات مهم یک محتوا و مقایسه آن با تعداد همین کلمه در محتواهای مشابه انجام میشود. در این راهنما از بخش آموزش سئو در سایت پارسپک، تعریف و فرمول این پارامتر را با مثال میبینید و با کاربردها، مزایا و معایب آن آشنا میشوید. بهعلاوه یاد میگیرید که چطور این پارامتر را پیدا کنید و چگونه محتواها و سئوی وبسایت را بر اساس آن بهینه کنید.
TF-IDF چیست؟
TF-IDF مخفف عبارت Frequency-inverse document frequency و به معنی فراوانی وزنی کلمات است. TF-IDF یکی از تکنیکهای پردازش زبان طبیعی (NLP) و بازیابی اطلاعات از اسناد متنی است. روش کلی این تکنیک این است که با تحلیل تعداد کلمات کلیدی (Keywords) مختلف در یک سند (نسبت به مجموعهای از اسناد) میزان اهمیت هر یک از آنها را تعیین میکند.
TF-IDF در سئو نیز همین سازوکار را دارد. با این نکته مهم که موتورهای جستجو، از این تکنیک برای درک بهتر موضوع محتوا و بعد رتبهبندی (Ranking) صفحات استفاده میکند. در واقع گوگل با الگوریتمهای پیشرفته خود (از جمله Hummingbird، BERT و RankBrain) و تکنیک TF-IDF، محتوای صفحات وب را بررسی کرده و میزان ارتباط آنها را با عبارت جستجوی کاربران ارزیابی میکند. در نهایت هر چه ارتباط قویتری بین محتوا و جستجوی کاربر پیدا کند، به آن محتوا رتبه بالاتری میدهد.
برای مثال، فرض کنید میخواهید محتوایی با موضوع «رتبهبندی صفحات در گوگل» بنویسید. در این صورت در این محتوا باید از کلمات کلیدی زیر استفاده کنید:
- رتبهبندی گوگل
- الگوریتمهای موتور جستجو
- PageRank
- سئو
- و…

بر اساس TF-IDF، باید از کلمات «رتبهبندی» و گوگل» بیشتر استفاده کنید تا گوگل متوجه اهمیت و اولویت آنها شود. از کلمات «PageRank» یا «الگوریتمهای موتور جستجو» نیز باید در تعداد کمتری استفاده کنید تا به تقویت کلمات کلیدی اصلی کمک کند.
لازم به ذکر است که TF-IDF با آپدیتهای گوگل بهمرورزمان اهمیت بیشتری پیدا کردهاست. از جمله این آپدیتها، میتوان به آپدیت الگوریتم مدیک (Medic) سال 2018 (با موضوع تأکید بر E-A-T) و آپدیت محتوای مفید (Helpful Content) سال 2022 (با موضوع کاربرپسند بودن محتواها) اشاره کرد.
TF یا Term Frequency در TF-IDF چیست؟

TF-IDF از ترکیب دو مفهوم مختلف تشکیل شده که بخش اول آن TF (Term Frequency)، به معنی فراوانی کلمه است. TF تعداد دفعاتی است که یک کلمه خاص در سند تکرار شدهاست. این پارامتر یک مقدار نسبی است که نسبت به تعداد کل کلمات سند حساب میشود.
فرمول محاسبه TF به این ترتیب است:
TF = نظر مورد کلمه تکرار تعداد سند در کلمات کل تعداد
هر چه TF یک کلمه در محتوا بیشتر باشد، نشاندهنده اهمیت بالای آن کلمه در متن است. اما نتیجه نهایی تحلیل TF-IDF، به کمک IDF حاصل میشود.
برای مثال، پاراگراف زیر را در نظر بگیرید:
«رتبهبندی صفحات در گوگل، از مهمترین مباحث سئوی وبسایت است. الگوریتمهای موتور جستجو (Search engine)، مانند PageRank در تعیین رتبه صفحات نقشی کلیدی دارد. برای بهبود رتبه صفحات در گوگل، باید اصول بهینهسازی را در قالب یک استراتژی فکرشده، اجرا کنید.»
این پاراگراف 39 کلمه دارد. کلمه «رتبه» 3 بار در آن تکرار شدهاست. بنابراین، TF برای این کلمه برابر با 339 ، یعنی حدود 0.076 است. اگر این مقدار در متنهای مشابه وبسایتهای دیگر بیشتر باشد، گوگل آن را سیگنالی برای ارتباط قوی متن با موضوع جستجوی کاربر تشخیص میدهد.
IDF در TF-IDF چیست؟

IDF (Inverse Document Frequency) یا فراوانی معکوس سند، روش دیگری برای تخمین اهمیت کلمات است. بهاینترتیب که وزن کلماتی را که در اسناد مختلف بارها تکرار شده، کم میکند (اهمیت آنها را کمتر در نظر میگیرد). در مقابل، کلماتی که در اسناد کمتری ظاهر شده، مهمتر در نظر میگیرد.
برای محاسبه IDF، از فرمول زیر استفاده میشود:
IDF = Log (نظر مورد داده پایگاه در اسناد کل تعداد نظر مورد کلمه شامل اسناد تعداد)
اگر یک کلمه در همه یا اغلب اسناد ظاهر شود، IDF آن 0 در نظر گرفته میشود. اما اگر کلمهای فقط در تعداد کمی از اسناد ظاهر شود، مقدار IDF بالاتری گرفته و مهمتر تلقی میشود.
برای مثال فرض کنید گوگل در کل سه مقاله دارد. کلمه «رتبه» در دو مقاله تکرار شدهاست. بنابراین IDF آن حدود 0/176 میشود. اما کلمه «هوش مصنوعی» فقط در یک مقاله ظاهر شده و IDF آن حدود 0.477 میشود. گوگل با مقایسه این اعداد، به این نتیجه میرسد که کلمه «هوش مصنوعی» ارزش بیشتری دارد.
اما کلماتی عمومی مانند «برای»، «میشود»، «همان» و… که TF بسیار بالایی در تمام محتواها با موضوعات مختلف دارد چطور؟ این کلمات در تکنیک TF-IDF نادیده گرفته میشود. برای مثال کلمه «برای» را فرض کنید. این کلمه در هر سه محتوا ظاهر شدهاست. بنابراین، IDF برابر 0 بوده و اهمیتی برای گوگل ندارد.
محاسبه TF-IDF چگونه است؟
برای محاسبه TF-IDF و رتبهبندی گوگل، اول تعداد دفعاتی که یک کلمه در محتوا ظاهر شده (TF) حساب میشود. سپس تعداد تکرار آن کلمه در کل اسناد (IDF) به دست میآید. در نهایت، این دو پارامتر در هر ضرب میشود:
IDF = TFIDF
برای مثال پاراگرافی را که بالاتر درباره رتبهبندی صفحات آوردیم در نظر بگیرید. TF کلمه «رتبه» در این پاراگراف، حدود 0.076 بهدستآمد. از طرفی فرض کردیم که این کلمه در 2 مقاله از مجموع 3 مقاله گوگل آمده و IDF آن برابر 0.176 است. در این صورت TF-IDF کلمه «رتبه» اینگونه به دست میآید:
IDF = 0.076 0.176 = 0.013376
کاربرد TF-IDF چیست؟
کاربردهای این تکنیک به اندازهای تأثیرگذار است که آن را به یکی از ابزارهای کلیدی پردازش زبان طبیعی و تحلیل دادههای متنی تبدیل کردهاست. در نگاهی دقیقتر، میتوان کاربردهای کلی TF-IDF را اینگونه برشمرد:
- بازیابی اطلاعات (Information Retrieval): این روش، برای شناسایی و بازیابی اسناد یا دادههای مرتبط، از مجموعه بزرگی از دادهها بر اساس جستجوی کاربران استفاده میشود. این کار با وزندهی به کلمات و تطبیق آنها با موضوع مورد نظر کاربر انجام میشود.
- متنکاوی (Text Mining): استخراج اطلاعات ارزشمند از دادههای متنی غیرساختاریافته، متن کاوی است که بخشی از فرایند TF-IDF محسوب میشود. مبحثی که مشخص میکند هر کلمه چقدر در درک موضوع محتوا اهمیت دارد و در نهایت، موضوع اصلی محتوا روشن میشود.
- مدلسازی کاربر (User Modeling): در این تکنیک، یک نمایه یا مدل دیجیتال از رفتار، علایق و ترجیحات کاربران ساخته میشود. این مدل، پیشنهادهای سیستمهای هوشمند، مانند سامانههای توصیهگر (Recommender Systems) را بیشتر شخصیسازی میکند.
رابطه سئو و TF-IDF چیست؟
نمایش نتایجی با ارتباط بیشتر به موضوع مورد نظر کاربر. در واقع، این تکنیک به موتور جستجو کمک میکند که محتوای صفحات وب را بهتر تحلیل کرده و صفحاتی را که بیشترین ارتباط را با جستجوهای کاربران دارد، رتبهبندی کند.
متخصصان سئو نیز میتوانند بر اساس TF-IDF، کلمات کلیدی مرتبط را شناسایی کرده و از آنها در مکانهای استراتژیک استفاده کنند. این کار باعث میشود که گوگل محتوای صفحه را دقیقتر درک کرده و آن را در نتایج جستجو به شکل موثرتری نمایش دهد.
مزایای TF-IDF چیست؟
TF-IDF در کنار کاربردهای ذکر شده در بخشهای قبلی مزایای دیگری هم دارد که اهمیت آن را بالا بردهاست. از جمله:
- محاسبه آسان: محاسبه TF-IDF برای هر کلمه بسیار راحت است و به الگوریتم یا سیستم پیچیدهای نیاز ندارد. بنابراین، بهعنوان یک کارشناس سئو هم میتوانید فراوانی وزنی کلمات مختلف را بهراحتی حساب کرده و برای کلمات مهمتر، عدد بالاتری را در نظر بگیرید.
- تعیین کلمات مهمتر: این تکنیک، با همین روش ساده، کلمات را از نظر اهمیت درجهبندی میکند. موضوعی که بهخودیخود میتواند یک چالش برای موتورهای جستجو باشد.
- تفکیک کلمات مهم از کلمات رایج: تکنیک TF-IDF، کلمات عمومی، ربطی و… را از تعداد تکرار آنها در اسناد تشخیص میدهد. بنابراین، این دو نوع کلمات را به جای هم اشتباه نمیگیرد.
- مستقل از زبان: چند الگوریتم گوگل (Google algorithm)، هنوز در وب فارسی (یا بعضی زبانهای دیگر) بهاندازه زبانی مانند انگلیسی کارآمد نیست. اما TF-IDF در همه زبانهای به یک اندازه مؤثر است.
- مقیاسپذیری: این تکنیک برای تمام محتواها با هر تعداد کلمهای پاسخگو است. بنابراین، برای تحلیل دادههای بسیار بزرگ هم کاربردی است.
معایب TF-IDF چیست؟
این تکنیک، مانند هر فناوری دیگری، محدودیتهایی هم دارد که عبارت است از:
- مشکلساز بودن کلمات بسیار نادر: بعضی از کلمات یا اصطلاحات نادر (که گاهی به موضوع اصلی محتوا هم ارتباط خاصی ندارد)، IDF بسیار پایینی دارد. پایین بودن این پارامتر نشانی از اهمیت این کلمات است. در صورتی که در واقع، این اصطلاحات هیچ اهمیتی در روشن شدن موضوع محتوا ندارد.
- درک نکردن معنی کلمه: TF-IDF موضوع محتوا را بر اساس کلماتی که در آن بیشتر استفاده شده تشخیص میدهد. اما در نهایت درکی از معنی واقعی این کلمات ندارد.
- ضعف در آنالیز کلمات مشابه: این روش تمام کلمات را بهصورت مستقل در نظر میگیرد. بنابراین محاسبه فراوانی وزنی کلمات مترادف و مشابه نیز مستقل انجام میشود. این موضوع ممکن است از دقت امتیازدهی گوگل کم کند.
TF-IDF و رتبهبندی گوگل
گوگل بهصورت غیرمستقیم از TF-IDF برای ارزیابی و وزندهی کلمات کلیدی در محتوای وبسایتها استفاده میکند. به این معنی که موتور جستجو بر اساس میزان فراوانی کلمات در سند و البته فراوانی آنها در اسناد دیگر، کلمات مهمتر و خاصتر را پیدا میکند.
هرچندکه گوگل به طور علنی اعلام نکرده که از TF-IDF بهطور خاص در رتبهبندی استفاده میکند؛ اما این تکنیک در الگوریتمهای جستجو گنجانده شدهاست. کاربرد اصلی آن نیز پیدا کردن کلمات کلیدی و تشخیص ارتباط بین محتواها و جستجوی کاربران است.
در این باره، از جان مولر (John Mueller) پرسیده شد که چه نظری درباره TF-IDF دارد و آیا گوگل از سازوکار مشابه آن استفاده میکند؟ او پاسخ داد:
از TF-IDF کنار تکنیکهای دیگر، بهصورت اساسی برای بازیابی اطلاعات استفاده میشود. درک کلمات مرتبط در یک صفحه توسط گوگل، در طول سالها با این تکنیکها تکامل یافتهاست. توصیه کلی من این است که تمام تمرکز خود را روی این معیارهای مصنوعی نگذارید. به این دلیل که نمیتوانید آنها را دقیقاً مانند گوگل حساب یا استفاده کنید. چراکه شما به تام دادههایی که گوگل در سرتاسر وب دسترسی دارد، دسترسی ندارید.
یکی دیگر از موارد تاثیرگذار بر سئو سایت، Core Web Vitals است. مقاله زیر را از سایت پارسپک بخوانید:
تفاوت چگالی کلمات با TF-IDF چیست؟

چگالی کلمات کلیدی نیز به فراوانی آنها در طول محتوا اشاره دارد. این پارامتر (که فقط شامل تعداد کلمه در طول محتوا است)، توسط افزونههایی مانند یواست سئو (Yoast SEO) و رنکمث (Rankmath) هم حساب میشود؛ اما نه بهصورت لگاریتمی!
در واقع TF-IDF وزن لگاریتمی کلمات مختلف را در محتوا به دست میآورد. در نگاهی دقیقتر، این پارامتر نشان میدهد که فراوانی این کلمه در این محتوا و نسبت به کل محتواهای یک مجموعه بزرگ (مانند پایگاه داده گوگل) چه قدر است. پارامتری که بر اساس همین تفاوت، درجه اهمیت کلمات را بهتر تشخیص میدهد.
چه زمانی باید از تحلیل TF-IDF استفاده کرد؟
تحلیل (TF-IDF (Term Frequency-Inverse Document Frequency با سازوکاری که بالاتر دیدید، میتواند در بهینهسازی محتواها و در مقیاس بزرگتر، بازاریابی دیجیتال (Digital Marketing) با تحلیل TF-IDF گره خوردهاست. استفاده بهینه از کلمات کلیدی در محتوا برای ارائه بهترین سیگنالها به گوگل، هدف نهایی متخصصان سئو از استفاده از TF-IDF است.
اما چه زمانی باید از این تحلیل بهعنوان یک راهکار برای ارتقای بهینه سازی سایت (Website Optimization) استفاده کنیم؟ در ادامه مشکلات مختلفی را میبینید که میتوانید که TF-IDF میتواند گرهگشای آنها باشد.
۱. محتوا به آرامی ترافیک و رتبهبندی را از دست دادهاست.
شاید محتوا پیش از این رتبه و ترافیک خوبی داشته؛ اما بهتدریج افت کردهاست. در این صورت، شاید رقبایتان تلاش بیشتری برای بهینهسازی محتوا بر اساس کلمات کلیدی کردهاند و ارتباط خود را با جستجوی کاربر، به گوگل بهتر ثابت کردهاند. میتوانید ابتدا با ابزاری مانند «SpyFu»، وضعیت SERP را در گذشته ببینید و با حال حاضر مقایسه کنید.
۲. محتوای با کیفیت در صفحه دوم باقی ماندهاست.
شاید ابعاد مختلف سئو (SEO) را برای یک صفحه رعایت کرده و آن را به صغحه دوم رساندهاید؛ اما نمیتوانید آن را به صفحه اول بیاورید. پس شاید مشکل در فراوانی وزنی کلمات است. نگاهی به آن بیندازید و در صورت لزوم، محتوا را برای ارتقای آن بهینه کنید.
۳. صفحات محصولی که رتبه ندارند!
محتوای صفحه محصول، از بهترین سیگنالها برای گوگل است که محصول شما را در صدر نتایج خود نشان دهد. اما اگر پارامتر TF-IDF را برای این محتوا بهینه نکرده باشید، گوگل در درک این صفحه و ارتباطش با نیاز کاربر دچار مشکل میشود. بسته به نوع وبسایتی که دارید، گاهی این پارامتر در محتوای صفحه محصول اهمیت بیشتری نسبت به مقالات دارد.
استفاده از 3 ابزار برای تحلیل TF-IDF
پیدا کردن TF-IDF فقط با شمارش تعداد یک کلمه در محتوای وبسایت خودتان ممکن نیست و به اطلاعات پایگاه گوگل هم وابسته است. بنابراین، باید برای آگاهی از این پارامتر، از ابزارهای سئو استفاده کنید. با اطلاع از این پارامتر در چند مرحله ساده، میتوانید محتواهای خود به شکلی بهینه و همسو با الگوریتمهای گوگل،بهروزرسانی کنید. در ادامه آموزش TF-IDF برای سئو و نحوه آگاهی از آن را در سه تا از بهترین ابزارها میبینید.
۱. تحلیل TF-IDF با ابزار Screaming Frog
اسکریمینگفراگ (Screaming Frog) نمیتواند بهصورت مستقیم TF-IDF را حساب کند. با وجود این، میتوانید با ویژگی استخراج سفارشی (Custom Extraction) و تجزیه و تحلیل N-Gram، دادههای لازم را جمعآوری کنید. سپس آنها را در نرمافزارهای دیگر ببرید یا با کدنویسی، مقادیر TF-IDF را به دست آورید.
دقت کنید که برای بهرهمندی از این قابلیت، باید از نسخه پولی آن استفاده کنید. از طرفی باید دانش استخراج داده و تحلیل متون را تا حدی داشته باشید. مراحل کلی انجام این کار به این ترتیب است:
- در منوی بالای اسکریمینگفراگ، به مسیر Configuration > Custom > Extraction بروید.
- در پنجره بازشده، روی Add کلیک کنید تا یک استخراجکننده جدید اضافه کنید.
- با ابزار مرورگر داخلی، عناصر متنی مورد نظر را انتخاب کنید تا مسیر XPath یا CSS آنها بهصورت خودکار تولید شود.
- URL وبسایت مورد نظر را در کادر بالای ابزار وارد کرده و فرایند خزیدن را آغاز کنید تا دادههای متنی استخراج شود.
- بعد از اتمام خزیدن، به مسیر Content> N-Grams بروید.
- در این بخش میتوانید فراوانی توالیهای کلمات (N-Grams) را مشاهده کنید که برای تحلیل کلمات و عبارات پرتکرار مفید است.
- از دادههای استخراجشده و تحلیل N-Gram بهصورت فایل CSV یا Excel خروجی بگیرید.
- دادههای صادرشده را در نرمافزارهای تحلیل داده، مانند Python، با کتابخانههایی مانند Scikit-learn یا R وارد کنید.
۲. تحلیل TF-IDF با ابزار Ryte
Ryte یک ابزار TF-IDF دارد که به کمک آن میتوانید تا 10 بار تجزیهوتحلیل رایگان داشته باشید. مراحل انجام این کار نیز به شرح زیر است:
در ابزار TF-IDF در Ryte، کلمه کلیدی اصلی مدنظرتان را وارد کنید.
Ryte محتوای صفحه را با 10 نتیجه برتر گوگل برای کلمه کلیدی مورد نظر، قیاس کرده و فهرستی را از کلمات کلیدی مهم نمایش میدهد. به کمک این فهرست میتوانید محتوای خود را آپدیت کرده و کلمات کلیدی مرتبط را به متن اضافه کنید.
اگر روی تب Detail mode کلیک کنید، اطلاعات بیشتری را از کلماتی میبینید که بیشترین وزن را دارد و میبینید که این کلمه در صفحه دقیقاً چند بار ذکر شدهاست.
میتوانید این نتایج را با رقبای خود مقایسه کنید. روی تب Competition کلیک کنید. میبینید که کدام رقبا از این اصطلاحات استفاده میکند. موس را روی دایرهها ببرید تا ببینید هر کلمه دقیقاً در کدام وبسایت و چند بار تکرار شدهاست. با کد رنگ، میتوانید متوجه شوید که امتیاز TF-IDF این کلمه بالا است یا پایین.
یک ابزار ویرایشگر متن هم در این ابزار موجود است که میتواند متن را در لحظه تحلیل کند. میتوانید متن را بنویسید یا فقط آن را کپی و اینجا Paste کنید.
۳. تحلیل TF-IDF با ابزار SEMRush
برای پیدا کردن TF-IDF با SEMrush، میتوانید از ابزار Content Analyzer و ویژگی SEO Content Template این پلتفرم استفاده کنید. برای استفاده از این ابزار نیز برای پیدا کردن این پارامتر، مراحل زیر را طی کنید:
- وارد بخش SEO Content Template شوید.
- کلمه کلیدی مرتبط را وارد کنید تا SEMRush پیشنهاداتی را بر اساس TF-IDF ارائه دهد.
- در ابزار SEO Content Template نیز میتوانید کلمه کلیدی را وارد کنید تا 10 نتیجه برتر را بر اساس آن ببینید. SEMRush بهصورت خودکار، TF-IDF را برای این کلمات حساب کرده و پیشنهاداتی را ارائه میدهد.
- بر اساس فهرستی که SEMRush تحویل میدهد، میتوانید محتواها را بر اساس کلمات کلیدی مهم و مرتبط بهینه کنید.
بهینه سازی TF-IDF با تمرکز بر کاربر
اما حالا که میدانید TF-IDF چیست، چطور باید از این تکنیک یا دادههای بهدستآمده برای بازاریابی محتوایی (Content marketing) استفاده کنید؟ در ادامه ۳ روش را برای بهروزسانی محتوا بر اساس این تکنیک میبینید.
۱. ویرایش لیست کلمات کلیدی
لیستی را که از ابزارهای سئو تحویل گرفتهاید، از زاویه دید خودتان ویرایش کنید. بعضی کلمات کلیدی ممکن است شامل نام یک برند باشد یا به هر ترتیبی کارایی لازم را برای شما نداشته باشد. تمام این کلمات کلیدی را بررسی کرده و یک فهرست کاربردیتر برای خود بسازید.
۲. شناسایی گپها یا اصطلاحات مهم که در لیست شما نیست!
با پیدا کردن TF-IDF و کلمات کلیدی مهم، احتمالاً وسوسه میشوید که از این کلمات چند بار در محتوا استفاده کنید. اما نتیجه این کار چیزی جز کیورداستافینگ (Keyword Stuffing) نیست! به جای این کار، محتوایتان را دقیقتر ببینید تا شکافها یا گپهایی را که بین کلمات کلیدی شما و فهرستی بهدستآمده وجود دارد، پیدا کنید.
اگر تعداد کلماتی که باید اضافه میکردید زیاد بود، سعی کنید برای آنها محتوای بیشتری بنویسید. بهاینترتیب تعداد کلمات کلیدی نسبت به تعداد کل کلمات محتوا، بیش از حد نخواهد بود.
۳. تغییر قالب
منظور از قالب، ساختار کلی و معماری محتوا است. اگر ساختارهای متنوع را امتحان کردهاید و به نتیجه نرسیدهاید، قالب محتوا را تغییر دهید. برای مثال گاهی ممکن است امکان اضافه کردن بعضی بخشها را به محتوایتان نداشته باشید. یا ممکن است ساختار رقبا را بررسی کرده و یک قالب کاربردیتر برای حوزه خود پیدا کنید.
در تغییر قالب محتوا، میتوانید از ترفندهای زیر استفاده کنید:
- ترکیبی از عناصر بصری را در محتوا بگنجانید تا کاربر خسته نشود.
- از بولتلیستها، عناوین فرعی، متنهای Bold، جدول و… استفاده کنید.
- CTA (Call to ACtion) بیشتری را در متن بگنجانید (در ازای هر 300 تا 500 کلمه، یک CTA).
- سلسلسهمراتب را در نظر بگیرید و مطالب اصلی را کاربر برای خواندن آنها مشتاقتر است، همان ابتدای بدنه محتوا انتقال دهید.
استفاده از TF-IDF برای سئو
برای بهره گرفتن از مزایای TF-IDF و بهبود رتبه سایت، چند مرحله کلی دارید که عبارت است از:
- تحقیق کلمات کلیدی: با ابزارهایی مانند KWFinder، Keyword Tool و… تحقیق کلمات کلیدی را انجام دهید و یک فهرست از آنها بسازید.
- از این کلمات بهصورت دقیق و بودن تغییر، در عنوان، متن بدنه و هدینگها استفاده کنید.
- به جای تکرار زیاد یک کلمه کلیدی، از مترادفهای آن استفاده کنید.
- با ابزارهایی سئویی که بالاتر دیدید، این بار کلمات کلیدی مهم را بر اساس TF-IDF پیدا کرده و بر اساس آن، محتوا را آپدیت کنید.
- همواره گوشبهزنگ آپدیتهای الگوریتم گوگل باشید و با آنها هماهنگ بمانید.
- از کلماتی که در تحلیل TF-IDF پیدا کردهاید، در لینکسازی داخلی و خارجی نیز بهعنوان انکر تکست (Anchor Text) استفاده کنید.
TF-IDF Vectorizer چیست؟
مبدل وکتور (TF-IDF (TF-IDF Vectorizer تکنیکی برای نمایش عددی متون است که در پردازش زبان طبیعی (NLP)و یادگیری ماشین برای تحلیل دقیقتر متن استفاده میشود.
این تکنیک از ترکیب دو مفهوم TF (Term Frequency) و IDF (Inverse Document Frequency) برای محاسبه وزن هر کلمه در یک مجموعه از اسناد استفاده میکند. سپس یک وکتور عددی را برای هر سند میسازد که به ماشینها این امکان را میدهد که متون را بر اساس دادههای عددی تحلیل کند.
نقش TF-IDF برای دستهبندی متن نیز با تکنیک TF-IDF Vectorizer گره خوردهاست. بهاینترتیب که میتوان اسناد را بر اساس شباهتهای معنایی به دستهها یا خوشههای مختلف تقسیم کرد.
CountVectorizer چیست؟
مبدل وکتور شمارش کلمات (CountVectorizer) نیز ابزاری در پردازش زبان طبیعی (NLP) است که برای تبدیل متن به پارامترهای عددی استفاده میشود. این ابزار به طور خاص در یادگیری ماشین و مدلهای تحلیل متن کاربرد دارد. در واقع، CountVectorizer یک تکنیک بازیابی ویژگیها است که تعداد دفعات تکرار هر کلمه را در اسناد یا متون مختلف محاسبه کرده و این اطلاعات را به یک وکتور عددی تبدیل میکند. در این تکنیک، ابتدا تمام کلمات موجود در مجموعهای از اسناد شناسایی شده و یک دیکشنری از آنها ساخته میشود. هر کلمه نیز یک ویژگی یا فیچر در دیکشنری خواهد بود.
سپس CountVectorizer تعداد دفعاتی را که هر کلمه در هر سند ظاهر میشود، حساب کرده و آن را به یک وکتور عددی تبدیل میکند. خروجی این تکنیک، یک ماتریس از اعداد است که هر سطر آن، نمایانگر یک سند و هر ستون نمایانگر یک کلمه خاص است. عدد داخل هر خانه نشاندهنده تعداد دفعات تکرار آن کلمه در آن سند است.
مقایسه CountVectorizer و TF-IDFVectorizer
اما تفاوت دو پارامتری که بالاتر دیدید در بحث TF-IDF چیست؟ مقایسه این پارامترها را میتوانید در جدول زیر ببینید.
پارامترهای مقایسه | TF-IDF Vectorizer | CountVectorizer |
روش کار | محاسبه میزان اهمیت کلمات بر اساس TF و IDF | شمارش تعداد دفعات تکرار کلمات در اسناد |
معایب | وزندهی به کلمات بر اساس تعداد تکرار آنها | وزن ندادن به کلمات بر اساس رایج یا مهم بودن آنها |
کاربردها | موتورهای جستجو، تحلیل احساسات و دستهبندی پیچیده | تحلیلهای پایهای و مدلهای ساده برای دستهبندی متن |
خروجی | ماتریس با وزندهی به کلمات | ماتریس شمارش کلمات |
ماتریس Term-Term چیست؟
ماتریس Term-Term (Term-Term Matrix) یا ماتریس اصطلاحبهاصطلاح، ماتریسی است که روابط بین کلمات مختلف را در یک مجموعه مشخص از اسناد نشان میدهد. این ماتریس روشن میکند که هر کلمه از یک سند، چطور با کلماتی در اسناد دیگر همراستا یا مرتبط است.
این ماتریس بهطور معمول از دادههای ترم-مستند (Term-Document) به دست میآید؛ اما برای هر دو کلمه در اسناد مختلف، میزان شباهت آنها را تعیین میکند. فرض کنید یک مجموعه از اسناد داریم که شامل ۳ جمله است:
- رتبهبندی گوگل با استفاده از الگوریتم PageRank انجام میشود.
- الگوریتمهای موتور جستجو، مانند PageRank، به رتبهبندی صفحات کمک میکند.
- SEO و بهینهسازی سایت برای رتبهبندی در گوگل اهمیت زیادی دارد.
کلمات کلیدی این جملات «رتبهبندی»، «گوگل»، «الگوریتم»، «PageRank»، «سئو» و «بهینهسازی» است. حالا برای هر جفت کلمه، تعداد دفعاتی که آنها در کنار هم در اسناد مختلف ظاهر شدهاند، حساب میشود.
رتبهبندی | گوگل | الگوریتم | PageRank | سئو | بهینهسازی | |
رتبهبندی | 3 | 2 | 11 | 0 | 0 | 0 |
گوگل | 2 | 3 | 1 | 1 | 1 | 1 |
الگوریتم | 1 | 1 | 2 | 2 | 0 | 0 |
PageRank | 1 | 1 | 2 | 3 | 0 | 0 |
سئو | 0 | 1 | 0 | 0 | 2 | 1 |
بهینهسازی | 0 | 1 | 0 | 0 | 1 | 0 |
بهترین هاست پربازدید را از پارسپک بخواهید!
خرید یک هاست امن و پرسرعت یکی از نیازهای مهم هر کسبوکار و سایت پربازدید است. برای خرید یک هاست با این ویژگیها بهترین انتخاب پارسپک است. در لینک زیر تعرفههای خرید هاست پربازدید را مشاهده کنید:
جمعبندی
در این راهنما دیدید که TF-IDF چیست و چه کاربردی در سئو دارد؟ با به دست آوردن این فاکتور، میتوانید محتوای خود را بهصورت هوشمندانه و متوازن بهینه کنید، از کیورد استافینگ جلوگیری کرده و با انتخاب کلمات کلیدی مناسب، محتوای خود را به نیازهای واقعی کاربران و الگوریتمهای موتور جستجو نزدیکتر کنید.
سؤالات متداول
۱. TF-IDF چیست؟
TF-IDF (Term Frequency-Inverse Document Frequency) یا فراوانی وزنی کلمات، یک تکنیک در پردازش زبان طبیعی است که میتواند به کلمات بر اساس اهمیتشان وزن دهد.
۲. هدف TF-IDF چیست؟
ارزیابی اهمیت کلمات در اسناد مختلف با توجه به فراوانی آنها در یک سند خاص و در کل مجموعه اسناد.
۳. کاربرد TF-IDF در سئو سایت چیست؟
گوگل از این تکنیک برای درک موضوع محتوا و تطبیق آن با جستجوی کاربران استفاده میکند. متخصصین سئو نیز از آن برای تقسیم درست کلمات کلیدی در محتوا بهره میبرند.
۴. چطور میتوانیم TF-IDF را تحلیل کنیم؟
با ابزارهایی مانند اسکریمینگ فراگ (screaming frog) ، Ryte و SEMRush میتوانید این پارامتر را برای URLها و کلمات کلیدی مختلف پیدا کنید.