Cerca

TF*IDF para SEO: Resultados de las pruebas y comparación de herramientas

Es posible que haya visto el término TF*IDF ser lanzado en el último año más o menos, pero nadie podría culparlo si aún no ha comenzado a prestar atención.

Muchas modas SEO van y vienen, y algunas de las más interesantes terminan atrayendo sanciones, más tarde, ¿verdad?

Pero TF*IDF es algo ligeramente diferente.

No es una manipulación de los motores de búsqueda; es un método de análisis de temas en el contenido y se basa en los mismos principios que los propios motores de búsqueda.Por esta razón, tiene un enorme potencial para los SEOs que necesitan un método verdaderamente objetivo para medir y mejorar el contenido.

Acabo de completar un caso de estudio exactamente de lo que es capaz de hacer y los resultados son bastante interesantes.

En caso de que algunos de ustedes estuvieran donde estaba hace unos meses, quiero asegurarme de cubrir lo que aprendí sobre TF*IDF y cómo se usa antes de llegar a lo que aprendí de mis experimentos personales con él.

El curso intensivo comienza en la siguiente sección, pero si ya eres un usuario experimentado, puedes encontrar los resultados de mis pruebas personales y algunas comparaciones de las mejores herramientas tf* IDF hacia el final.

Esperamos preguntas y comentarios.

¿Qué es TF * IDF?

Entonces, ¿qué es TF* IDF?¿Un acrónimo?¿Una ecuación?¿Un emoji de texto realmente oscuro?

Son al menos dos de esas cosas.

En términos literales, significa Frecuencia Términos de frecuencia Frecuencia inversa del documento.

Ecuación

TF * IDF es una ecuación que combina estas dos mediciones: medir la frecuencia con la que se utiliza un término en una página (TF) y medir la frecuencia con la que ese término aparece en todas las páginas de una colección (FDI) – para asignar una puntuación, o peso, para la importancia de ese término para la página.

Lo sé… alarma nerd, ¿verdad?

Veremos por qué esto es tan importante para los SEOs en un tiempo, pero primero, echemos un vistazo a dónde vino.

La ecuación tiene una historia muy larga en la academia, donde investigadores en campos tan diversos como la lingüística y la arquitectura de la información la utilizaron como una forma de analizar enormes bibliotecas de documentos en poco tiempo.

También es utilizado por los programas de recuperación de información (incluidos todos los motores de búsqueda) para ordenar y juzgar eficientemente la relevancia de millones de resultados.

Hay una diferencia importante entre lo que desea hacer y lo que el motor de búsqueda quiere hacer con esta misma información.

El motor de búsqueda quiere considerar una colección que consiste en todos los resultados en la web mientras desea comparar una página o sitio web con sólo los sitios que lo están superando…que es el top 10.

Echemos un vistazo más de cerca a TF e IDF…

Las ecuaciones que te llevan a TF * FDI

Área

Tienes que hacer un poco más de matemáticas para involucrar ambas mediciones, a saber, TF e IDF.pero prometo que no será difícil.Dependiendo de la aplicación, las ecuaciones para TF* IDF pueden ser mucho más complicadas que los ejemplos que estoy usando a continuación.

Simplificado o no, generalmente no quieres sorprenderte de hacer este trabajo a mano si estás buscando optimizar un sitio.Estas ecuaciones le ayudarán a entender cómo funcionan las FDI TF*, pero son las herramientas que estoy discutiendo al final las que realmente abren el potencial.

Resuelva la primera frecuencia de términos calculando el número de veces que aparece un término en una página.A continuación, vincule ese número a la siguiente ecuación:

Frecuencia de términos = (recuento de términos no procesados) / (recuento total de palabras del documento)

Por su cuenta, la puntuación tf puede decirle si está utilizando una palabra demasiado raramente o con demasiada frecuencia, pero sólo es realmente útil en comparación con la otra medida.

Calcula la frecuencia inversa de los documentos dividiendo el número de documentos donde aparece el término por el número total de documentos de la biblioteca que elija, de la siguiente manera:

Frecuencia inversa del documento (término) = registro (número de documentos / (documentos que contienen palabras clave)

Con la puntuación de las FDI, ahora puede medir la importancia de una oración para una página, no solo su número de usos.Esto es importante porque te está poniendo en la mentalidad de las personas que están construyendo algoritmos de motores de búsqueda.

¿Por qué es importante para los SEO?

El objetivo final de poder compilar esta ecuación es ser capaz de dar una puntuación de relevancia viable a su contenido.Con las herramientas TF*IDF ahora disponibles, puede comparar sus puntuaciones con las mejores puntuaciones de página de rendimiento para cualquier término.

Al clasificar páginas sobre esta medida, casi puede bajar la cortina sobre cómo Google podría clasificar los sitios dedicados al mismo tema.

No se sabe si Google está utilizando TF* IDF en su algoritmo, y si lo son, ¿es una forma mutada de ella o no?Dicho esto, ha habido algunos estudios de correlación privados que he estado al tanto de cuyos datos sugieren que es probable.

El análisis tf* IDF le permite optimizar el equilibrio de términos en el contenido basado en lo que ya es recompensado por el algoritmo.

Es enorme para los SEOs porque marca el regreso de algo que todos los sombreros viejos sabían y… ¿Amaba?

¿Devuelve la densidad de palabras clave?

todavía meme

No. A nadie le encantaron los días en que reinaba la densidad de palabras clave.

Sin embargo, TF* IDF podría marcar un retorno a la primacía de frases y palabras clave como un marcador importante, sólo de una manera muy diferente.

El hecho es que Google nunca se ha basado en la densidad de palabras clave como medida de valor.Parecía que se lo estaban haciendo a personas que no entendían cómo funcionaba realmente el algoritmo.

En su lugar, las estrategias de densidad de palabras clave fueron un primer intento de entender cómo Google estaba utilizando TF*IDF para la indexación y recuperación.

La gente estaba tratando de crear palabras clave, así que las algas y los filtros salieron a combatirlo (hola panda).

Así que, en cierto modo, la densidad de palabras clave ha vuelto.Huyó de casa cuando era un adolescente gruñón y regresó como un adulto maduro con una licenciatura en ciencias.

La densidad de palabras clave era una táctica temprana y limitada que fomentaba principalmente los malos hábitos.Medir el uso de términos con TF* IDF le dará una idea (al menos en la medida en que los mejores resultados los están utilizando).Revela lo que se considera natural, muy precisamente.

Uso de TF * FDI para mejorar búsqueda de palabras clave

TF* IDF da un paso por delante de la densidad de palabras clave en la forma en que le abre a la información sobre familias enteras de palabras en un sitio web.

Por ejemplo, imagine que ya ha completado la búsqueda de palabras clave para optimizar una página para "ABOGADO DUI Chicago".La mayoría de las herramientas de búsqueda de palabras clave escupirán palabras clave como "abogado de DUI en Chicago", "abogado de DUI Chicago", etc.

Cuando utilice las herramientas TF*IDF que trataré más adelante, también podrá encontrar términos no SEO relacionados que son utilizados por las páginas más clasificadas que nunca habría encontrado antes de usar la búsqueda de palabras clave normal.Términos como "legal", "experimentado", "derechos" y "práctica".

dui abogado de Chicago

Estas palabras no habrían aparecido en las herramientas de búsqueda de palabras clave porque los propios artículos no están clasificados para ellos, sin embargo son necesarios para contar la historia de la intención de búsqueda.

Vamos a poner la ecuación a usar.

Por suerte, no tendrás que hacerlo manualmente para tus sitios.Siempre hay una herramienta para usar, y sólo tiene unos pocos pasos para ver los que probé para los resultados.

Poner TF * FDI para usar

Oh no más matemáticas.

En este punto usted puede tener flashbacks en la escuela secundaria, dar la vuelta en su silla desesperadamente en busca del reloj de pared que le dirá cuando usted es libre.

No te preocupes, esta vez, voy a hacer las cuentas.Justo después de eso, llegaremos a las cosas jugosas: cómo usar TF*IDF para usar.

Echemos un vistazo a la ecuación en acción…

Supongamos que un documento, como la página de destino de un cliente que está revisando, contiene el término "PPC" 12 veces y tiene aproximadamente 100 palabras.Si desea comenzar a analizar este contenido, debe comenzar vinculándolo a la ecuación de frecuencia de términos de antes.

TF (PPC) = (12/100) = 0 .12

Ahora, supongamos que desea entender cómo este uso en comparación con el uso de este término en el resto de la web.A partir de una muestra de 10.000.000, al menos algunas de estas páginas cubrirán los servicios web e incluirán referencias a PPC.Digamos que 300.000 de ellos.

Podemos usar esos números para terminar la ecuación de frecuencia de documento inverso.

FDI (PPC) = log (10.000.000 / 300.000) = 1,52

Ahora puntúe su página en función de ese término con la ecuación TF * IDF

TF * FDI (PPC) = 0,12 * 1,52 = 0,182

Es una buena puntuación.¿O lo es?

La verdad es que no se trata realmente de respetar un límite.Desea equilibrar su puntuación para términos específicos con las URL con mejor rendimiento en la página 1.

Una puntuación alta para un cierto término no es necesariamente algo bueno (12 usos en 100 palabras es mucho, después de todo).

¿Qué pasa con términos comunes como "el" y el "de"?

Tal vez te preguntes, ¿qué hay del ruido?

¿Qué hay de todas las palabras comunes como "de", "el" o "e"?Debido a la forma en que se estructura la ecuación, este ruido no es realmente un problema.

Todo el conjunto de documentos utiliza estas palabras con frecuencia, por lo que la importancia de estas palabras se reduce considerablemente.

Volvamos a la ecuación.Para ilustrar realmente la diferencia, vamos a decir que hay tantos usos de "de" en la página como hay "PPC".

TF (OF) = (12/100) = 0 .12

Pero mira lo que sucede cuando terminamos la ecuación de las FDI con el conocimiento de que la gran mayoría de los resultados contendrán la palabra "de", dicen 8.000.000 de ellos.

FDI (OF) = log (10.000.000 / 8.000.000) = 0,09

Esto haría que el valor final TF * FDI:

TF * FDI (OF) = 0 .12 * 0.09 = 0.010

El valor TF * IDF aumenta en proporción al número de veces que se utiliza la frase en el documento, pero en este caso se compensa por la frecuencia de la palabra en el resto de la colección, que su puntuación de valor se crátera en relación con el último ejemplo.

En otras palabras, cuanto más común sea la palabra, más pequeñas se vuelven las FDI.

¿Y las frases?

Los motores de búsqueda tienden a dar peso a medida a frases compuestas de múltiples términos.

Palabra

Esto es especialmente cierto cuando se tiene en cuenta la calidad natural del lenguaje.

Por supuesto, usted quiere traer estas consideraciones sobre cómo realizar las calificaciones de IDF TF*.

Afortunadamente, esto no requiere ningún esfuerzo adicional de su parte.La mayoría de las herramientas de FDI* tf* pueden calcular palabras clave como versiones de 2 y 3 palabras.

Cuando TF * IDF se utilizó exclusivamente con fines académicos y de investigación, los términos ya se calcularon como conjuntos de 2 palabras llamadas bigrams o conjuntos de 3 palabras llamadas trigramas.La misma práctica ha sido adoptada por los motores de búsqueda, por lo que es importante analizar su contenido de la misma manera que lo hacen.

Usando el ejemplo de una página PPC de antes, echemos un vistazo a una frase que podría aparecer en esa página y qué oraciones sobre el tema pueden sugerir.

"Una campaña ppc necesita muchos anuncios"

Cada conjunto de dos palabras de esta oración se puede calcular como un conjunto de canicas.

  • Un PPC
  • Campaña ppc
  • necesidades de campaña
  • Etcétera.

Cuando se agrega una tercera palabra, se hace aún más claro cuán importante es el contexto agregado cuando se consideran oraciones más largas.

  • Una campaña ppc
  • Necesidades de campaña del PPC
  • la campaña necesita muchos
  • Etcétera.

No todas las herramientas TF* IDF pueden manejar más de dos combinaciones.Examinaré con más detalle las capacidades de cada uno en la comparación de los instrumentos que se encuentran a continuación.

Cómo utilizar TF * DIF

TF* IDF encaja perfectamente en el proceso de desarrollo de contenido de casi todos los SEO.

Es una manera de aprender más antes de empezar a crear contenido y luego saber dónde y cómo refinarlo de nuevo.

Después de elegir una herramienta, es solo un tutorial para obtener más información sobre cómo elegir cada palabra clave.Si aún no ha elegido una herramienta TF* IDF, puede encontrar los datos de prueba que ejecuté con ellos en la siguiente sección.

1) Escribir contenido

escribir contenido

Escribe contenido con los más altos estándares que conoces o consulta el contenido que estás optimizando para un cliente.Crea una lista de temas de una, dos o tres palabras que quieras tratar y llévala a la herramienta TF*IDF que has elegido.

Su objetivo aquí es dirigirse a las palabras clave y DIRECCIONES URL de los dominios principales que les ordenan revelar qué temas se pierden y qué temas no está tratando lo suficientemente profundo.

2) Conéctese a una herramienta TF * IDF

Cada herramienta funciona ligeramente diferente, como verás, a continuación.También rastrean información diferente, pero los más útiles están orientados a ayudarle a entender cómo sus competidores están teniendo éxito con su uso de palabras clave.

Aprovecha todas las características que la herramienta que has elegido te ayuda a descubrir los términos asociados con las primeras 10-20 URL de nivel superior y, a continuación, produce puntuaciones que reflejan el peso de cada otro término que están usando.

3) Optimizar el contenido de nuevo

Ahora que tiene una idea completa de los temas tratados por cada uno de sus competidores y una comprensión de la frecuencia con la que se utilizan estas palabras, puede utilizar esa información para refinar su contenido.

Da un segundo paso en el contenido y busca formas naturales de introducir temas que aún no has tratado.Recuerde, su motivación no es rellenar de forma antinatural, sino restaurar las conexiones naturales donde actualmente carecen.

4) Público

Publica contenido actualizado con información que hayas recopilado recientemente de tus búsquedas.Desde aquí, puede seguir analízalo y cualquier cambio en las filas.

5) Mostrar resultados antes y después de TF * FDI

surfista antes y después

Una de las ventajas de TF* IDF es que le permite realizar un seguimiento del rendimiento a un nivel muy minucioso.Antes y después de cada cambio que realice en su contenido, puede producir capturas de pantalla de cómo ha cambiado el balance de los temas de sus páginas.Estos son útiles para los clientes interesados en ver métricas específicas para los cambios que está realizando en su contenido.

¡Ahora estamos listos para entrar en la parte que has estado esperando!

Tuve la oportunidad de jugar con todas las herramientas más grandes de TF*IDF en mis sitios y tengo mucho que mostrarle acerca de lo que pueden hacer.

Pero primero, permítanme compartir algunos resultados que obtuve probando TF*IDF en interwebs reales.

Resultados de las pruebas

Me gustaría presagiar esta sección diciendo que he estado probando TF*IDF durante más de un año.

Desde que miré por primera vez algoritmos de densidad semántica basados en nichos, el concepto llegó a un acuerdo armonioso conmigo.

Y aunque la mentalidad correcta en todo tipo de experimentación es el agnóstico, realmente quería que TF*IDF funcionara.

Dicho esto… durante mucho tiempo, obtuve resultados sin mancha.

Y luego las cosas cambiaron.

Te voy a guiar a través de la historia, pero primero, déjame describir cómo lo probé.

Identificación de pruebas para experimentos tf * DIF

Crear estructuras de prueba de una sola variable es bastante difícil para este escenario en particular.

perro de prueba

¿Qué es una sola prueba de variable?

En un entorno de prueba supercontrolado, tendría dos grupos de casos de prueba.

Un grupo sería el grupo de control.

En el grupo de control, no cambias nada.Simplemente está obteniendo un resultado "basal" para compararlo con el grupo experimental.

El grupo experimental es completamente idéntico al grupo de control en muchos aspectos.

Las páginas web pueden tener los mismos tipos de backlinks, dirigirse a las mismas palabras clave, etc. Todas estas variables deben ser similares y constantes entre sí, de lo contrario la prueba es defectuosa.

Sin embargo, con el grupo experimental, cambias una cosa.Esta es la variable única.Y en este caso, sería la optimización de TF* IDF.

Para los sitios web del grupo experimental, realice la optimización tf * IDF, déjelos sentados y, a continuación, compare los resultados con el grupo de control.

El desafío con las pruebas SEO es que nunca se pueden controlar todas las variables.Siempre hay ruido que viene en forma de backlinks, tráfico, competencia, cambios de algoritmo, etc.

Ya sabes cómo es SEO.Es un AF ruidoso.

Una forma en que a las personas les gusta crear pruebas SEO es usar palabras incomprensibles.

Digamos que creamos 10 páginas internas en el mismo dominio, todas dirigidas a palabras inventadas como "flubblegoblin".

Ocuparían toda la primera página de Google ya que no hay resultados de búsqueda para "flubblegoblin" (todavía).

flubblegoblin

Estas páginas serían muy similares en longitud, optimización, etc.

A continuación, podría optimizar tres con TF *IDF, dejarlos sentarse y luego si TF * IDF funciona, deben empezar a clasificar #1-3, ¿verdad?

Pero este enfoque es imperfecto desde el principio.

Debe optimizar su contenido en comparación con todas las demás páginas que ha creado, que ya se han creado de forma similar entre sí.

Por lo tanto, si establece el experimento correctamente desde el principio, no habría ninguna optimización posible.Ya son idénticos.

Así que también un callejón sin salida.

Desafortunadamente, seguí el siguiente enfoque para las pruebas.

Me gustaría aislar varias páginas en varios sitios web en vivo que presentaban las siguientes características:

  • Clasificaciones estáticas durante al menos un mes
  • No recibe ningún enlace trasero o jugo de enlace interno

A continuación, me gustaría aplicar la optimización tf * IDF y dejarlos descansar durante unos 30 días y buscar aumentos o disminuciones en la clasificación.

No estoy del todo satisfecho con este enfoque, ya que una gran cantidad de "ruido" puede entrar en esta estructura del experimento debido a cambios de algoritmos, sitios web envejecidos, etc.

Así que decidí luchar contra esta imprecisión, probando en múltiples etapas y muchas páginas diferentes.

Ahora en el programa.

Fase 1 – Entre diciembre y marzo

Ah, la edad oscura.

Herramientas de optimización:

Mis primeros experimentos con la optimización de TF* IDF se realizaron entre las fechas mencionadas anteriormente.

Hice experimentos en tres ocasiones diferentes, en 12 URL diferentes y rastreé 36 palabras clave diferentes (3 por URL).

En cualquier caso, los resultados se dejaron estabilizar durante 45 días (por si acaso).

Estos son los resultados no publicadResultados de las pruebas tfidf de fase 1os:

Vaya, vaya.

No parece haber mucho efecto ni en la dirección positiva ni negativa.

Después de tantas pruebas y resultados como estos, ¿por qué continí?

Porque, como dije antes, estaba realmente interesado en el concepto y estaba (para ser honesto) bastante sorprendido de que él no hiciera nada.

Empecé a dudar de mi integridad de los testcases y las herramientas que estaba usando.

Al final, me dije a mí mismo que lo seguiría probando periódicamente sólo para "comprobar" las cosas.

Fase 2 – Abril

Para esta segunda serie de pruebas, decidí ceñirse a las herramientas de texto para el análisis y la optimización.

¿porque?

Por un lado porque el software permitió ajustes dentro de la herramienta, por lo que podría editar mi texto y reevaluar sobre la marcha (voy a hacer una revisión de la herramienta más adelante en este artículo).

Y dos, porque el dueño me dio una licencia gratuita (gracias Michael).

Me sorprendió ver los siguientes resultados por segunda vez.

Resultados de las pruebas tfidf de fase 2

En dos de las tres pruebas encontramos movimientos positivos.

No fue un movimiento innovador, sino suficiente para mostrar una tendencia.

Pero aquí está el pateador.

Durante este tiempo, se lanzó una actualización del algoritmo básico.Sucedió en marzo para ser exactos.

Los dos sitios que mostraron movimientos positivos fueron actualmente maltratados por esta actualización del algoritmo.

Y mientras todas las páginas del sitio sufrían una pérdida en la clasificación, las páginas que estaba probando TF*IDF mantenían su posición o ganaban posiciones.

Y luego encontré artículos como este…

ver artículo

Si estas actualizaciones de algoritmos eran realmente acerca de la relevancia, qué mejor indicador de relevancia que las malditas palabras que aparecen en las páginas web.

La coincidencia fue suficiente para aumentar mi interés.

¿Fue suficiente para firmar completamente en TF* IDF y agregarlo a mis procedimientos operativos estándar (SOP)?

Absolutamente no.

Sólo más pruebas podrían hacer eso.

Fase 3 – Mayo

Nada ha cambiado en este experimento.

Continué usando herramientas de texto como mi software favorito.

Lo único diferente fue la nueva evidencia y una fecha diferente.

Resultados de las pruebas tfidf de fase 3

Las tendencias siguieron siendo las mismas que en la Fase 2.

Resultados más positivos.

Esta vez profundicé en las cosas y noté algunos patrones.

Los resultados suelen empeorar antes de mejorar

En el 61% de las palabras clave que estaba monitoreando, las palabras clave empeoraron antes de que mejoraran.

Sólo después de 22-24 días después del inicio inicial y la nueva caché del nuevo texto optimizado, las clasificaciones comenzaron a girar la esquina.

mediante la optimización de una palabra clave puede deshabilitar otra palabra clave

Hago un montón de SEO afiliado, así que la mayoría de las páginas con las que estaba experimentando eran páginas de revisión.

Así que cuando decido para qué palabras clave analizar y optimizar, normalmente elegiría palabras clave "better ___" como "mejor proteína en polvo".

Sin embargo, para las pruebas, estaba monitoreando una amplia gama de palabras clave como "beneficios en polvo de proteínas.

Aquellas palabras clave que realmente no están relacionadas con consultas orientadas a la revisión como "mejores proteínas en polvo" o "revisiones de proteínas en polvo" eran más propensas a experimentar movimientos negativos.

Fase 4 – Agosto

Esta vez decidí utilizar una herramienta diferente: El Auditor del Sitio Web de Link Assistant.

Cambié las cosas de Text Tools ya que hay (lo que creo que es) un defecto en su sistema, del que hablaré más adelante.

Estos son los resulResultados de las pruebas tfidf de fase 4tados:

En este punto, empecé a sentirme lo suficientemente cómodo con los resultados para justificar la escritura de este artículo y empezar a incorporar esta técnica en nuestro SOP.

Especialmente con resultados como estos que requerían la construcción de enlaces cero:

marca de error

Comparación de herramientas: Sufer vs Sitio web del auditor vs herramientas de texto

Aquí hay una comparación de tres de las herramientas más populares en el mercado que se pueden utilizar para analizar y optimizar el contenido de TF* IDF: Surfer's True Density vs Link Assistant's Website Auditor vs Text Tools.

TF * Comparación de herramientas del DIF

 

  

 

 

  

 

  

 

 

 

 

 

 

  

  

 

 

 

  •  
  •  
  •  
  •  
  •  

  

  

 

 

 

 

 

 

 

 

 

  

 

 

 

 

  

 

 

 

 

 

 

  

 

 

  

 

  

 

 

 

 

   

 

 

  

 

 

 

 

 

 

 

 

 

Open

info.ibdi.it@gmail.com

Close