DomainDojo.io

Trouver des listes de domaines expirés, c'est facile. Les nettoyer pour enlever les domaines spammés, ceux qui ont été pénalisés, et ceux qui n'ont plus de backlinks, c'est une autre histoire.

Le concept

Chez LVLUP, on a régulièrement besoin d'acheter de petits domaines : soit pour du PBN (Private Blog Network), soit pour s'en servir de "domaines jetables" quand on fait de la R&D (par exemple, on a passé en production des sites avec à peu près tous les générateurs de sites statiques du monde - Hugo, Jeckyll, Gatsby... et avec un nombre incalculable de CMS - de Wordpress à Statamic, en passant par OctoberCMS et Chamilo).

Il existe de nombreuses plateformes qui listent des domaines en "seconde main", mais pour notre usage particulier, elles sont frustrantes : en général, les domaines y sont listés avant même leur expiration, et passent ensuite par une période d'enchères, où de gros éditeurs n'hésitent pas à débourser plusieurs dizaines de milliers d'euros pour acheter les meilleurs.

À côté de ça, de nombreux domaines - certes, pas les plus puissants - passent sous le radar et expirent : n'importe qui peut leur donner une nouvelle vie, en les déposant directement chez son registrar préféré.

C'est sur ces domaines qu'on a décidé de se concentrer. Le problème, c'est que s'il est facile de savoir quand un domaine va expirer, et donc de monter une liste de domaines à surveiller, il y a beaucoup de pertes. Certains domaines ont été spammés, d'autres n'ont plus aucun backlink (et donc, on ne pourra pas profiter de leur historique à des fins de référencement naturel), d'autres ont déjà été re-déposés... Tenir une liste propres de domaines disponibles demande beaucoup de nettoyage.

C'est cette collecte et ce nettoyage qu'on a automatisés dans le cadre de DomainDojo.io !

Sous le capot

Très simple et très compliqué en même temps. Des robots d'exploration (crawlers) constituent des listes de domaines avant même leur expiration. Ensuite, on a mis en place toute une chaîne qui permet de disqualifier les domaines qui ne nous conviennent pas : chaque étape est un filtre qui ne laisse passer que les domaines qui valident le critère demandé.

En moyenne, on garde moins de 10% des domaines qu'on voit passer ; les causes principales de refus sont le spam (par exemple quand un domaine a été hacké et a servi de relai pour vendre de la contrefaçon), et le manque de backlinks, puisque ceux-ci ont une fâcheuse tendance à disparaître avec le temps.

Les domaines qui passent le filtre sont publiés chaque lundi, à 15h.

La stack technique

On a utilisé notre stack habituelle : Laravel 10 avec un Nova pour le backend et des composants Tailwind pour l'interface. Le déploiement se fait en push-to-deploy de Git vers Scaleway en passant par notre CI Gitlab, qui s'occupe aussi de valider les tests unitaires.

Pour l'historique des domaines, on utilise la librairie Readability de Mozilla (qui permet de ne garder que le contenu principal d'une page HTML) et StopWords de Voku pour raccourcir les textes qu'on analyse, notamment pour catégoriser les sites.

Le plus compliqué a été de régler l'algorithme de sélection des domaines, ce qui nous a pris une petite semaine de travail étalée sur un mois et demi. On reserre encore quelques boulons quand on voit passer des domaines qui auraient dû être filtrés, mais c'est du petit travail rapide d'ajustement.

Autres projets
Apprenez à sécuriser un site WordPress.
Apprenez à sécuriser votre site sous WordPress. Dédramatisons les bases de la sécurité.
Gestion de contenu pour les sites WordPress
Vous ne savez pas quel contenu rédiger ? Notre IA génére des idées par packs de 1000.
Trouver une idée de cadeau pour chaque occasion
Édition d'un site d'affiliation sur le thème des cadeaux. Plus de 30.000 produits à découvrir.