IDCALG: Yoctobe dzair html grabber presentation

Yoctobe dzair html grabber est un Plugin wordpress de téléchargement automatique de contenu html depuis des pages externes, vous pouvez aussi télécharger des images, du son et des vidéos des documents etc.

Dzair HTML Grabber fonctionne 100% de façon autonome. Les tâches de téléchargement sont planifiables et elles sont exécutées par le Cron Wordpress (au cas ou le site est hébergé dans un serveur dont l'option Cron est désactivée - Le cas des plans d'hébergement partagés).

L'ensemble des tâches programmées sont organisées par heure d'exécution dans le calendrier 'jobs', le programme vérifie périodiquement (à chaque minute, heure, jour, etc) le calendrier Jobs, et exécute chaque tâche individuellement, et publie le résultat de cette dernière action dans le journal de tâches exécutées avant de passer à la tâche suivante.

Quel type de contenu Dzair HTML Grabber est capable de le télécharger

Dzair HTML grabber est capable de télécharger n'importe quel type de contenu, html, images, son, vidéos, documents ..etc.

Le premier type de contenu (html) est géré dans le cas d'un simple post comme contenu du poste (post content) par wordpress, Les autres types sont gérés en tant qu'attachements.

La classe 'Post' sur wordpress est la classe parente de tous les autres types que ce soit standard ou personalisés à savoir : page, item, recipe, book, download, event, ad ..etc.

Bien évidemment n'importe quel programmeur wordpress peut générer autant qu'il veut des types sur cette magnifique plateforme et contrôler les détails d'affichage de ces objets.

Exemple de types dérivés du post

Recette, les données (temps de préparation, ingrédients (en bas - n'apparaissent pas dans cette image), nombre de personnes, degré de difficulté etc, ont été téléchargées depuis des endroits différents (pages différentes) puis filtrées puis réorganisées et publiées sous le type Recipe.

Une grande flexibilité

Vous pouvez construire n'importe quel type de site, qui pourrait contenir une variété infinie de contenu, vous pouvez automatiser la publication d'articles sur un magazine, de posts sur un blog, d'objets sur un site de ecommerce avec une grande flexibilité de paramétrage qui vous donne 100% le contrôle de l'apparence de vos objets publiés quelque soit leur source.

Vous pouvez créer un site de milliers d'ebooks, un site pour les nouvelles séries de cinéma, nouveaux films, nouveau jeux, voitures etc.

Programmer le téléchargement quotidien d'un objet simple ou complexe

J'entends dire par "complexe" un objet dont le contenu nécessite le téléchargement de plusieurs éléments supplémentaires, par exemple date de début d'un évènnement, commentaires, prix, durée, heure, etc. C'est le système de taxonomies de wordpress qui gère tout ça.

Label : la catégorie (wordpress) dont les objets téléchargés vont être regroupés

URL : la page (page d'accueil, résultats de recherche, section de blog ...etc) depuis laquelle Yoctobe Dzair HTML Grabber va parser les URLS de plusieurs objets à télécharger à la fois.

MAX_POSTS : le nombre maximal d'URLS parsées à chaque lancement de l'opération de téléchargement.

Language : Langue du contenu de l'objet à télécharger (important pour les sites multilingues)

Single Post URL : ce paramètre indique l'adresse html de l'url à parser, le prgoramme parsera un nombre égale à MAX_POST d'objets qui ont la même adresse.

Dans ce cas si vous mettez MAX_POSTS = 4, le programme téléchargera 4 pages de la même façon dont les URLS se situent sur cette page.

Les paramètres que j'ai entrés sont les suivants

.list_item h3+0

L'espace " " indique que h3 est l'enfant de la classe .list_item et que cette dernière est le parent de h3

Le "+" indique que la position de l'anchor "a" est le premier enfant de h3. Si par contre "a" est le deuxième enfant de h3 l'expression sera plutôt : .list_item h3+1 et ainsi de suite.

Si vous souhaitez télécharger par exemple des éléments supplémentaire depuis cette page appelée (FEED PAGE) vous allez devoir ajouter quelques paramètres.

Dans cet exemple, je souhaite récupérer le nombre de commentaires avant d'ouvrir la page qui est la destination du lien (bien sur cette opération est répétée MAX_POSTS fois).

.list_item h3+0&dom::ext::_EXE=>.post-meta+0

L'opérateur "&" indique que je souhaite récupérer d'autres éléments avant de passer à la seconde page.

dom::ext::_EXE=>.post-meta+0

1) dom:

dom : indique que je vais passer une adresse html du dom à télécharger dans notre cas .post-meta+0 (même principe que url)

txt: indique que je vais passer directement du texte : par exemple : 320 commentaires!

2) ext :

ext : indique que je souhaite traiter les donner téléchargées ultérieurement par une fonction spécifique.

cat : indique que je souhaite traiter les donner téléchargées en tant qu'objet "category wordpress". Noter bien que cela ne veut pas dire explicitement catégorie au sens du mot mais une large variété de taxonomies wordpress qu'on verra par la suite.

met: indique que je souhaite traiter les donner téléchargées en tant que méta wordpress

3) _EXE

c'est le nom propre de votre catégorie ou votre méta téléchargée.

4) L'opérateur => : indique la valeur de l'adresse du dom à parser ou la valeur du texte à sauvegarder.

Post Credits

Single post title : indique l'adresse html vers le conteneur du titre de l'article dans la page parcourue.

Exemple :

#contents h2+0

Le titre est situé dans h2 qui est le premier enfant du div avec ID = content.

Single post featured image : le même principe pour la photo du post : exemple .post_content img+0.

On arrive maintenant à content : c'est le contenu de l'objet à télécharger et les éléments supplémentaires :

exemple:

.hotelDetail_02+0&dom::cat::tribe_events_cat=>.box_one h2+0&txt::met::_EventOrigin=>events-calendar&txt::met::_EventShowMapLink=>1&txt::met::_EventShowMap=>1&txt::met::_EventCurrencySymbol=> USD &txt::met::_EventCurrencyPosition=>prefix&dom::met::_EventURL=>.agenda_con h2 a+0&txt::met::_EventAllDay=>yes&dom::ext::_dates=>.hotelDetail_01 h6+0,.hotelDetail_01 h6+1

Je souhaite par cette expression télécharger (en rouge) la description d'un évènnement (texte principal) puis ajouter des propriétés : tribe_events_cat : catégorie de l'évènnement, La date de début et de la fin (traitement ultérieur par une fonction) dom::ext::_dates=>.hotelDetail_01 h6+0,.hotelDetail_01 h6+1 (voir paramétrage avancé)

Le résultat :

Et bien sur quand je clique sur le lien de l'évènnement :

Filters: si vous souhaitez supprimer des publicités ou des photos ou des éléments particulier du contenu du post vous pouvez ajouter des filtres :

Les filtres sont séparés par "+"

<div class="sd-content"(.*?)</div>+<h3 class="sd-title"(.*?)</h3>+<h3 class="jp-relatedposts-headline"(.*?)</h3>+<h3>Commentaires(.*?)</h3>+<div class="jp-relatedposts-post(.*?)</div><div class="(.*?)</div>

Dans cet exemple, si vous souhaitez supprimer l'élément div qui a une classe avec une valeur de "sd-content", ajouter ce filtre : <div class="sd-content"(.*?)</div>
Le programme supprimera toutes les occurrences de cette expression.

Optionnel :

Auteur : Exemple : a[itemprop=author]+0
Excerpts : .post_content p+0

Type : le type de l'objet à publier ou à sauvegarder comme brouillon, exemple : post, event, item etc.
Scheduled : si la valeur est égale à "ANY" le programme va parcourir les urls programmer chaque heure, par contre, si la valeur est comprise entre 0 et 23, le programme ne parcourera les urls programmées qu'a cette heure.

Enfin si vous souaitez que l'objet soit directement publié, la valeur de "published" doit être true, dans le cas contraire, false.

Paramètres du site

Si vous souhaitez forcer le programme à exécuter toutes les tâches programmées cliquez sur "Run Tasks now":

IDCALG

lundi 4 janvier 2016

Yoctobe dzair html grabber presentation

Quel type de contenu Dzair HTML Grabber est capable de le télécharger

Exemple de types dérivés du post

Une grande flexibilité

Programmer le téléchargement quotidien d'un objet simple ou complexe

Paramètres du site

Aucun commentaire:

Enregistrer un commentaire