Dzair HTML Grabber fonctionne 100% de façon autonome. Les tâches de téléchargement sont planifiables et elles sont exécutées par le Cron Wordpress (au cas ou le site est hébergé dans un serveur dont l'option Cron est désactivée - Le cas des plans d'hébergement partagés).
L'ensemble des tâches programmées sont organisées par heure d'exécution dans le calendrier 'jobs', le programme vérifie périodiquement (à chaque minute, heure, jour, etc) le calendrier Jobs, et exécute chaque tâche individuellement, et publie le résultat de cette dernière action dans le journal de tâches exécutées avant de passer à la tâche suivante.
Quel type de contenu Dzair HTML Grabber est capable de le télécharger
Dzair HTML grabber est capable de télécharger n'importe quel type de contenu, html, images, son, vidéos, documents ..etc.
Le premier type de contenu (html) est géré dans le cas d'un simple post comme contenu du poste (post content) par wordpress, Les autres types sont gérés en tant qu'attachements.
La classe 'Post' sur wordpress est la classe parente de tous les autres types que ce soit standard ou personalisés à savoir : page, item, recipe, book, download, event, ad ..etc.
Bien évidemment n'importe quel programmeur wordpress peut générer autant qu'il veut des types sur cette magnifique plateforme et contrôler les détails d'affichage de ces objets.
Exemple de types dérivés du post
Recette, les données (temps de préparation, ingrédients (en bas - n'apparaissent pas dans cette image), nombre de personnes, degré de difficulté etc, ont été téléchargées depuis des endroits différents (pages différentes) puis filtrées puis réorganisées et publiées sous le type Recipe.
Une grande flexibilité
Vous pouvez construire n'importe quel type de site, qui pourrait contenir une variété infinie de contenu, vous pouvez automatiser la publication d'articles sur un magazine, de posts sur un blog, d'objets sur un site de ecommerce avec une grande flexibilité de paramétrage qui vous donne 100% le contrôle de l'apparence de vos objets publiés quelque soit leur source.
Vous pouvez créer un site de milliers d'ebooks, un site pour les nouvelles séries de cinéma, nouveaux films, nouveau jeux, voitures etc.
Programmer le téléchargement quotidien d'un objet simple ou complexe
J'entends dire par "complexe" un objet dont le contenu nécessite le téléchargement de plusieurs éléments supplémentaires, par exemple date de début d'un évènnement, commentaires, prix, durée, heure, etc. C'est le système de taxonomies de wordpress qui gère tout ça.
Label : la catégorie (wordpress) dont les objets téléchargés vont être regroupés
URL : la page (page d'accueil, résultats de recherche, section de blog ...etc) depuis laquelle Yoctobe Dzair HTML Grabber va parser les URLS de plusieurs objets à télécharger à la fois.
MAX_POSTS : le nombre maximal d'URLS parsées à chaque lancement de l'opération de téléchargement.
Language : Langue du contenu de l'objet à télécharger (important pour les sites multilingues)
Single Post URL : ce paramètre indique l'adresse html de l'url à parser, le prgoramme parsera un nombre égale à MAX_POST d'objets qui ont la même adresse.
Dans ce cas si vous mettez MAX_POSTS = 4, le programme téléchargera 4 pages de la même façon dont les URLS se situent sur cette page.
Les paramètres que j'ai entrés sont les suivants
.list_item h3+0
L'espace " " indique que h3 est l'enfant de la classe .list_item et que cette dernière est le parent de h3
Le "+" indique que la position de l'anchor "a" est le premier enfant de h3. Si par contre "a" est le deuxième enfant de h3 l'expression sera plutôt : .list_item h3+1 et ainsi de suite.
Si vous souhaitez télécharger par exemple des éléments supplémentaire depuis cette page appelée (FEED PAGE) vous allez devoir ajouter quelques paramètres.
Dans cet exemple, je souhaite récupérer le nombre de commentaires avant d'ouvrir la page qui est la destination du lien (bien sur cette opération est répétée MAX_POSTS fois).
.list_item h3+0&dom::ext::_EXE=>.post-meta+0
L'opérateur "&" indique que je souhaite récupérer d'autres éléments avant de passer à la seconde page.
dom::ext::_EXE=>.post-meta+0
1) dom:
dom : indique que je vais passer une adresse html du dom à télécharger dans notre cas .post-meta+0 (même principe que url)
txt: indique que je vais passer directement du texte : par exemple : 320 commentaires!
2) ext :
ext : indique que je souhaite traiter les donner téléchargées ultérieurement par une fonction spécifique.
cat : indique que je souhaite traiter les donner téléchargées en tant qu'objet "category wordpress". Noter bien que cela ne veut pas dire explicitement catégorie au sens du mot mais une large variété de taxonomies wordpress qu'on verra par la suite.
met: indique que je souhaite traiter les donner téléchargées en tant que méta wordpress
3) _EXE
c'est le nom propre de votre catégorie ou votre méta téléchargée.
4) L'opérateur => : indique la valeur de l'adresse du dom à parser ou la valeur du texte à sauvegarder.
Post Credits
Single post title : indique l'adresse html vers le conteneur du titre de l'article dans la page parcourue.
Exemple :
#contents h2+0
Le titre est situé dans h2 qui est le premier enfant du div avec ID = content.
Single post featured image : le même principe pour la photo du post : exemple .post_content img+0.
On arrive maintenant à content : c'est le contenu de l'objet à télécharger et les éléments supplémentaires :
exemple:
.hotelDetail_02+0&dom::cat::tribe_events_cat=>.box_one h2+0&txt::met::_EventOrigin=>events-calendar&txt::met::_EventShowMapLink=>1&txt::met::_EventShowMap=>1&txt::met::_EventCurrencySymbol=> USD &txt::met::_EventCurrencyPosition=>prefix&dom::met::_EventURL=>.agenda_con h2 a+0&txt::met::_EventAllDay=>yes&dom::ext::_dates=>.hotelDetail_01 h6+0,.hotelDetail_01 h6+1
Je souhaite par cette expression télécharger (en rouge) la description d'un évènnement (texte principal) puis ajouter des propriétés : tribe_events_cat : catégorie de l'évènnement, La date de début et de la fin (traitement ultérieur par une fonction) dom::ext::_dates=>.hotelDetail_01 h6+0,.hotelDetail_01 h6+1 (voir paramétrage avancé)
Le résultat :
Et bien sur quand je clique sur le lien de l'évènnement :
Les filtres sont séparés par "+"
<div class="sd-content"(.*?)</div>+<h3 class="sd-title"(.*?)</h3>+<h3 class="jp-relatedposts-headline"(.*?)</h3>+<h3>Commentaires(.*?)</h3>+<div class="jp-relatedposts-post(.*?)</div><div class="(.*?)</div>
Dans cet exemple, si vous souhaitez supprimer l'élément div qui a une classe avec une valeur de "sd-content", ajouter ce filtre : <div class="sd-content"(.*?)</div>
Le programme supprimera toutes les occurrences de cette expression.
Optionnel :
Auteur : Exemple : a[itemprop=author]+0
Excerpts : .post_content p+0
Type : le type de l'objet à publier ou à sauvegarder comme brouillon, exemple : post, event, item etc.
Scheduled : si la valeur est égale à "ANY" le programme va parcourir les urls programmer chaque heure, par contre, si la valeur est comprise entre 0 et 23, le programme ne parcourera les urls programmées qu'a cette heure.
Enfin si vous souaitez que l'objet soit directement publié, la valeur de "published" doit être true, dans le cas contraire, false.
Paramètres du site
Si vous souhaitez forcer le programme à exécuter toutes les tâches programmées cliquez sur "Run Tasks now":
Aucun commentaire:
Enregistrer un commentaire