Accueil > Forum > > > > probleme d'expression reguliére
probleme d'expression reguliére
mercredi 27 août 2008 à 07:00:56 |
probleme d'expression reguliére

freekid
|
bonjour, je voulais savoir si quelqu'un pouvait éventuellement m'apporter son soutien. Voila deux jour que j'essai de faire une fonction(en c) qui va m'analyser le contenu d'une chaine de caractére pour y récupérer les url. voici l'idée de base programmé n'importe comment. do { const char *str_regex = "href=\"([^\"]*)\""; err = regcomp (&preg, str_regex, REG_EXTENDED); if (err != 0) { printf("Erreur err = %d\n", err); }else{ size_t nmatch=5; regmatch_t *pmatch = NULL; nmatch = preg.re_nsub; end = 0; oldEnd = end; lengthOfPage = strlen(str_request); do { free(pmatch); pmatch = malloc (sizeof (*pmatch) * nmatch); match = regexec (&preg, &str_request[end], nmatch, pmatch, 0); if (match != 0) { printf("Expression non trouvee\n"); }else{ start = pmatch[0].rm_so; oldEnd = end; end = pmatch[0].rm_eo; size = (end-1) - (start+6); site = malloc (sizeof (*site) * (size + 1)); end+=oldEnd; if (!site){ printf("Manque de ram?\n"); }else{ strncpy (site, &str_request[oldEnd+start+6], size); site[size] = '\0'; classUrl(site, urlUsed, domainUrl, domain, urlInDomain); free (site); } } } while (end<=lengthOfPage); regfree (&preg); } quelqu'un aurait il une idée pour récupérer tout les liens necessaires proprement? merci d'avance
|
|
mercredi 27 août 2008 à 09:15:32 |
Re : probleme d'expression reguliére

SebLinck
|
Salut,
Je pense que si tu veux utiliser les RegEX, le mieux serait d'utiliser une librairie, http://regexlib.com/ Mais pour faire un serveur http de petite taille, ce n'est pas forcement utilie (enfin je pense).
J'ai d'ailleur une source d'un serveur http, je peusx la mettre en ligne (c'est du linux).
Cordialement, Sébastien.
|
|
mercredi 27 août 2008 à 11:16:15 |
Re : probleme d'expression reguliére

Lucky92
|
Salut,
J'ai le sentiment que le C n'est pas le langage idéal pour l'utilisation des regex, et de manière générale pour la manipulation des chaînes de caractères. Bien que ta regex soit correcte, tu t'enlisses dans des problèmes d'allocation et de copie de chaînes de caractères, et ce, pour résoudre un problème qui devrait se résoudre en 2 lignes de code !!! Voici, pour exemple, une solution en c++ utilisant la bibliothèque regex de boost.
#include <iostream> #include <fstream> #include <string> #include <boost/regex.hpp>
using namespace std; using namespace boost;
int main() { ifstream ifs( "./test.html" ); string line; getline( ifs , line , '\0' );
regex reg( "href=\\\"([^\\\"]*)\\\"" ); sregex_iterator it( line.begin() , line.end() , reg ); sregex_iterator end;
for ( ; it != end ; it++ ) cout << (*it)[1].str() << endl; }
Quel est le contexte de développement de ton projet ? En fonction du cadre, il sera plus facile de te guider dans le choix technologique.
|
|
mercredi 27 août 2008 à 18:09:15 |
Re : probleme d'expression reguliére

freekid
|
tout d'abord, merci beaucoup pour vos reponses. SebLinckensuite j'utilise deja une librairie, enfin je crois, mes fonctions regexec et regcomp viennent de l'include de regex.h et je veux bien ta source du serveur http a titre informatif. Lucky92
je prend note de ta source en c++, et je songe a y passé mais vu que j'ai beaucoup avancé dans le reste du projet en c, ca sera pas pour tout de suite. concernant mon projet, la fonction doit prendre une variable contenant un contenu html et pour chaque lien trouvé l'envoyé en parametre dans une fonction qui stocke ce dernier lien a un endroit donné.
|
|
jeudi 28 août 2008 à 10:24:05 |
Re : probleme d'expression reguliére

Lucky92
|
Salut,
Est-ce que tu peux donner le début du programme, notamment la définition de preg, s'il te plaît ?
|
|
vendredi 29 août 2008 à 06:17:36 |
Re : probleme d'expression reguliére

freekid
|
bien entendu , en plus j'ai trouvé une autre méthode vraiment artisanale. donc voici ma méthode sans expressions reguliéres:
list* getUrl(char *site) {
int length,i,j,ok,k,lengthOfPS, lengthOfPE; list *urlHref; char* patStart = "href=\""; char* patEnd = "\""; char *tmpUrl; size_t size; urlHref = initList(); length = strlen(site); lengthOfPS = strlen(patStart); lengthOfPE = strlen(patEnd);
for (i=0;i<length;i++) {
if (site[i] == patStart[0]) { ok=1; for (j=0;j<lengthOfPS;j++) { if (site[i+j] != patStart[j]) { ok=0; break; } }
if (ok == 1) {
for (k=(i+lengthOfPS);k<length;k++) { if (site[k] == patEnd[0]) { ok=1; for (j=0;j<lengthOfPE;j++) { if (site[k+j] != patEnd[j]) { ok=0; break; } } if (ok==1) { size = (k)-(i+lengthOfPS); tmpUrl = (char*)malloc(sizeof(char)*(size+1)); strncpy (tmpUrl, &site[i+lengthOfPS], size); tmpUrl[size]='\0'; addToList(urlHref, tmpUrl); free(tmpUrl); break; } i=i+lengthOfPS+size+lengthOfPE; } } } } } return urlHref; }
et pou le preg, j'utilisais:
regex_t preg; const char *str_regex = "href=\"([^\"]*)\"";
err = regcomp (&preg, str_regex, REG_EXTENDED); if (err == 0) {
size_t nmatch=5; regmatch_t *pmatch = NULL;
nmatch = preg.re_nsub;
end = 0; oldEnd = end; lengthOfPage = strlen(str_request); pmatch = malloc (sizeof (*pmatch) * nmatch); match = regexec (&preg, &str_request, nmatch, pmatch, 0); if (match == 0) //alors la chaine est incluse dans str_request
|
|
vendredi 29 août 2008 à 10:18:18 |
Re : probleme d'expression reguliére

Lucky92
|
Salut,
J'ai simplifié en supprimant le tableau de "pmatch", je pense que tu peux t'en passer.
/*________________________________________________ */ #include <stdio.h> #include <string.h> #include <stdlib.h> #include <regex.h> /*________________________________________________ */ size_t size_of_file( const char * file_name ) { FILE * fp = fopen( file_name , "r" ); if ( !fp ) return 0 ; fseek( fp , 0 , SEEK_END ); size_t sz = ftell( fp ); fclose( fp ); return sz ; } /*________________________________________________ */ char * read_file( const char * file_name ) { FILE * fp = fopen( file_name , "r" ) ; if ( !fp ) return 0 ; size_t sz = size_of_file( file_name ); char * dst = (char*)malloc( sz + 1 ) ; fread( dst , sz , 0 , fp ) ; *( dst + sz ) = '\0' ; fclose( fp ) ; return dst ; } /*________________________________________________ */ int main( int argc , char ** argv ) { if ( argc != 2 ) { printf( "syntax : prog.exe file_name\n" ); } else { //file name const char * file_name = argv[1] ; printf( "parse file %s \n" , file_name );
//text to parse char * str_text = read_file( file_name );
//compilation regex const char * str_regex = "href=\"([^\"]*)\""; regex_t preg ; regcomp( &preg , str_regex , REG_EXTENDED );
//execution regmatch_t match; char * ptr = str_text; while( regexec( &preg , ptr , 1 , &match , 0 ) == 0 ) { size_t sz = match.rm_eo - match.rm_so; char * str_result = (char*)malloc( sz + 1 ); strncpy( str_result , ptr + match.rm_so , sz ); *(str_result + sz ) = '\0' ; printf( "match result : %s\n" , str_result ); ptr += match.rm_eo ; free( str_result ); } regfree( &preg ); free( str_text ); } } /*________________________________________________ */
|
|
vendredi 29 août 2008 à 21:31:08 |
Re : probleme d'expression reguliére

freekid
|
je m'applique à tester dés que possible. j'ai commencé a lire , ca a lair plutot pas mal en effet. merci bien.
|
|
Cette discussion est classée dans : end, site, str, size, pmatch
Répondre à ce message
Sujets en rapport avec ce message
Pb avec DRAWTEXTW [ par BULBY ]
Bonjour, J'essaye de faire un tout petit programme qui affiche une chaine de caractère en japonais (unicode). Avec la fonction TextOutW, pas de problè
Comment apprendre le C++ "facilement" ? [ par Larffas69 ]
Il est évident que le C++ ne s'apprend pas facilement! Cependant je voudrais savoir si quelqu'un connait un site sur internet pour apprendre le C++. U
traduction [ par Ussama ]
salut mes amis j'ais un code écrit en pascal je veut le traduire en c ou c++ si il y a une solution voulez vous m'aider a résoudre et merci voici le
Classement d'un chaine de char [ par divx78 ]
bonjour a vous,Voila je ne compren pas pourqoi il ne me classe pas par ordre alpha mon code est pourtant corecte ou je me trompre ce qui parai forteme
Commande FTP quote site filetype=xxx [ par kalimanu ]
Bonjour, J'utilise Visual C++ 6.0 pour effectuer des transferts CFT. Je parviens bien à envoyer ou recevoir des fichiers mais je bloque sur l'utilisat
Background Site web [ par termigote ]
Salut tout le monde,ça fait quelques temps que je cherche la manière de 'fit to screen' le background d'un site tout bête en html/css, j'ai trouvé à p
Dev-Cpp [ par marcotte ]
Bonjour à tous(tes)Comme débutant, j'avais laissé tombé la programmation C/C++ depuis 2000 (je crois ?) et je voulais m'y remettre avec Dev-Cpp mais l
décompte multiclic [ par cghes ]
bonjour à tous!Je sonne la tirette d'aide car après plus d'un essai je ne arrive pas...voila je viens de mettre en place un systeme de ptc ( pay to cl
Livres en rapport
|
Derniers Blogs
SESSION SILVERLIGHT 5 3D : SLIDES ET DEMOSSESSION SILVERLIGHT 5 3D : SLIDES ET DEMOS par Groc
Durant les techdays, j'ai eu le plaisir d'animer une session sur Silverlight 5 et la 3D avec Simon Ferquel. Comme promis, voici nos slides et mes démos (celles avec le viper BSG) ici et là. Pour mémoire, les démos utilisent toutes le viper BSG...
Cliquez pour lire la suite de l'article par Groc [TECHDAYS 2012] SESSION WEBMATRIX 2 : LE COUTEAU SUISSE GRATUIT POUR VOS DéVELOPPEMENTS WEB - SLIDES[TECHDAYS 2012] SESSION WEBMATRIX 2 : LE COUTEAU SUISSE GRATUIT POUR VOS DéVELOPPEMENTS WEB - SLIDES par gpommier
Suite à la session que j'ai présenté sur WebMatrix 2, vous pouvez trouver les slides ici, ainsi que les démos en packages nuget : démos1 et démos2 J'en profite pour remercier chaleureusement tous ceux qui sont venus très nombreux à cette sess...
Cliquez pour lire la suite de l'article par gpommier [SHAREPOINT] LES SESSIONS TECHDAYS 2012.[SHAREPOINT] LES SESSIONS TECHDAYS 2012. par Patrick Guimonet
Voici donc pour ceux qui n'ont pas pu venir, ou ceux qui n'ont pas pu toutes les suivre la liste des sessions SharePoint aux TechDays 2012, que je mettrais à jour dès que les liens des vidéo seront disponibles. Ou ici : http...
Cliquez pour lire la suite de l'article par Patrick Guimonet TECHDAYS PARIS 2012 : SESSION PLEINIèRE JOUR 3TECHDAYS PARIS 2012 : SESSION PLEINIèRE JOUR 3 par ROMELARD Fabrice
Speaker: Bernard Ourghanlian Cette session est comme chaque jour transmise en live par BrainSonic, et j'ai donc suivi cette troisième pleinière par ce moyen sur mon iPad . Elle est dédiée comme chaque année à la mise en perspective de l'é...
Cliquez pour lire la suite de l'article par ROMELARD Fabrice MISHRA READER : UN LECTEUR RSS TRèS ZUNE STYLE EN OPEN SOURCE !MISHRA READER : UN LECTEUR RSS TRèS ZUNE STYLE EN OPEN SOURCE ! par Vko
Hier durant une session dédiée aux Techdays 2012, j'ai eu le plaisir d'annoncer la sortie de la Béta 2 de Mishra Reader. C'est quoi ? Pour les utilisateurs, c'est une vraie expérience de lecture de flux RSS sur Windows. Rien à voir avec les produit...
Cliquez pour lire la suite de l'article par Vko
Logiciels
Tribler (2012)TRIBLER (2012)Tribler est un client pair à pair (P2P/Peer-to-Peer) open source avec la capacité de regarder des... Cliquez pour télécharger Tribler OneSwarm (2012)ONESWARM (2012)Le peer-to-peer qui protège votre vie privée, c'est OneSwarm.
Ce logiciel de peer-to-peer crypté... Cliquez pour télécharger OneSwarm PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA TV DEVIENS HELLLOOO FLASH
LA TV SUR VOTRE ORDINATEUR.
Toute une plateforme Multi... Cliquez pour télécharger PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO Academy System (17.2.1.0)ACADEMY SYSTEM (17.2.1.0)Logiciel de gestion des établissements.
- élèves/étudiants (inscription, dossier, absence...)
-... Cliquez pour télécharger Academy System Easy-Planning (1.0.0.1)EASY-PLANNING (1.0.0.1)Basé sur les mêmes principes que MyPlanning, Easy-Planning permet de créer des plannings sous la ... Cliquez pour télécharger Easy-Planning
|