GRAC 0.1a : vérificateur grammatical

Posté par  . Modéré par Nÿco.
Étiquettes :
0
5
fév.
2005
Python
La première version de GRAC (GRAmmar Checker), un logiciel de correction grammaticale libre écrit en Python, vient de sortir. GRAC, distribué sous licence GPL, se base sur un apprentissage à partir de texte annoté et sans faute pour déduire des règles de grammaires. Il est théoriquement fonctionnel pour n'importe quelle langue.

Pour être performant, GRAC nécessite un corpus d'apprentissage annoté très important. Malheureusement, il n'existe pas à l'heure actuelle un tel corpus sous licence libre.

Aller plus loin

  • # Ce qu'on dit des cordonniers ...

    Posté par  . Évalué à 8.

    Vu sur le pdf d'explication :

    La correction grammaticale est un véritable enjeux dans le traitement du langage naturel [...]. Cependant le correcteur grammatical infaillible n'a pas encore vu le jour.

    ... effectivement.
    • [^] # Re: Ce qu'on dit des cordonniers ...

      Posté par  . Évalué à 3.

      C'est bourré de fautes, et pas des moindres (il y a même un "ortographe" dans le titre du §2.2).

      C'est certainement un texte pour tester le logiciel en question :)
    • [^] # Re: Ce qu'on dit des cordonniers ...

      Posté par  . Évalué à 10.

      Il me paraît évident que quelqu'un qui n'aurait aucun problème avec l'orthographe n'aurait pas la motivation pour écrire un correcteur grammatical...
    • [^] # Re: Ce qu'on dit des cordonniers ...

      Posté par  . Évalué à 2.

      et vu sur la news :

      Il est théoriquement fonctionnel pour n'importe quel langue.
      • [^] # Re: Ce qu'on dit des cordonniers ...

        Posté par  (site web personnel) . Évalué à 2.

        Ça c'est une faute du maigre relecteur que je suis. J'ai corrigé une faute et j'ai oublié d'accorder le "quel" avec ce que j'ai corrigé.
        Merci de ne pas le reprocher à l'auteur.
        • [^] # Re: Ce qu'on dit des cordonniers ...

          Posté par  . Évalué à 1.

          langage->langue, I presume?
          Je ne reproche rien au travail de l'auteur ni à celui des relecteurs, je fais comme toi : je positive le schlimilibilick...de
  • # Correcteur 101

    Posté par  (site web personnel) . Évalué à 10.

    Sniff :,(
    Dommage que Correcteur 101 n'existe plus. C'était un vrai correcteur grammaticale totalement bluffant et qui expliquait chaque faute commise mais il s'est bronsorisé :-/

    L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

    • [^] # Re: Correcteur 101

      Posté par  (site web personnel) . Évalué à 4.

      Correcteur 101 est un logiciel propriétaire. Il risque de disparaitre à tout jamais. Sa mise sous GPL sauverait certainement cet excellent logiciel.
      André Pascual m'a parlé d'un très bon logiciel graphique freeware, sans équivalent et qui n'évolue plus depuis des années. Personne ne semble en posséder le code et son auteur est introuvable.

      Peut-être ces auteurs sont-ils morts ? Dans ce cas, si ils avaient mis leur code sous GPL leurs logiciels aurait pu leur survivre très, très longtemps.
      • [^] # Re: Correcteur 101

        Posté par  . Évalué à 2.

        un très bon logiciel graphique freeware
        c'est lequel ?

        "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

  • # Miam

    Posté par  . Évalué à 7.

    \begin{private}

    Des SCIAs des bois qui font du Python. Excellente nouvelle, les gars, montrez-leur qu'il y a pas que le C++ dans la vie. Bon courage pour la suite, en tous cas ;)

    \end{private}

    Sérieusement, il n'y aurait pas moyen de lancer un appel à contribution pour le corpus? Constituer une base de donnée importante, c'est typiquement le genre de tâche faisable par les non-programmeurs de la communauté (par les programmeurs aussi, en fait (enfin ça dépend, pour le corpus "sans faute", c'est moins certain (je déconne)(par contre j'adore le lisp))).

    Le plus dur serait probablement de valider les données soumises après coup, mais enfin ça se tente, non? Un wiki, quelqu'un? =)
    • [^] # Re: Miam

      Posté par  . Évalué à 1.

      Sérieusement, il n'y aurait pas moyen de lancer un appel à contribution pour le corpus?


      Idée en l'air : Wikipédia peut être une bonne base de départ non ? Il y a pas mal de texte et je pense que dans l'ensemble il est correct.
      • [^] # Re: Miam

        Posté par  . Évalué à 6.

        Base de départ, ça peut être une idée. Correct, par contre je parierais pas sur ce coup-là.

        J'ai pas encore lu le papier de nos deux compères, mais je parie fort que quand ils demandent un corpus "correct", c'est correct à 100%-sans-exception-même-sur-les-petits-détails-chiants-de-la-langue-française-genre-"indicatif après après que", et ce genre de choses. Non?

        Parce que, si Wikipedia est certainement moins truffé de faute que le premier skyblog qui traine, par contre c'est loin d'être un modèle.
      • [^] # Re: Miam

        Posté par  . Évalué à 10.

        Non wikipedia n'est pas une bonne source, par contre les textes dispo sur le projet gutenberg (http://www.gutenberg.org/(...)) doivent l'etre. Par contre je pense que des textes ne lui suffisent pas, il doit lui falloir un format specifique pour lui "apprendre" la grammaire.
      • [^] # Re: Miam

        Posté par  . Évalué à 9.

        Je suis un contributeur de Wikipédia donc non comme base de départ pour des textes grammaticalement correcte il doit y avoir mieux ;-)
    • [^] # Re: Miam

      Posté par  . Évalué à 3.

      J'avais eut cette idée de faire une interface web qui propose des phrases tirées de divers documents aléatoirement que chaque visiteur pourrait taggué pendant son temps libre :). Le problème est qu'il faut que cet ensemble de contributions soit sans aucune erreur, et il faudrait donc des relecteurs de "confiance".

      La tache de relecture prend autant de temps que le fait d'étiquetter des phrases. C'est pour cela que j'ai abandonné cette idée.
      • [^] # Re: Miam

        Posté par  (site web personnel) . Évalué à 5.

        La tache de relecture prend autant de temps que le fait d'étiquetter des phrases.


        AMA, c'est pas vrai. Je suis sur que nos amis relecteurs officiels élevés au grain en plein air puis sélectionnés sur concours et accrédités par l'Académie Française, seraient ravis de ne pas avoir à toucher à leur clavier pour valider les 7 phrases sur 10 correctement annotées par de vulgaires contributeurs volontaires :)

        Je suis aussi persuadé que le vulgaire contributeur de batterie s'abstiendrait d'annoter une phrase dont il n'est pas sur de la grammaire à 100%, laissant ainsi les phrases complexes à des contributeurs plus expérimentés.
        • [^] # Re: Miam

          Posté par  . Évalué à 2.

          J'espère que tu as raison, de toute façon on ne pourra le savoir qu'en experimentant. Quelqu'un a poster un lien sur Rosetta, je vais y jeter un oeil pour savoir si on peut l'utiliser ou l'adapter facilement pour ce genre de travaux.
      • [^] # Re: Miam

        Posté par  (site web personnel) . Évalué à 5.

        Le problème est qu'il faut que cet ensemble de contributions soit sans aucune erreur, et il faudrait donc des relecteurs de "confiance".

        Si un même texte est annoté par plusieurs personnes, il est possible d'automatiser la détection d'erreurs, et de là, pondérer les différents utilisateurs afin de déterminer la probabilité d'erreur et d'améliorer la détection aussi. L'intervention de personnes de confiance peut alors être fortement réduite. (me semble-t-il...)

        Aussi, je me demandais dans quelle mesure la génération de textes annotés pouvait également faire l'affaire. J'imagine que les textes annotés doivent être divers et variés... Mais à quel point ? Et quid donc de la pertinence de cette idée ?
        • [^] # Re: Miam

          Posté par  . Évalué à 1.

          C'est vrai que faire annoter plusieurs fois la même phrase par des contributeurs différents est une bonne idée.

          Pour générer un texte tu dois avoir une base de règles et un dictionnaire. Cette base de règles c'est précisement ce que l'on cherche a déterminer par apprentissage sur le corpus annoté.

          Vous m'avez donner envie d'initier la construction de ce corpus, je suis en train de developper l'outil permettant aux contributeurs d'annoter des phrases, j'espere avoir le temps de le terminer rapidement.
          • [^] # Re: Miam

            Posté par  . Évalué à 2.

            Super idée. Surtout qu'à mon avis même si au début le corpus est imparfait il pourra au moins permettre de faire des tests de montée en charge du Grac.
          • [^] # Re: Miam

            Posté par  . Évalué à 3.

            j'ai commencé le developpement de l'outils, il me parait anti-ergonomique et je n'y connais rien en interface web.

            Vous pouvez voir la tête de la bête ici: http://www.biais.org/ct

            Si des gens on des idées pour le rendre plus agréables, les commentaires sont les bienvenues.
            • [^] # Re: Miam

              Posté par  . Évalué à 4.

              Moi ça me paraît pas mal du tout en première approche. Maintenant il ne reste plus qu'à remplir les listes de sélection et à alimenter la bête avec des textes et ce sera parfait... À l'usage, on verra si l'interface a besoin d'être améliorée ou pas.
              • [^] # Re: Miam

                Posté par  (site web personnel) . Évalué à 3.

                Je suis d'accord.

                Il peut peut-etre etre utile de classer les propositions avec le dictionnaire : les tags dans le dictionnaire d'abord.

                En tout cas, je suis près à contribuer.
  • # Oeuvres du domaine publique

    Posté par  . Évalué à 10.

    Est-ce qu'on ne pourrais pas utiliser les oeuvres tombées dans le domaine publique comme celles receuillies par le projet gutenberg pour consituer ce corpus ? J'imagine que ces éditions sont réputées grammaticalement corectes, non ?

    En espérant ne pas avoir dis de connerie...
    • [^] # Re: Oeuvres du domaine publique

      Posté par  . Évalué à 1.

      +1.
      Je pensais à la même chose (à savoir d'oeuvres dans le domaine publique).

      Mais je ne savais pas quoi citer comme exemple :-)
      • [^] # Re: Oeuvres du domaine publique

        Posté par  . Évalué à 5.

        Notre-Dame-de-Paris
        Les Trois mousquetaires
        Germinal
        Le Tour du monde en 80 jours
        Les Misérables
        Le Rouge et le Noir

        Pour ceux là je viens de les trouver ici : http://www.livresse.com/(...)

        Ceci : http://maupassant.free.fr/(...) comme son nom l'indique...

        ...
        • [^] # Re: Oeuvres du domaine publique

          Posté par  . Évalué à 0.

          De toutes façon je sais pas si je suis nul ou quoi.
          Mais j'ai essayé de me servir de grac.
          Pour qu'il ingurgite un texte, visiblement c'est pas implanté.
          Pour qu'il en corrige un (visiblement il y a une mini-base d'après ce que j'ai cru comprendre).
          Et j'ai des erreurs partout :')

          Donc une dépèche même secondaire pour un logiciel en 0.1 même pas à peine fonctionnel je trouve ça douteux.

          Cependant si je me trompe et que le logiciel est un minimum fonctionnel oubliez donc ma précédente phrase.
        • [^] # Re: Oeuvres du domaine publique

          Posté par  . Évalué à 5.

          J'ajouterais la Comédie Humaine:
          http://lolita.unice.fr/~brunet/BALZAC/balzac.htm

          Elle est pratiquement entièrement retranscrite à partir des éditions de la Pléiade. A mon avis, ils seraient d'accord pour une telle utilisation...

          Il y a aussi Rabelais, mais là, je pense que la correction grammaticale en souffrirait! Exemple:
          "[...] bellicqueux , et triumphans François : les quelz interrogez par [...]"
          :-)

          Au passage, je pense que même Balzac et les autres classiques écrivent dans un français qui n'est plus correct.
          • [^] # Re: Oeuvres du domaine publique

            Posté par  . Évalué à 2.

            Au passage, je pense que même Balzac et les autres classiques écrivent dans un français qui n'est plus correct.

            Ouaip, réformes de l'Académie obligent.

            Rappelons que la Vieille Dame réforme à chaque édition (comprendre qu'elle n'attend pas qu'un ministre de l'Éducation fasse du foin).
    • [^] # Re: Oeuvres du domaine publique

      Posté par  . Évalué à 7.

      En réalité la théorie se base sur 2 types de corpus: le premier dit "annoté" et le second qui se doit d'étre sans erreur de grammaire.

      Un corpus annoté c'est un texte dont chaque mot doit étre annoté (taggué en franglais). Par exemple dans la phrase: "je suis une vache", le mot "suis" sera annoté par "verbe conjugué à la premiere personne du singulier", le mot "vache" par "nom commun singulier feminin", etc...

      Le problème de la construction de corpus annoté est qu'il faut obligatoirement le faire à la main (en tout cas, on ne peut faire qu'une infime partie du travail automatiquement avec des règles simples propres a chaque langue). Les gens qui effectuent se genre de travail n'ont pas vraiment envie de le fournir à tout le monde et de l'ouvrir (et c'est bien dommage pour nous).

      On espère avoir des nouvelles du LIMSI (www.limsi.fr) qui travaille sur le traitement du langage naturel et qui donc est susceptible d'être en possession de ce genre de corpus.

      Pour le second corpus j'en écrirait un peu plus long demain quand j'aurais dormit et évacuer mes 3 grammes.
      • [^] # Re: Oeuvres du domaine publique

        Posté par  (site web personnel) . Évalué à 8.

        En reprenant les idees precedentes, ca serait pas mal de fabriquer un corpus communautaire annoté via un site web dedié (au hasard celui de GRAC :) Il faudrait faire une interface à la rosetta ( https://launchpad.ubuntu.com/rosetta(...) ), mais au lieu de traduire des bouts de phrases, on les annoterait via une interface dédiée. Le texte serait basé sur une oeuvre tombée dans le domaine publique dont la grammaire de l'auteur a suffisamment bonne réputation :)

        Le contributeur moyen aidé d'un rappel des règles de grammaires principales pourrait faire avancer le projet dès qu'il a 5 minutes de libres.

        En tout cas, bon courage pour le projet GRAC, c'est vraiment le genre de projet qui manque en ce moment.
      • [^] # Re: Oeuvres du domaine publique

        Posté par  (site web personnel) . Évalué à 3.

        Peut être que tu as déjà essayé, mais tu connais TreeTagger ?
        http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/Decisio(...)

        c'est un lemmatiseur (donc sensé annoter ton texte grammaticalement).

        c'est pas libre (mais gratuit pour Linux), mais ça peut quand même t'aider ?

        Je m'en étais servi il y a un bout de temps, et je me souviens de résultats assez bons...
      • [^] # Re: Oeuvres du domaine publique

        Posté par  (site web personnel) . Évalué à 3.

        Sans ouvrir les corpus, est-ce qu'il ne serait pas possible d'avoir un accord pour les utiliser en interne et initialiser la bête ?
        Le corpus resterait secret (sic) mais le correcteur pourrait en profiter. Si on leur garanti que le résultat est libre d'utilisation et qu'en plus il aura le nom de leur labo dans les docs et copyright, ça peut peut être les intéresser.
        • [^] # Re: Oeuvres du domaine publique

          Posté par  . Évalué à 2.

          Une fois l'apprentissage effectué sur le corpus avec GRAC, il serait possible de détourner GRAC pour retrouver le corpus d'origine. Meme si le corpus n'est pas ouvert, la licence serait certainement très permissive.
      • [^] # Re: Oeuvres du domaine publique

        Posté par  . Évalué à 1.

        Concernant le second corpus, les règles de grammaires étant déduites de celui-ci, il faut que les tournures de phrases du corpus d'apprentissage soient les mêmes que les tournures de phrases du textes à corriger.

        Les auteurs classiques utilisent des tournures de phrases très particulièrent, très peu usités en nos temps modernes. Si l'apprentissage ne se fait que sur ce genre de texte, certaines des règles déduites pourront nous sembler bizarre.

        Bien sur la plus part des règles les plus simples seront apprises (ex: "un verbe qui suit un groupe nominal masculin pluriel doit être conjugué à la troisième personne pluriel")
        • [^] # Re: Oeuvres du domaine publique

          Posté par  . Évalué à 3.

          Je dis peut-être une bétise mais je ne vois pas ce qui nous empècherais d'utiliser des textes qui ne sont pas du domaine publique pour le second corpus. Le problème serait seulement de ne pas pouvoir les publier, autrement dit ce n'est pas libre, si l'on considère la base d'init faisant partie des sources.
          Sinon on pourrait recopier des phrases exemples de livres de grammaires ou de bouquins scolaires qui théoriquement devraient être assez proche du langage recherché et bien corrigés. Peut-on aussi trouver des manuels scolaires hors copyright (à vos greniers).
          Pour s'affranchir du copyright on peut aussi imaginer de copier des phrases individuellement (disons par exemple en prenant un phrase sur dix et en mélangeant), je pense que ça doit être permi (à vérifier).
          Ce qui est intéressant c'est que dans un premier temps, même si le corpus reste à améliorer on peut avoir un correcteur qui aide déjà beaucoup et au fur et à mesure le corpus peut-être amélioré.
          Quid de passer le correcteur sur son propre corpus (qui pourrait y trouver des fautes à cause de redondances).
          Enfin, il me semble que si Grac arrive à un niveau d'utilisation dans un logiciel tel thunderbird ou ooo, il serait intéressant d'y intégrer un outil de feedback qui permettrait de signaler des erreurs faites par la bestiole.
          Bon courage...
  • # le projet qui tue

    Posté par  . Évalué à 2.

    Je ne suis pas habitué aux enthousiasmes prématurés, mais à lire la description du projet je pense qu'il est bigrement prometteur. Allez-y, foncez !

    (désolé pour ce message peu informatif)
  • # Un projet indispensable, mais ...

    Posté par  . Évalué à 4.

    Disposer d'un correcteur grammatical est important. C'est par ailleurs le genre de projet qui devrait être lancé ou supporté par nos gouvernements.
    Le besoin est réel, par exemple le gouvernement du Québec (et il n'est pas le seul) dépense pas mal d'argent pour la révision de ses textes mais coupe dramatiquement sur les postes de secrétariat qui assuraient une certaine qualité des textes produits dans ses bureaux. Les universités et collèges ont aussi un grand besoin dans ce domaines (du prof à l'étudiant en passant par l'administrateur). Donc le besoin existe, condition no 1 pour qu'un projet libre émerge.
    Ces mêmes organisations ont des ressources diffuses mais considérables qui pourraient être dirigées vers ce projet: condition no 2 pour l'émergence d'un projet libre. Je pense à ces deux organisations que je connais car à elles-seules elles justifient un tel projet, mais bien sûr sans vouloir limiter un tel projet à elles.
    Mais il y a trois autres conditions pour l'émergence:
    - la qualité de l'architecture de départ liée aux compétences de l'initiateur
    - le leadership, crédibilité ou charisme de l'initiateur
    - une première version suffisamment bien faite et attractive pour que l'on puisse adhérer au projet, plutôt que de chercher un autre projet ou d'en lancer un soi-même.
    Je ne suis pas sûr, à la lecture du site et du document, que ces 3 autres conditions soient satisfaites : pas de référence (hormis celle du LIMSI), qualité douteuse du texte, ... . Mais je dois dire que ce n'est pas mon domaine donc je ne peux pas bien juger. Cependant avec l'information disponible pour le moment je n'y mettrais (si j'étais responsable de ce domaine dans une grande administration) pas encore de l'énergie, même si j'espère qu'un tel projet lève.
  • # Pourquoi ne pas commencer par les gens compétants ?

    Posté par  (site web personnel) . Évalué à 4.

    Je suis d'accord sur le fait que la communauté est capable "d'éduquer" ce logiciel de façon satisfaisante. Ceci dit, pourquoi ne pas commencer par demander aux gens dont c'est le métier de le faire :
    - démarcher dans les facs
    - démarcher chez les instituteurs
    - démarcher les structures de la Francophonie
    - démarcher Bled, Grevisse, Robert, Larousse...
    - demander à Pivot :-\
    - démarcher l'Academie Française :-(

    Même si on est à peu près certain de ce prendre des vestes, ce serait dommage de ne pas essayer...
  • # Génial !

    Posté par  (site web personnel) . Évalué à 3.

    Vivement que ça soit utilisable et intégrable dans OOo et autre logiciel de texte !
    La grammaire m'enlève quelques points dans mes dissert de philo faites sous OOo (^_^)

    En tout cas bravo, un correcteur grammatical est une chose qui manquait sérieusement dans le libre et dans l'adoption d'OOo en particulier. Combien d'entreprise choississent StarOffice pour cela ou combien de lycée propose Word ? Si seulement ça pouvais faire bouger les choses. Je rêve de pouvoir modifier mes disserts sxw au lycée !
  • # Quelques liens

    Posté par  . Évalué à 4.

    Le projet a l'air sympa et on ne peut qu'apprécier l'effort.
    Ceci étant dit, le domaine du Traitement Automatique des Langues
    est très vaste et les choses sont loin d'être aussi simples que ce qu'on pourrait penser à première vue.
    Tu pourras trouver des liens intéressants sur le site de l'atala: http://www.atala.org/(...)
    Il y a également un gros projet en python sur lequel à mon avis tu as tout intérêt à te poser, c'est NLTK: http://nltk.sourceforge.net/(...) (en plus, il contient déjà un certain nombre de ressources (nltk-data)).
    • [^] # Re: Quelques liens

      Posté par  (site web personnel) . Évalué à 2.

      NLTK est un projet libre en python très pratique en effet. Mais attention, les ressources (nltk-data) ne sont pas toutes sous des licences libres. Elles ont chacunes leur propre licence: à vérifier au cas par cas ...
  • # Trouvé sur une des mailing liste d'Openoffice.org :

    Posté par  . Évalué à 6.

    Voici un message posté sur une des listes d'Openoffice.org :


    Bonjour à tous,

    OOo possède un correcteur orthographique. Il manque un correcteur
    grammatical.

    Je vous informe qu'Indesko lance un projet de recherche en collaboration
    avec l'Université Stendhal - Grenoble III pour initier les travaux dans
    ce domaine.
    Celà se traduit par une coopération entre le departement de Traitement
    automatique de la langue (dont un stage de dernière année de Master) et
    Indesko dans le cadre de ses projets de R&D.

    L'objectif est d'obtenir à moyen terme à un correcteur grammatical libre
    adapté à la langue francaise et intégré à OOo.

    Dans un premier temps, sur la base de moteurs de correction grammaticale
    existants, l'objectif est d'en selectionner un adapté au francais et
    d'établir des règles couvrant les erreurs les plus courantes
    Pour l'instant deux moteurs libres sont retenus. Je suis preneur de
    toute autre piste.
    - language tool de Daniel Naber
    - an Gramadoir de Kevin P. Scannel

    Je vous tiendrai informé de l'avancée ainsi que Myriam dont ce sera
    l'objectif du stage. Un site et une liste de discussion vont être tout
    prochainement mis en place.

    Vous serez surement (nous l'espérons en tout cas) sollicités d'ici
    quelques temps pour faire quelques tests ! :-)

    N'hesitez pas si vous avez de suggestions.

    Laurent
    --
    Laurent Godard <lgodard@indesko.com> - Ingénierie OpenOffice.org
    Indesko >> http://www.indesko.com(...)
    Nuxeo CPS >> http://www.nuxeo.com(...) - http://www.cps-project.org(...)
    Livre "Programmation OpenOffice.org", Eyrolles 2004


    ---------------------------------------------------------------------
    To unsubscribe, e-mail: dev-unsubscribe@fr.openoffice.org
    For additional commands, e-mail: dev-help@fr.openoffice.org
    • [^] # Re: Trouvé sur une des mailing liste d'Openoffice.org :

      Posté par  . Évalué à 4.

      Bonjour,

      Je confirme que le projet démarre
      A noter que le projet Bresilien d'OpenOffice.org a également proposé son aide avec CoGro, son travail en cours sur un correcteur pt-BR pour OOo
      Je vais inclure Grac dans le processus d'analyse. J'espère que celà amenera quelques ressources à ce projet prometteur

      Laurent
  • # Et chez Bescherelles

    Posté par  . Évalué à 4.

    jene sais pas si c'est utile,mais le site du Bescherelles propose des exercices commentés sur les pièges du français (et aussi de l'anglais et l'espagnol).
    C'est là : http://www.bescherelle.com/tests.php(...)

    "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

  • # Correcteur grammatical existant en GPL

    Posté par  (site web personnel) . Évalué à 5.

    Ce serait une bonne idée d'ajouter un lien vers

    http://borel.slu.edu/gramadoir/(...)

    à la dépêche; il s'agit du seul correcteur grammatical
    fonctionnel et sous GPL que je connaisse; bien que
    pour le momment il ne supporte vraimment que
    l'irlandais il le supporte complètement, et donc ça
    pourraît être très enrichissant de voir comment fonctionnent
    les deux projets et avoir des échanges d'idées.
    il a aussi des interfaces pour OOo notamment.

    la façon de fonctionner de "An Gramadóir" est différente
    de celle de GRAC, il ne s'agit pas d'apprendre tout seul
    les règles à partir d'un corpus annoté colossal,
    mais de fournir une liste de mots annotés (des listes de
    mots annotés n'existent pas (sauf pour l'irlandais) mais
    des listes de mots assez complètes existent (voir aspell)
    des quelles partir, le travail d'annotation est moindre que
    celui d'annoter un corpus varié de 1.000.000 de mots)
    et une liste de règles de grammaire.

    Il devraît être possible, en modifiant an gramadóir,
    d'annoter un corpus pour une langue supportée
    (puisque c'est que fait an gramadóir en interne) et
    ainsi fournir le corpus annoté necessaire pour GRAC.
    Ce serait interessant de voir comment GRAC est
    capable de déduire les règles de grammaire de l'irlandais
    et de voir les taux de réussite de an gramadóir et GRAC
    pour un même texte.

    Voilà, j'espère que les spécialistes des deux projets
    se mettront en contact pour essayer d'avancer plus vite,
    c'est effectivemment quelque chose qui manque cruellement
    en logiciel libre.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.