Could you hire me? Contact me if you like what I’ve done in this article and think I can create value for your company with my skills.

May 30, 2009 / by Zsolt Soczó

SgmlReader

Ha htmlt kell kódból parsolni, akkor jól jöhet ez a kis lib. Annak idején egy ms jóember írta meg, de sokáig senki nem frissítette, most kézbe vette egy cég az ügyet, és vannak rendszeresen bugfix kiadások.

Arról szól a dolog, hogy nem teljesen korrekt html tartalmat is kiegyenget, mint a htmltidy, és utána már xml domban fel lehet dolgozni a tartalmat. Sokkal jobb megoldás, mint regexszel bíbelődni.

Could you hire me? Contact me if you like what I’ve done in this article and think I can create value for your company with my skills.

LEAVE A COMMENT

8 COMMENTS

  • Safi June 3, 2009

    Én ezt használtam, bár ezt nem frissítik, de teljesen jó,

    http://htmlagilitypack.codeplex.com/Release/ProjectReleases.aspx?ReleaseId=272

  • SUF June 4, 2009

    Hali,

    Itt egy gyors kérdés. Ez a lib alkalmas lehet arra, hogy egy HTML tartalomból olvasható text-et generáljak? Értsd van egy HTML oldal és abból kéne plain textet gyártani, úgy, hogy az olvasható legyen.

    Köszi,
    Zoli

  • Safi June 4, 2009

    aha. Mi xml-re használtuk. Próbáltam textre is, 1-2 dolgot azért benne hagyott sajna, de így is jobb mint a semmi

    üdv,

    Safi

  • Soczó Zsolt June 4, 2009

    Elvileg igen, ha a br-ekből, h-kból csinálsz valami értelmeset, a szöveget meg kiveszed az elemek text() node-jából.

  • Safi June 4, 2009

    Van benne olyan is, hogy text-kent lementette, legalábbis, ha jól emlékeztek

  • Safi June 4, 2009

    Elvileg van benne olyan lehetőség is, hogy text-ként menti

  • Steve Bjorg June 20, 2009

    Make sure to grab the most recent version of SgmlReader from here: http://developer.mindtouch.com/SgmlReader

    We’ve been maintaining the code and have been actively fixing any issues reported.

    Cheers,

    – Steve

  • Soczó Zsolt June 21, 2009

    Thanks Steve, I did.