SgmlReader

Could you hire me? Contact me if you like what I’ve done in this article and think I can create value for your company with my skills.

Microsoft technologies by Zsolt Soczo

May 30, 2009 / by Zsolt Soczó

Ha htmlt kell kódból parsolni, akkor jól jöhet ez a kis lib. Annak idején egy ms jóember írta meg, de sokáig senki nem frissítette, most kézbe vette egy cég az ügyet, és vannak rendszeresen bugfix kiadások.

Arról szól a dolog, hogy nem teljesen korrekt html tartalmat is kiegyenget, mint a htmltidy, és utána már xml domban fel lehet dolgozni a tartalmat. Sokkal jobb megoldás, mint regexszel bíbelődni.

Could you hire me? Contact me if you like what I’ve done in this article and think I can create value for your company with my skills.

8 COMMENTS

Safi June 3, 2009

Én ezt használtam, bár ezt nem frissítik, de teljesen jó,

http://htmlagilitypack.codeplex.com/Release/ProjectReleases.aspx?ReleaseId=272

SUF June 4, 2009

Hali,

Itt egy gyors kérdés. Ez a lib alkalmas lehet arra, hogy egy HTML tartalomból olvasható text-et generáljak? Értsd van egy HTML oldal és abból kéne plain textet gyártani, úgy, hogy az olvasható legyen.

Köszi,
Zoli

Safi June 4, 2009

aha. Mi xml-re használtuk. Próbáltam textre is, 1-2 dolgot azért benne hagyott sajna, de így is jobb mint a semmi

üdv,

Safi

Soczó Zsolt June 4, 2009

Elvileg igen, ha a br-ekből, h-kból csinálsz valami értelmeset, a szöveget meg kiveszed az elemek text() node-jából.

Safi June 4, 2009

Van benne olyan is, hogy text-kent lementette, legalábbis, ha jól emlékeztek

Safi June 4, 2009

Elvileg van benne olyan lehetőség is, hogy text-ként menti

Steve Bjorg June 20, 2009

Make sure to grab the most recent version of SgmlReader from here: http://developer.mindtouch.com/SgmlReader

We’ve been maintaining the code and have been actively fixing any issues reported.

Cheers,

– Steve

Soczó Zsolt June 21, 2009

Thanks Steve, I did.

SgmlReader

LEAVE A COMMENT

8 COMMENTS