Ha htmlt kell kódból parsolni, akkor jól jöhet ez a kis lib. Annak idején egy ms jóember írta meg, de sokáig senki nem frissítette, most kézbe vette egy cég az ügyet, és vannak rendszeresen bugfix kiadások.
Arról szól a dolog, hogy nem teljesen korrekt html tartalmat is kiegyenget, mint a htmltidy, és utána már xml domban fel lehet dolgozni a tartalmat. Sokkal jobb megoldás, mint regexszel bíbelődni.
Could you hire me? Contact me if you like what I’ve done in this article and think I can create value for your company with my skills.
LEAVE A COMMENT
8 COMMENTS
Én ezt használtam, bár ezt nem frissítik, de teljesen jó,
http://htmlagilitypack.codeplex.com/Release/ProjectReleases.aspx?ReleaseId=272
Hali,
Itt egy gyors kérdés. Ez a lib alkalmas lehet arra, hogy egy HTML tartalomból olvasható text-et generáljak? Értsd van egy HTML oldal és abból kéne plain textet gyártani, úgy, hogy az olvasható legyen.
Köszi,
Zoli
aha. Mi xml-re használtuk. Próbáltam textre is, 1-2 dolgot azért benne hagyott sajna, de így is jobb mint a semmi
üdv,
Safi
Elvileg igen, ha a br-ekből, h-kból csinálsz valami értelmeset, a szöveget meg kiveszed az elemek text() node-jából.
Van benne olyan is, hogy text-kent lementette, legalábbis, ha jól emlékeztek
Elvileg van benne olyan lehetőség is, hogy text-ként menti
Make sure to grab the most recent version of SgmlReader from here: http://developer.mindtouch.com/SgmlReader
We’ve been maintaining the code and have been actively fixing any issues reported.
Cheers,
– Steve
Thanks Steve, I did.