Goose Html Parser (ver Java)

2013.09.09 07:25

IISLab 조회 수:27365

발표자  
원글은 http://www.cyworld.com/owth 제 블로그에 있습니다.

(goose는 Scala로 구현된 html parser)

 

구현 성공했다..눈물이 앞을 가림 뿌듯

goose html parser의 완벽한 동작!

html에서 본문내용을 추출해주는 오픈소스인데(물론 다른것도 추출 가능) 성능이 아주 끝내줌 (아래는 예시화면)

 


근데 이사람들이 JAVA로 작업하다 SCALA가 더 좋다고 중간에 언어를 바꿔버렸다!그리고 이전 JAVA파일 다 삭제했어!!!화남화남화남

그래서 SCALA로 컴파일 하려고 별쇼를 다하였으나 생전 처음보는 문법의 장벽에 무릎꿇고

이제는 사라져버린 자바버전을 찾기 시작했다.

찾았다.

작업자들이 gitHub에 소스를 올려두었는데, 작업한 소스 히스토리 내역을 찾아내어

삭제되기전의 자바파일들을 찾았다..

근데 다운로드가 안돼...

그래서 일일이 패키지 만들고 클래스 만들고 드래그하고 복사하고...

그리고 결국 컴파일 성공!!!흑흑

이 기쁨을 소스배포로서 공유하겠다.

정말이지 좋은 오픈소스다. 설명이 좀 불친절한거 빼면 -_-

소스상에서 무슨 라이브러리를 썼는지는 써놔야하지 않겠니.

어쨌든 HTML 파서를 간절히 찾으시는 분들께 성능좋은 소스 공유합니다!!! 아하하하하하~!!!

main 함수는 ConfigurationTestIT.java 파일에 있습니당~


(440-746) 경기도 수원시 장안구 천천동 성균관대학교 자연과학캠퍼스 제2공학관 27305호 정보및지능시스템 연구실
IISLab, 27305, Engineering Bldg. 2, Sungkyunkwan University, 300 Cheoncheon-dong, Suwon, Gyeonggi-do, 440-746, Republic of Korea
▲ TEL: 031-290-7987 / +82-31-290-7987 ▲ FAX: 031-299-4637 / +82-31-299-4637
XE Login