Android/Technic
Jsoup과 정규표현식을 활용한 Line break를 유지하면서 HTML 태그만 삭제하는 방법 HTML parsing
등촌동 꼬북이
2022. 3. 26. 00:46
개발을 하다보니.. Enter키 즉, Line break를 유지하면서 아래와 같이 <> 태그 처럼 인식될 수 있는 데이터들은 보존해야하는 일이 생겼다..
<특보> 대통령 당선!
오늘 점심은 "돼지불백"!
어제는 짜장면!
그냥 웹에 깔려있는 코드를 가지고 하면 <특보>도 없어지고 Line break가 죄다 없어져서 다닥다닥 붙어버리고.. 그리고 " <- 이런 애들은 " 이렇게 나오던가.. 하여간 정상적인 서비스에서 사용할 수 없는 코드들 이였는데 이런 현상을 한줄로 클린하게 끝내는 방법...
Parser.unescapeEntities(originalText.replaceAll("<(/)?([a-zA-Z]*)(\\s[a-zA-Z]*=[^>]*)?(\\s)*(/)?>", ""), false);
Jsoup과 정규표현식 조합으로 하면 해결이 된다...
항상 정규표현식.. 해야지.. 해야지.. 하는데.. 항상 몰라서 고생하는 듯 하다;