텍스트 추출기
혼잡한 텍스트 본문 원문 속에서 정규식 필터 매칭을 통해 이메일 주소, 전화번호, 웹사이트 URL 주소, 숫자, 영단어, 혹은 한글 단어 등 원하는 핵심 정보 조각들만 실시간으로 발췌하여 한 줄씩 깔끔하게 나열해 줍니다.
카테고리: 텍스트 도구
언제 사용하나요?
크롤링한 복잡한 HTML 웹 소스코드 속에서 핵심 전화번호 목록만 따로 떼어내어 추출하기, 서버 로그 파일 속에 흩어진 클라이언트 IP 주소들만 깔끔하게 긁어 모으기, 긴 문서 속 참고 웹사이트 링크 URL들만 선별해 하이링크 대장 만들기 등 방대한 텍스트 노이즈 속에서 유의미한 알짜 정보 데이터만 족집게처럼 정제하고자 할 때 필수적입니다.
사용 방법
- 정보가 뒤섞여 있는 원본 텍스트 소스를 입력 영역에 붙여넣습니다.
- 추출 대상 필터 모드(이메일, URL, 전화번호, IP 주소, 한글 단어, 숫자만 추출 등)를 지정합니다.
- 필터링을 거쳐 본문에서 쏙 뽑아져 세로 줄바꿈 리스트로 정렬된 고순도 추출 데이터를 복사합니다.
입력값 안내
복잡한 HTML 태그 소스나 비정형 일반 텍스트 문장 등 어떤 형식이든 상관없이 유연하게 정밀 탐색을 실행합니다.
계산·변환 기준
추출 대상별로 고도화된 정규표현식(Regex)을 적용합니다. 이메일은 /[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/g 를 사용하며, URL은 /(https?:\/\/[^\s]+)/g 등을 매칭하여 원문에서 match 함수로 탐색된 모든 부합 스트림을 수집하고, 중복 항목 제거 옵션 적용 여부에 따라 고유 목록 배열로 전환 출력합니다.
사용 예시
- 웹 리서치 정보 수집 - 여러 웹페이지 기사 내용 전체를 긁어 붙여넣어 본문에 언급된 해외 협력사 이메일 주소 명단을 취합합니다.
- 마케팅 대상 연락처 취합 - 비정형 메모장 글귀에 섞여 적힌 다수의 모바일 연락처 숫자열을 규격화된 수집 대장으로 추출합니다.
- 서버 접속 IP 주소 필터링 - 원시 로그 파일에서 비정상적인 접속 트래픽을 일으킨 공격자 IP 대역 목록을 걸러냅니다.
예시
- 문의는 admin@test.com 또는 02-123-4567로 하세요. → 이메일 추출: admin@test.com / 전화번호 추출: 02-123-4567
주의사항
- 정규식 매칭 방식 특성상 본문에 이메일 형식과 유사하지만 실제 이메일이 아닌 문자열(예: abc@def.g)이 들어있는 경우, 유효성 검사 없이 패턴 일치만으로 추출 목록에 포함될 수 있어 사전에 추출된 연락처의 온전성을 검수하셔야 오발송을 막을 수 있습니다.
계산·사용 가이드
정밀 정규식(Regex)을 이용한 연락처 및 URL 자동 검출
이메일 표준 규격, 국내 모바일/유선 전화번호 형태, 하이퍼링크 주소, IP 대역 등 각 타깃 정보의 문맥 고유 흐름 패턴을 스캔하여, 수천 줄의 텍스트 노이즈 덩어리 속에서 알맹이 단어만 고순도로 뽑아냅니다.
추출 리스트의 중복 차감 및 고유 정제 정렬
본문에서 추출된 다수의 정보 조각들을 1개씩만 남기는 중복 절삭 필터를 동시 가동해, 수집된 최종 마케팅 이메일 명단이나 링크 목록에 불필요한 중복 도출이 없도록 목록의 질적 순도를 관리합니다.
자주 묻는 질문
중복된 이메일이나 전화번호도 자동으로 걸러서 한 개씩만 보여주나요?
예. '중복된 값 제외하고 추출' 옵션을 체크해 주시면 본문 속에 수십 번 반복 출현한 동일 연락처는 중복 차감되어 고유한 항목 1개씩만 깔끔하게 목록화해 줍니다.
나만의 커스텀 정규식으로 직접 추출할 수도 있나요?
예. 향후 지원 기능 혹은 맞춤 옵션 설정을 이용하시면 사용자가 작성한 독자적 정규식 패턴을 대입해 임의의 포맷을 자유롭게 정밀 타격하여 건져낼 수 있습니다.
관련 도구
- 글자 수 계산기 - 입력된 문자열의 공백 포함 및 공백 제외 글자 수를 실시간으로 계산하며 단어 수와 줄 수, 문단 수를 분석합니다.
- 바이트 계산기 - 입력된 문자열의 바이트 크기를 다양한 인코딩 방식(UTF-8, EUC-KR, UTF-16)에 맞춤 선택하여 실시간으로 계산해 줍니다.
- 대소문자 변환기 - 영문 텍스트를 대문자, 소문자, 단어 첫 글자 대문자(Title Case), 문장 첫 글자 대문자(Sentence Case) 등으로 한 번에 일괄 변환해 줍니다.
- 공백 제거기 - 텍스트 내에 불필요하게 섞인 중복 공백, 줄 앞뒤 공백(Trim), 탭(Tab), 줄바꿈(개행) 문자 등을 사용자의 목적에 따라 정밀 제거하거나 단일 공백으로 치환해 줍니다.
- 중복 줄 제거기 - 텍스트 목록에서 중복되는 동일한 줄(Line)들을 검색하여 한 행만 남기고 깔끔하게 정리하며, 정렬 조건 및 대소문자 구별 여부를 맞춤 제어합니다.
- 줄 정렬 도구 - 줄 단위 텍스트 목록을 가나다순(오름차순), 다나가순(내림차순), 알파벳 순서, 글자 길이순, 혹은 랜덤(셔플) 방식으로 기준을 세워 고속 재정렬해 줍니다.