C# 모든 HTML 속성 제거하는 방법, 정규표현식 @"<(\w+)[^>]*?>";

모든 HTML 속성을 제거하는 방법에 대해 알아보도록 하겠습니다. 태그의 닫힘 부분을 포함한 간단한 정규표현식을 사용해 보도록 할게요.

using System;
using System.Text.RegularExpressions;

class Program
{
    static void Main()
    {
        string html = "<div class='example' style='color:red;'><p id='paragraph'>Hello World!</p></div>";

        // 정규표현식으로 모든 속성을 제거
        string pattern = @"<(\w+)[^>]*?>";
        string replacement = "<$1>";

        // 정규표현식을 사용하여 HTML에서 모든 속성을 제거
        string cleanedHtml = Regex.Replace(html, pattern, replacement);

        Console.WriteLine(cleanedHtml);
    }
}

주어진 HTML 코드에 대해 정규표현식을 치환하도록 하겠습니다.

  1. 정규표현식 패턴: <(\w+)[^>]*>
    • <(\w+): 시작 태그와 태그 이름을 캡처합니다.
    • [^>]*: 태그 이름 뒤에 오는 모든 속성을 포함하는 부분을 캡처합니다.
    • >: 태그 닫음 기호를 포함합니다.
  2. 치환 문자열: "<$1>"은 첫 번째 캡처 그룹만 남기도록 합니다.

이 패턴은 태그 이름 뒤의 모든 속성을 제거할 것입니다. 예제 HTML에서는 <div class='example' style='color:red;'><div>로, <p id='paragraph'><p>로 변환된답니다.

이전최근
댓글 쓰기
가져가실 때, 출처 표시 부탁드려요! 감사합니다. 💗