모든 HTML 속성을 제거하는 방법에 대해 알아보도록 하겠습니다. 태그의 닫힘 부분을 포함한 간단한 정규표현식을 사용해 보도록 할게요.
using System;
using System.Text.RegularExpressions;
class Program
{
static void Main()
{
string html = "<div class='example' style='color:red;'><p id='paragraph'>Hello World!</p></div>";
// 정규표현식으로 모든 속성을 제거
string pattern = @"<(\w+)[^>]*?>";
string replacement = "<$1>";
// 정규표현식을 사용하여 HTML에서 모든 속성을 제거
string cleanedHtml = Regex.Replace(html, pattern, replacement);
Console.WriteLine(cleanedHtml);
}
}
주어진 HTML 코드에 대해 정규표현식을 치환하도록 하겠습니다.
- 정규표현식 패턴:
<(\w+)[^>]*>
<(\w+)
: 시작 태그와 태그 이름을 캡처합니다.[^>]*
: 태그 이름 뒤에 오는 모든 속성을 포함하는 부분을 캡처합니다.>
: 태그 닫음 기호를 포함합니다.
- 치환 문자열:
"<$1>"
은 첫 번째 캡처 그룹만 남기도록 합니다.
이 패턴은 태그 이름 뒤의 모든 속성을 제거할 것입니다. 예제 HTML에서는 <div class='example' style='color:red;'>
가 <div>
로, <p id='paragraph'>
가 <p>
로 변환된답니다.