Saltar al contenido

esto es porque hemos quitado “””” de la cadena

diciembre 8, 2019

¿Qué es la Expresión Regular?

Una expresión regular en un lenguaje de programación es una cadena de texto especial utilizada para describir un patrón de búsqueda. Es extremadamente útil para extraer información de texto como código, archivos, registros, hojas de cálculo o incluso documentos.

Al usar la expresión regular lo primero que hay que reconocer es que todo es esencialmente un carácter, y estamos escribiendo patrones para que coincidan con una secuencia específica de caracteres también conocida como cadena. Las letras ascii o latinas son las que están en sus teclados y Unicode se utiliza para hacer coincidir el texto extranjero. Incluye dígitos y signos de puntuación y todos los caracteres especiales como $#@@!%, etc.

En este tutorial, aprenderemos-

  • Sintaxis de Expresión Regular
  • Ejemplo de w+ y ^ Expresión
  • Ejemplo de expresión de la expresión en la función re.split
  • Usando métodos de expresiones regulares
  • Usando re.match()
  • Búsqueda de patrones en texto (re.search())
  • Usando re.findall para texto
  • Banderas Python
  • Ejemplo de banderas re.M o multilínea

Por ejemplo, una expresión regular podría indicar a un programa que busque texto específico de la cadena y luego imprima el resultado en consecuencia. La expresión puede incluir

  • Coincidencia de texto
  • Repetición
  • Bifurcación
  • Composición de patrones, etc.

En Python, una expresión regular se denomina RE (REs, regexes o regex pattern) y se importa a través de re module . Python soporta la expresión regular a través de librerías. En Python la expresión regular soporta varias cosas como Modificadores, Identificadores, y caracteres de espacio en blanco .

Identificadores Modificadores Caracteres de espacio en blanco Escape requerido d= cualquier número (un dígito)d representa un dígito. ej: d{1,5} declarará un dígito entre 1,5 como 424.444.545 etc.
= nueva línea. + * ? [] $ ^ () {} | D= cualquier cosa menos un número (un no-dígito)+ = coincide con 1 o más = espacio = espacio (tabulador, espacio, línea nueva, etc.)? = matches 0 or 1t =tab?S= anything but a space* = 0 or moree = escapew = letters ( Match alfanumeric character, including “_”)$ match end of a stringr = carriage returnW =anything but letters ( Matches a non-alphanumeric character excluding “_”)^ match start of a stringf= form feed. = cualquier cosa menos letras (puntos)| coincide con cualquiera de ellas o x/y—————————b = cualquier carácter excepto la nueva línea[] = rango o “varianza”————————.{x} = esta cantidad de código precedente————————————————————————————————————————————————————————————————————————————————————

Sintaxis de Expresión Regular

RE

Importar re
>

  • Módulo “re” incluido en Python utilizado principalmente para la búsqueda y manipulación de cadenas
  • También se utiliza con frecuencia para la página web “Scraping” (extraer gran cantidad de datos de sitios web)

Comenzaremos el tutorial de expresión con este sencillo ejercicio usando las expresiones (w+) y (^).

Ejemplo de w+ y ^ Expresión

  • “^”: Esta expresión coincide con el inicio de una cadena
  • “w+ “: Esta expresión coincide con el carácter alfanumérico de la cadena

Aquí veremos un ejemplo de cómo podemos usar las expresiones w+ y ^ en nuestro código. Cubriremos la función re.findall más adelante en este tutorial, pero por un tiempo nos centraremos en la expresión w+ y ^.

Por ejemplo, para nuestra cadena “guru99, la educación es divertida” si ejecutamos el código con w+ y^, nos dará la salida “guru99”.

importar reimportar
xx = "guru99, la educación es divertida"
r1 = re.findall(r"^\w+",xx)
print(r1)

Recuerde, si quita el signo + de la w+, la salida cambiará, y sólo dará el primer carácter de la primera letra, es decir,[g]

.

Ejemplo de expresión de la expresión en la función re.split

  • “s”: Esta expresión se usa para crear un espacio en la cadena

Para entender cómo funciona esta expresión regular en Python, comenzamos con un simple ejemplo de una función dividida. En el ejemplo, hemos dividido cada palabra usando la función “re.split” y al mismo tiempo hemos usado expresiones que permiten analizar cada palabra de la cadena por separado.

Cuando ejecute este código le dará la salida [$0027we$0027, $0027are$0027, $0027splitting$0027, $0027the$0027, $0027words$0027].

Ahora, veamos qué pasa si quitas “” de s. No hay un alfabeto con “”s”” en la salida