2014-12-27 138 views
-4

我想在網站源代碼中找到任何base64代碼/散列。它可以在JavaScript函數調用中。在python正則表達式中查找base64源代碼

實施例:

<script type="text/javascript">data = get_data('aGVsbG8gd29ybGQ=')); </script> 

或變量。

有沒有一種可靠的方法來檢查這與正則表達式?

+2

這個問題似乎是題外話,因爲它是關於'請發送正則表達式,而不是編程問題。參加__ [遊覽] __以瞭解[所有]的內容。 – Unihedron 2014-12-27 17:57:41

+0

'[a-zA-Z0-9/+ - ] + = {0,2}'但這會得到很多非base64的東西。 – sln 2014-12-27 18:45:37

回答

2

您可以使用re模塊:

>>> import re 
>>> my_string = """<script type="text/javascript">data = get_data('aGVsbG8gd29ybGQ=')); </script>""" 
>>> re.findall("<script.*get_data\(\'(.*=).*</script>",my_string) 
['aGVsbG8gd29ybGQ='] 

BeautifulSoup是偉大的工具來解析HTML,看看它:

>>> from bs4 import BeautifulSoup 
>>> soup = BeautifulSoup(my_string) 
>>> soup 
<html><head><script type="text/javascript">data = get_data('aGVsbG8gd29ybGQ=')); </script></head></html> 
>>> for x in soup.find_all('script'): 
...  print re.findall("\'(.*)=\'",x.text) 
... 
[u'aGVsbG8gd29ybGQ']