2016-06-13 68 views
0

我一直在Redshift中使用split_part函數,並且正在尋找Hive中的等價物。我想用下面的格式解析網址。我已經看過parse_url函數,不認爲有我需要的選項。所以我想我需要一些字符串函數。解析Hive中的字符串

所以以下網址:

www.ibm.com 
www.fr.ibm.com 

我想WWW之後的一切。該文檔有一個substring_index函數,這似乎是我需要的,但它不適用於我使用的Hive版本(不知道如何檢查我的版本)

+0

爲什麼不在第四個字符之後或第一次出現一段時間後取一切? –

+0

你可以使用regexp_replace,如果你總是想替換www – Abhi

+0

@GordonLinoff有時候會有http,所以字符位置並不總是可靠的。 – Moosa

回答

1

只需使用REGEXP_EXTRACT()並抓住一切在第一個之後.

SELECT url 
    , REGEXP_EXTRACT(url, '\\.(.*)') AS parsed_url 
FROM db.tbl