我目前正在嘗試爲公司名稱進行一些自然語言處理。正則表達式用於刪除公司後綴並保留原始或正面向前?
我寫的正則表達式是-\s+\w+('\w+|\s+\w)
這是刪除連字符後的所有文本,如果它的空格。 接下來,我然後[.,/#!$%\^&*;:{}=-_`''"<>|~()]
刪除所有標點符號。三,我公司刪除後綴(Reg|Ltd|PLC|NV|LTD|LLC|INC|LLP|US)
。最後,在前面和後面有一些帶回車符的名字,我用"\r*\n*
解決。
我想把所有這些正則表達式拼在一起,因爲我在Alteryx & Python中運行這個。
請注意:有連字符後面沒有空格的公司名稱,我需要保留這一點,並確保在刪除標點符號時不會刪除它們。
我該如何結合所有這些作品?而且,我是否正確地處理這個問題?最後,在清理字符串之後,我會將這些數據加入到另一個客戶列表中以撤回特定信息。
這就是爲什麼所有的前端都不應該包含特別是公司的免費文本字段的原因。
我該如何將這些結合到一個模式中,還是將每個模式分開是更好的做法?
以前 MY COMPANY X,Y,Z, TENNESSEE CORPORATION L.L.C. MY COMPANY HOLDINGS, LP. (there is a carriage return after the LP.) ABN FGDF - NEW YORK - UNITED STATES COLLEGE-INRIA ABCDE - UNITED STATES MANAGEMENT MANAGERS - UNITED STATES INVESTMENT MANAGEMENT CORPORATION - CANADA AUTO-CHLOR
後 MY COMPANY XYZ TENNESSEE CORPORATION MY COMPANY HOLDINGS ABN FGDF COLLEGE-INRIA ABCDE MANAGEMENT MANAGERS INVESTMENT MANAGEMENT CORPORATION AUTO-CHLOR
注意,本科INRIA留校有連字符和下一個字符之間沒有空格。
剛剛更新,之前和之後的例子增加,並清理了一些文字。 – Carson
我看到你檢查'LLC',它只在你的例子中起作用,當你在之前的檢查中已經取出''''。有沒有其他人這樣? (例如是'有史以來LLP'寫爲'L.L.P.'任何其他人?) – 3D1T0R
只是好奇 - 如果在該行一回車,可以在不通過刪除空行被解釋爲空行和消除。 (我正在思考一個Alteryx對這個問題的回答。) – johnjps111