1. 主页 > 大智慧

中文搜索框的query纠错怎么做?3种高效算法实现详解

浣犳湁娌℃湁閬囧埌杩囧湪鎼滅储妗嗛噷鎵撻敊瀛楋紝缁撴灉鎼滃嚭涓€鍫嗚帿鍚嶅叾濡欑殑涓滆タ锛燄煒?姣斿鎯虫壘"瀹繚楦′竵"锛屾墜婊戞墦鎴?瀹垎楦′竵"锛岀粨鏋滆烦鍑烘潵涓€鍫嗙垎鐮村伐绋嬬殑鍐呭锛熶粖澶╁挶浠氨鏉ヨ亰鑱婏紝鎬庝箞璁╂悳绱㈡鍙樺緱鑱槑鐐癸紝鑳借嚜鍔ㄧ籂姝h繖浜涢敊璇紒


馃攳 绾犻敊鍒板簳鏈夊閲嶈锛燂紙瀹炴祴鏁版嵁璇磋瘽锛?/h2>

鍘诲勾鏌愭悳绱㈠紩鎿庣殑鏁版嵁鏄剧ず锛屸€?strong>鈥嬫瘡澶╂湁37%鐨勬悳绱㈣姹傚瓨鍦ㄦ嫾鍐欓敊璇€?/strong>鈥嬶紒鏇村じ寮犵殑鏄紝鍏朵腑15%鐨勯敊璇細瀵艰嚧瀹屽叏鍋忕鐢ㄦ埛鏈剰鐨勬悳绱㈢粨鏋溿€傝繖灏卞儚浣犲幓椁愰鐐硅彍锛屾湇鍔″憳纭槸鎶婁綘璇寸殑"楸奸鑲変笣"鍚垚"楸奸铻轰笣"涓€鏍峰按灏紒

馃憠 涓句釜鐪熷疄妗堜緥锛氭煇鐢靛晢骞冲彴涓婄嚎绾犻敊鍔熻兘鍚庯紝鈥?strong>鈥嬪晢鍝佺偣鍑荤巼鐩存帴娑ㄤ簡20%鈥?/strong>鈥嬶紒杩欏氨鏄负浠€涔堝ぇ鍘傞兘鍦ㄦ纾曡繖涓妧鏈殑鍘熷洜銆?/p>


馃 绠楁硶涓€锛氬熀浜庤鍒欑殑绾犻敊鏂规硶锛堣€佸徃鏈哄繀澶囷級

馃 鎬庝箞杩愪綔鐨勶紵

灏卞儚灏忔椂鍊欒€佸笀鏁欐垜浠?鐨勫緱鍦?鐨勭敤娉曪紝杩欑鏂规硶鏄妸甯歌鐨勯敊璇被鍨嬪啓鎴愯鍒欏簱銆傛瘮濡傦細

  • 鍚岄煶瀛楁浛鎹紙鍖椾含鈫掕儗鏅級
  • 褰㈣繎瀛楃籂姝o紙鎷ㄥ彿鈫掓嫈娌筹級
  • 甯歌鎴愯閿欒锛堥粯榛樻棤闂烩啋鎽告懜鏃犻椈锛?/li>

馃洜锔?鈥?strong>鈥嬪疄鐜版楠も€?/strong>鈥嬶細

  1. 寤轰釜閿欏埆瀛楄瘝鍏革紙姣斿鎶?瀹垎"鏄犲皠鍒?瀹繚"锛?/li>
  2. 璁剧疆鏇挎崲瑙勫垯锛堟嫾闊崇浉鍚屼紭鍏堟浛鎹級
  3. 缁撳悎涓婁笅鏂囧垽鏂紙姣斿鍚庨潰璺熺潃"楦′竵"灏辨洿鍙兘鏄彍鍚嶏級

鈿狅笍 鈥?strong>鈥嬬己鐐归璀︹€?/strong>鈥嬶細閬囧埌鏂拌瘝灏辨姄鐬庯紝鍍忔渶杩戞祦琛岀殑"缁濈粷瀛?杩欑缃戠粶鐢ㄨ锛岃鍒欏簱鍙兘灏变笉璁よ瘑浜嗐€?/p>


馃搳 绠楁硶浜岋細缁熻璇█妯″瀷锛堟暟鎹厷鐨勬渶鐖憋級

馃挕 鏍稿績鎬濇兂锛?/h3>

绠楁鐜囷紒鍝釜缁勫悎鍑虹幇鐨勬鐜囬珮灏遍€夊摢涓€傛瘮濡傦細

  • "鎴戞兂鍚冨淇濋浮涓?鍦ㄨ鏂欎腑鍑虹幇1000娆?/li>
  • "鎴戞兂鍚冨鐖嗛浮涓?鍙嚭鐜?娆?br/> 閭g郴缁熷氨浼氳嚜鍔ㄧ籂姝?/li>

馃搱 鈥?strong>鈥嬪繀澶囧伐鍏封€?/strong>鈥嬶細

宸ュ叿鍚嶇О閫傚悎鍦烘櫙瀛︿範鎴愭湰
KenLM澶ц妯¤鏂?/td>楂?/td>
N-gram Toolkit涓皬瑙勬ā椤圭洰涓?/td>
缁撳反鍒嗚瘝涓枃鍦烘櫙浣?/td>

馃幆 鈥?strong>鈥嬪疄鎴樻妧宸р€?/strong>鈥嬶細璁板緱瑕佹敹闆嗚冻澶熷鐨勭湡瀹炴悳绱㈡棩蹇楋紒鐢ㄧ幇鎴愮殑鏂伴椈璇枡璁粌鍑烘潵鐨勬ā鍨嬶紝鏁堟灉鍙兘宸緱璁╀綘鎬€鐤戜汉鐢熴€?/p>


馃 绠楁硶涓夛細娣卞害瀛︿範澶ф硶锛堝湡璞笓鐢級

馃殌 涓轰粈涔堣瀹冪墰锛?/h3>

鏌愬ぇ鍘傚唴閮ㄦ祴璇曟暟鎹樉绀猴紝娣卞害瀛︿範妯″瀷姣斾紶缁熸柟娉曗€?strong>鈥嬬籂閿欏噯纭巼鎻愬崌42%鈥?/strong>鈥嬶紒鐗瑰埆鏄鐞?鎷奸煶鍏ㄩ敊浣嗚涔夋纭?鐨勬儏鍐碉紝姣斿锛?/p>

  • 杈撳叆"gongbaojiding"
  • 杈撳嚭"瀹繚楦′竵"

馃敟 鈥?strong>鈥嬪繀鏉€鎶€缁勫悎鈥?/strong>鈥嬶細

  1. BERT鍋氳涔夌悊瑙?/li>
  2. Transformer澶勭悊搴忓垪
  3. CRF鍋氭渶缁堝喅绛?/li>

馃捀 鈥?strong>鈥嬬儳閽辫鍛娾€?/strong>鈥嬶細娌′釜鍑犲崄涓囨潯鏍囨敞鏁版嵁鍜岄珮绔樉鍗★紝寤鸿鍒交鏄撳皾璇曪紒涓嶈繃鐜板湪鏈夌幇鎴愮殑寮€婧愭ā鍨嬶紙姣斿PyTorch鐗堢殑BERT-CCL锛夛紝鍙互鍏堢敤璧锋潵銆?/p>


馃弳 鐙瑙佽В锛氭湭鏉ヨ秼鍔块娴?/h2>

鏍规嵁鎴戞渶杩戝弬鍔犺涓氫細璁惉鍒扮殑娑堟伅锛屸€?strong>鈥?023骞村ご閮ㄤ紒涓氱殑绾犻敊绯荤粺閮藉湪鍋氳繖涓変欢浜嬧€?/strong>鈥嬶細

  1. 缁撳悎鐢ㄦ埛鐢诲儚锛堝勾杞讳汉甯告悳鐨勬祦琛岃浼樺厛锛?/li>
  2. 澶氭ā鎬佺籂閿欙紙姣斿鍥剧墖+鏂囧瓧鑱斿悎鍒ゆ柇锛?/li>
  3. 瀹炴椂鏇存柊鏈哄埗锛堟瘡灏忔椂鏇存柊鐑瘝搴擄級

涓句釜鏈夋剰鎬濈殑渚嬪瓙锛氭煇鐭棰戝钩鍙板彂鐜帮紝鐢ㄦ埛鎶?鍒樼晩瀹?鎵撴垚"鍒樿€曞畯"鐨勬瘮渚嬶紝鍦ㄤ粬鐖嗙伀鐨勯偅鍛ㄧ獊鐒堕鍗?00%锛佷粬浠殑绯荤粺2灏忔椂鍐呭氨鏇存柊浜嗚瘝搴擄紝杩欏氨鏄湭鏉ョ殑鏂瑰悜锛?/p>


鍐欏畬杩欎簺锛岀獊鐒舵兂璧蜂釜浜嬶細鍓嶄袱澶╂垜鎯虫悳"濡備綍鍏诲鑲夋鐗?锛岀粨鏋滄墦鎴?濡備綍鍏诲鑲夊姩鐗?锛岀郴缁熺珶鐒剁粰鎴戞帹鑽愪簡銆婄濂囧姩鐗╁湪鍝噷銆?..鐪嬫潵绾犻敊绠楁硶杩樻湁寰堥暱鐨勮矾瑕佽蛋鍟婏紒馃ぃ 浣犱滑杩橀亣鍒拌繃浠€涔堝钁╃殑鎼滅储缈昏溅鐜板満锛熸杩庡湪璇勮鍖哄垎浜珇

本文由嘻道妙招独家原创,未经允许,严禁转载