مراحل پیش پردازش داده ها قبل از استفاده از Wind Transformer چیست؟

مراحل پیش پردازش داده ها قبل از استفاده از ترانسفورماتور باد برای اطمینان از دقت، کارایی و قابلیت اطمینان عملکرد ترانسفورماتور بسیار مهم است. من به عنوان یک تامین کننده ترانسفورماتور بادی، اهمیت این مراحل را در بهینه سازی عملکرد محصولاتمان درک می کنم. در این وبلاگ، من به مراحل کلیدی پیش پردازشی که باید هنگام برخورد با داده ها برای ترانسفورماتورهای بادی انجام شود، می پردازم.

1. جمع آوری داده ها

اولین مرحله در سفر پیش پردازش، جمع آوری داده ها است. برای ترانسفورماتورهای بادی، داده ها را می توان از چندین کانال دریافت کرد. یکی از منابع اولیه سنسورهایی هستند که مستقیماً روی ترانسفورماتور نصب می شوند. این سنسورها می توانند پارامترهای مختلفی مانند دما، ولتاژ، جریان و سطح روغن را اندازه گیری کنند. سنسورهای دما بسیار مهم هستند زیرا می توانند گرمای بیش از حد را تشخیص دهند که می تواند منجر به آسیب جدی به ترانسفورماتور شود. سنسورهای ولتاژ و جریان به نظارت بر بار الکتریکی و اطمینان از عملکرد ترانسفورماتور در ظرفیت نامی خود کمک می کنند.

منبع دیگر داده، سوابق عملیاتی تاریخی ترانسفورماتور است. این سوابق می‌توانند بینش‌های ارزشمندی در مورد عملکرد بلندمدت ترانسفورماتور، از جمله خرابی‌های گذشته، برنامه‌های تعمیر و نگهداری و شرایط عملیاتی معمولی ارائه دهند. علاوه بر این، داده های محیطی مانند سرعت باد، رطوبت و دمای محیط نیز می توانند جمع آوری شوند. به عنوان مثال، سرعت باد می تواند بر راندمان خنک کننده ترانسفورماتور تأثیر بگذارد و رطوبت ممکن است بر خواص عایق تأثیر بگذارد.

اطمینان از دقیق و سازگار بودن فرآیند جمع آوری داده ها ضروری است. کالیبراسیون منظم سنسورها برای حفظ دقت داده ها ضروری است. علاوه بر این، فرکانس جمع آوری داده ها باید به دقت بر اساس ماهیت پارامتر اندازه گیری شده تعیین شود. برای پارامترهای با تغییر سریع مانند جریان، فرکانس نمونه برداری بالاتر ممکن است مورد نیاز باشد، در حالی که برای پارامترهایی مانند سطح روغن به آرامی تغییر می کند، فرکانس پایین تر ممکن است کافی باشد.

2. پاکسازی داده ها

پس از جمع آوری داده ها، مرحله بعدی پاکسازی داده ها است. داده های خام اغلب حاوی خطاها، مقادیر از دست رفته و نقاط پرت هستند که اگر به درستی مورد توجه قرار نگیرد، می تواند به طور قابل توجهی بر عملکرد ترانسفورماتور باد تأثیر بگذارد.

مقادیر از دست رفته یک مسئله رایج در جمع آوری داده ها است. چندین روش برای مدیریت مقادیر از دست رفته وجود دارد. یک روش این است که به سادگی نقاط داده با مقادیر از دست رفته را حذف کنید. با این حال، این روش ممکن است منجر به از دست رفتن اطلاعات ارزشمند شود، به خصوص اگر تعداد زیادی از نقاط داده تحت تأثیر قرار گیرند. روش دیگر این است که مقادیر از دست رفته را نسبت دهیم. برای داده‌های عددی می‌توان از میانگین، میانه یا مود استفاده کرد. به عنوان مثال، اگر داده های دما دارای چند مقدار از دست رفته باشند، می توان از مقدار متوسط دما برای پر کردن شکاف ها استفاده کرد. برای داده های طبقه بندی، حالت (متداول ترین مقدار) را می توان برای انتساب استفاده کرد.

خطا در داده ها می تواند به دلیل نقص سنسور یا مشکلات انتقال داده رخ دهد. این خطاها باید شناسایی و اصلاح شوند. یکی از راه های تشخیص خطا از طریق بررسی محدوده است. به عنوان مثال، اگر قرائت ولتاژ از یک سنسور خارج از محدوده عملکرد عادی ترانسفورماتور باشد، احتمالاً یک خطا است. هنگامی که یک خطا شناسایی شد، می توان آن را با ارجاع متقابل با سنسورهای دیگر یا داده های تاریخی تصحیح کرد.

نقاط پرت نقاط داده ای هستند که به طور قابل توجهی از الگوی عادی داده ها انحراف دارند. نقاط دورافتاده می توانند ناشی از شرایط عملیاتی غیرعادی یا اشکالات حسگر باشند. در برخی موارد، نقاط پرت ممکن است رویدادهای مهمی مانند افزایش ناگهانی جریان به دلیل اتصال کوتاه را نشان دهند. با این حال، در بیشتر موارد، نقاط پرت نیاز به حذف یا تنظیم دارند. روش های آماری مانند محدوده بین چارکی (IQR) می تواند برای شناسایی نقاط پرت استفاده شود. نقاط داده خارج از محدوده Q1 - 1.5 * IQR و Q3+1.5 * IQR (که Q1 چارک اول و Q3 چارک سوم است) را می توان نقاط پرت در نظر گرفت.

3. عادی سازی داده ها

پس از پاکسازی داده ها، نرمال سازی داده ها انجام می شود. عادی سازی فرآیند مقیاس بندی داده ها به یک محدوده مشترک است. این مرحله مهم است زیرا پارامترهای مختلف ممکن است مقیاس های متفاوتی داشته باشند. به عنوان مثال، ولتاژ ممکن است در محدوده هزاران ولت باشد، در حالی که دما ممکن است در محدوده ده ها درجه سانتیگراد باشد. اگر داده ها نرمال سازی نشوند، پارامترهایی با مقیاس های بزرگتر ممکن است بر تجزیه و تحلیل غالب شوند که منجر به نتایج نادرست شود.

Integral-Wind-Power-Transformer wind transformer

چندین تکنیک عادی سازی وجود دارد. یکی از رایج ترین روش ها نرمال سازی حداقل حداکثری است. در نرمال سازی حداقل تا حداکثر، داده ها در محدوده بین 0 و 1 مقیاس بندی می شوند. فرمول نرمال سازی حداقل - حداکثر این است: (x_{norm}=\frac{x - x_{min}}{x_{max}-x_{min}})، که در آن (x) نقطه داده اصلی است، (x_{min}) حداقل مقدار مجموعه داده ها است، و (x) حداکثر مقدار مجموعه داده

یکی دیگر از روش های عادی سازی رایج z - نرمال سازی امتیاز است. Z - نرمال سازی امتیاز داده ها را با تفریق میانگین و تقسیم بر انحراف معیار استاندارد می کند. فرمول نرمال سازی امتیاز z به این صورت است: (z=\frac{x-\mu}{\sigma})، که در آن (x) نقطه داده اصلی، (\mu) میانگین مجموعه داده ها و (\sigma) انحراف استاندارد است. Z - نرمال سازی امتیاز زمانی مفید است که داده ها از توزیع نرمال پیروی کنند.

4. انتخاب ویژگی

انتخاب ویژگی یک مرحله پیش پردازش مهم است که هدف آن شناسایی مرتبط ترین ویژگی ها برای تجزیه و تحلیل ترانسفورماتور باد است. همه داده های جمع آوری شده ممکن است برای پیش بینی عملکرد یا تشخیص عیوب ترانسفورماتور مفید نباشد. با انتخاب مرتبط‌ترین ویژگی‌ها، می‌توان پیچیدگی محاسباتی را کاهش داد و دقت تحلیل را بهبود بخشید.

روش های مختلفی برای انتخاب ویژگی وجود دارد. یک رویکرد، روش فیلتر است. در روش فیلتر، ویژگی ها بر اساس ویژگی های آماری خود مانند همبستگی با متغیر هدف انتخاب می شوند. برای مثال، اگر هدف پیش‌بینی دمای ترانسفورماتور باشد، ممکن است ویژگی‌هایی که همبستگی بالایی با دما دارند، مانند جریان و سرعت باد انتخاب شوند.

روش Wrapper یکی دیگر از تکنیک های انتخاب ویژگی است. در روش wrapper از یک الگوریتم یادگیری ماشین برای ارزیابی زیرمجموعه های مختلف ویژگی ها استفاده می شود. زیر مجموعه ای از ویژگی هایی که منجر به بهترین عملکرد الگوریتم می شود انتخاب می شود. با این حال، روش Wrapper از نظر محاسباتی گران است زیرا به اجرای چندین الگوریتم یادگیری ماشین نیاز دارد.

روش تعبیه شده مزایای روش های فیلتر و لفاف را ترکیب می کند. این ویژگی ها را در طول فرآیند آموزش مدل انتخاب می کند. تکنیک های منظم سازی مانند رگرسیون کمند و ریج را می توان برای انتخاب ویژگی های جاسازی شده استفاده کرد. این تکنیک‌ها یک عبارت جریمه به مدل اضافه می‌کنند که مدل را تشویق می‌کند فقط مرتبط‌ترین ویژگی‌ها را انتخاب کند.

5. تبدیل داده ها

تبدیل داده ها اغلب برای مناسب تر کردن داده ها برای تجزیه و تحلیل مورد نیاز است. به عنوان مثال، برخی از الگوریتم‌های یادگیری ماشین فرض می‌کنند که داده‌ها از توزیع نرمال پیروی می‌کنند. اگر داده‌ها از توزیع نرمال پیروی نکنند، می‌توان از تکنیک‌های تبدیل برای عادی‌تر کردن آن‌ها استفاده کرد.

تبدیل لگاریتمی یک روش رایج برای تبدیل داده است. می توان از آن برای تبدیل داده های دارای توزیع اریب به توزیع متقارن تر استفاده کرد. به عنوان مثال، اگر داده های جاری دارای یک توزیع دنباله دار هستند، با گرفتن لگاریتم مقادیر فعلی می توان توزیع را نرمال تر کرد.

جعبه - تبدیل کاکس یکی دیگر از تکنیک های قدرتمند تبدیل داده است. می توان از آن برای یافتن تبدیل توان بهینه برای نرمال تر کردن داده ها استفاده کرد. تبدیل Box - Cox از یک پارامتر (\lambda) برای تبدیل داده ها مطابق فرمول استفاده می کند: (y_{(\lambda)}=\frac{y^{\lambda}-1}{\lambda}) برای (\lambda\neq0) و (y_{(\lambda)}=\ln(y)) برای (\lambda = 0).

6. رمزگذاری داده ها

اگر داده ها دارای متغیرهای طبقه بندی هستند، رمزگذاری داده ها ضروری است. متغیرهای طبقه‌ای را نمی‌توان مستقیماً در اکثر الگوریتم‌های یادگیری ماشین استفاده کرد، بنابراین باید به مقادیر عددی تبدیل شوند.

رمزگذاری یک - داغ یک روش پرکاربرد برای رمزگذاری داده های طبقه بندی شده است. در یک کدگذاری داغ، هر دسته به عنوان یک بردار باینری نمایش داده می شود. به عنوان مثال، اگر یک متغیر طبقه بندی دارای سه دسته باشد: A، B، و C، دسته A را می توان به صورت [1، 0، 0]، دسته B را به عنوان [0، 1، 0] و دسته C را به عنوان [0، 0، 1] نشان داد.

رمزگذاری برچسب روش دیگری است که در آن به هر دسته یک مقدار صحیح منحصر به فرد اختصاص داده می شود. با این حال، رمزگذاری برچسب ممکن است یک نظم مصنوعی را برای متغیرهای طبقه بندی ایجاد کند، که ممکن است در برخی موارد مناسب نباشد.

7. پارتیشن بندی داده ها

در نهایت، داده های از پیش پردازش شده باید به مجموعه های آموزشی، اعتبار سنجی و آزمایش تقسیم شوند. مجموعه آموزشی برای آموزش مدل یادگیری ماشین، مجموعه اعتبارسنجی برای تنظیم پارامترهای مدل و مجموعه تست برای ارزیابی عملکرد نهایی مدل استفاده می‌شود.

نسبت پارتیشن بندی متداول به ترتیب 70:15:15 برای آموزش، اعتبار سنجی و مجموعه تست است. با این حال، نسبت را می توان بر اساس اندازه مجموعه داده تنظیم کرد. برای یک مجموعه داده کوچک، ممکن است لازم باشد نسبت بزرگتری به مجموعه آموزشی اختصاص داده شود تا اطمینان حاصل شود که مدل داده های کافی برای یادگیری دارد.

به عنوان یک تامین کننده ترانسفورماتور بادی، ما اهمیت این مراحل پیش پردازش را در حصول اطمینان از عملکرد بهینه محصولات خود درک می کنیم. با پیروی از این مراحل، ما می توانیم ترانسفورماتورهای بادی قابل اعتمادتر و کارآمدتری را در اختیار مشتریان خود قرار دهیم. اگر به ما علاقه مند هستیدترانسفورماتور بادمحصولات یا هر گونه سوالی در مورد پیش پردازش داده ها برای ترانسفورماتورها دارید، از شما استقبال می کنیم که برای تهیه و بحث های بیشتر با ما تماس بگیرید. ما همچنین طیف گسترده ای از محصولات مرتبط مانندترانسفورماتور برقیوترانسفورماتور پایه تک فاز.

مراجع

Han, J., Kamber, M., & Pei, J. (2011). داده کاوی: مفاهیم و تکنیک ها. مورگان کافمن.
هستی، تی، تبشیرانی، آر، و فریدمن، جی (2009). عناصر یادگیری آماری: داده کاوی، استنتاج و پیش بینی. اسپرینگر.
پرووست، اف، و فاوست، تی (2013). علم داده برای تجارت: آنچه باید در مورد داده کاوی و داده بدانید - تفکر تحلیلی. رسانه اوریلی